
ObjectMover 是一项发表于 CVPR 2025 的研究,由香港大学与 Adobe Research 联合提出。其核心目标是解决图像中物体移动的复杂挑战,包括光照协调、视角调整、遮挡区域填充、阴影与反射同步等,同时保持物体身份一致性。传统方法难以处理这些综合问题,因此研究团队提出利用视频生成模型的先验知识,通过序列到序列建模实现物体运动的真实感生成。
核心创新点
- 视频先验迁移
将物体移动视为两帧视频的特殊案例,利用预训练视频生成模型(如扩散模型)对跨帧一致性的学习能力。通过微调模型,将其从视频生成任务迁移到图像编辑任务。 - 序列到序列建模
将物体移动任务重构为序列预测问题,输入包括原始图像、目标物体图像、指令图(标注移动位置与方向),输出为物体移动后的合成图像。 - 合成数据集构建
针对缺乏大规模物体移动真实数据的问题,使用现代游戏引擎(如虚幻引擎)生成高质量合成数据对,涵盖复杂光照、材质和遮挡场景,增强模型训练的多样性。 - 多任务学习策略
结合物体移动、移除、插入及视频数据插入四个子任务,通过统一框架在合成数据与真实视频数据上训练,提升模型对真实场景的泛化能力。
方法框架
- 模型架构
- 主任务(移动):输入图像、物体图像、指令图,通过扩散 Transformer 生成目标帧,融合时间步、位置、任务嵌入。
- 子任务(移除 / 插入):类似主任务,调整输入条件以实现特定编辑目标。
- 视频数据插入:扩展至视频序列,确保跨帧一致性。
- 技术细节
- 采用高斯噪声扰动和扩散模型逐步去噪,生成高保真图像。
- 通过多任务学习优化模型对不同编辑任务的适应性。
实验与结果
- 合成数据验证:在自建游戏引擎数据集上验证模型处理极端光照、材质和遮挡的能力。
- 真实场景泛化:通过多任务学习,模型在真实图像编辑中表现出鲁棒性,例如准确补全遮挡区域、同步阴影效果。
- 消融实验:验证视频先验、合成数据及多任务学习的必要性,证明各组件对性能的提升作用。
应用价值
ObjectMover 为图像编辑提供了突破性解决方案,可广泛应用于影视后期、虚拟现实、广告设计等领域,实现高效且真实的物体位置调整。其基于视频模型的迁移学习策略为解决其他图像生成任务(如修复、风格化)提供了新思路。
研究团队与开源
- 作者:Xin Yu(香港大学)、Tianyu Wang(Adobe Research)等。
- 开源计划:网页未明确提及代码开源,但提供了论文链接(待补充),未来可能通过 GitHub 或其他平台发布。
总结:ObjectMover 通过视频先验与序列建模的结合,成功解决了图像中物体移动的复杂挑战,为生成式图像编辑树立了新标杆。其创新方法在数据合成与多任务学习方面的突破,对计算机视觉领域具有重要参考价值。
📢 免责声明 | 工具使用提醒
1️⃣ 本文内容基于发布时已知信息整理,AI技术及工具更新频繁,请以官方最新说明为准。
2️⃣ 推荐工具经过基础筛选,但未进行深度安全验证,请自行评估适用性及风险。
3️⃣ 使用第三方AI工具时,请注意数据隐私保护,避免上传敏感信息。
4️⃣ 本网站不承担因工具误用、技术故障或内容偏差导致的直接/间接损失。
5️⃣ 部分工具可能涉及付费订阅,请理性决策,本站不含任何投资建议。