
ObjectMover 是一项发表于 CVPR 2025 的研究,由香港大学与 Adobe Research 联合提出。其核心目标是解决图像中物体移动的复杂挑战,包括光照协调、视角调整、遮挡区域填充、阴影与反射同步等,同时保持物体身份一致性。传统方法难以处理这些综合问题,因此研究团队提出利用视频生成模型的先验知识,通过序列到序列建模实现物体运动的真实感生成。
核心创新点
- 视频先验迁移
将物体移动视为两帧视频的特殊案例,利用预训练视频生成模型(如扩散模型)对跨帧一致性的学习能力。通过微调模型,将其从视频生成任务迁移到图像编辑任务。 - 序列到序列建模
将物体移动任务重构为序列预测问题,输入包括原始图像、目标物体图像、指令图(标注移动位置与方向),输出为物体移动后的合成图像。 - 合成数据集构建
针对缺乏大规模物体移动真实数据的问题,使用现代游戏引擎(如虚幻引擎)生成高质量合成数据对,涵盖复杂光照、材质和遮挡场景,增强模型训练的多样性。 - 多任务学习策略
结合物体移动、移除、插入及视频数据插入四个子任务,通过统一框架在合成数据与真实视频数据上训练,提升模型对真实场景的泛化能力。
方法框架
- 模型架构
- 主任务(移动):输入图像、物体图像、指令图,通过扩散 Transformer 生成目标帧,融合时间步、位置、任务嵌入。
- 子任务(移除 / 插入):类似主任务,调整输入条件以实现特定编辑目标。
- 视频数据插入:扩展至视频序列,确保跨帧一致性。
- 技术细节
- 采用高斯噪声扰动和扩散模型逐步去噪,生成高保真图像。
- 通过多任务学习优化模型对不同编辑任务的适应性。
实验与结果
- 合成数据验证:在自建游戏引擎数据集上验证模型处理极端光照、材质和遮挡的能力。
- 真实场景泛化:通过多任务学习,模型在真实图像编辑中表现出鲁棒性,例如准确补全遮挡区域、同步阴影效果。
- 消融实验:验证视频先验、合成数据及多任务学习的必要性,证明各组件对性能的提升作用。
应用价值
ObjectMover 为图像编辑提供了突破性解决方案,可广泛应用于影视后期、虚拟现实、广告设计等领域,实现高效且真实的物体位置调整。其基于视频模型的迁移学习策略为解决其他图像生成任务(如修复、风格化)提供了新思路。
研究团队与开源
- 作者:Xin Yu(香港大学)、Tianyu Wang(Adobe Research)等。
- 开源计划:网页未明确提及代码开源,但提供了论文链接(待补充),未来可能通过 GitHub 或其他平台发布。
概要:ObjectMover 通过视频先验与序列建模的结合,成功解决了图像中物体移动的复杂挑战,为生成式图像编辑树立了新标杆。其创新方法在数据合成与多任务学习方面的突破,对计算机视觉领域具有重要参考价值。
-
¥免费下载コメントとリフレッシュ後にダウンロードログインしてダウンロード
📢 免責事項|ツール使用上の注意事項
1️⃣ 本記事の内容は掲載時点で判明している情報に基づいており、AIの技術やツールは頻繁に更新されるため、最新の公式説明書をご参照ください。
2️ ⃣ 推奨ツールは基本的なスクリーニングは受けていますが、深いセキュリティ検証は受けていませんので、ご自身で適合性とリスクを評価してください。
3️⃣ サードパーティのAIツールを使用する際は、データプライバシー保護に注意し、機密情報のアップロードを避けてください。
4️ ⃣ 本サイトは、ツールの誤用、技術的な障害、コンテンツの逸脱による直接的/間接的な損害について責任を負いません。
5️🏣ツールによっては有料会員登録が必要な場合があります。合理的な判断をお願いします。当サイトは投資アドバイスを含むものではありません。