ObjectMover | 基于视频先验的生成式物体运动模型

ObjectMover 是一项发表于 CVPR 2025 的研究，由香港大学与 Adobe Research 联合提出。其核心目标是解决图像中物体移动的复杂挑战，包括光照协调、视角调整、遮挡区域填充、阴影与反射同步等，同时保持物体身份一致性。传统方法难以处理这些综合问题，因此研究团队提出利用视频生成模型的先验知识，通过序列到序列建模实现物体运动的真实感生成。

核心创新点

视频先验迁移
将物体移动视为两帧视频的特殊案例，利用预训练视频生成模型（如扩散模型）对跨帧一致性的学习能力。通过微调模型，将其从视频生成任务迁移到图像编辑任务。
序列到序列建模
将物体移动任务重构为序列预测问题，输入包括原始图像、目标物体图像、指令图（标注移动位置与方向），输出为物体移动后的合成图像。
合成数据集构建
针对缺乏大规模物体移动真实数据的问题，使用现代游戏引擎（如虚幻引擎）生成高质量合成数据对，涵盖复杂光照、材质和遮挡场景，增强模型训练的多样性。
多任务学习策略
结合物体移动、移除、插入及视频数据插入四个子任务，通过统一框架在合成数据与真实视频数据上训练，提升模型对真实场景的泛化能力。

方法框架

模型架构
- 主任务（移动）：输入图像、物体图像、指令图，通过扩散 Transformer 生成目标帧，融合时间步、位置、任务嵌入。
- 子任务（移除 / 插入）：类似主任务，调整输入条件以实现特定编辑目标。
- 视频数据插入：扩展至视频序列，确保跨帧一致性。
技术细节
- 采用高斯噪声扰动和扩散模型逐步去噪，生成高保真图像。
- 通过多任务学习优化模型对不同编辑任务的适应性。

实验与结果

合成数据验证：在自建游戏引擎数据集上验证模型处理极端光照、材质和遮挡的能力。
真实场景泛化：通过多任务学习，模型在真实图像编辑中表现出鲁棒性，例如准确补全遮挡区域、同步阴影效果。
消融实验：验证视频先验、合成数据及多任务学习的必要性，证明各组件对性能的提升作用。

应用价值

ObjectMover 为图像编辑提供了突破性解决方案，可广泛应用于影视后期、虚拟现实、广告设计等领域，实现高效且真实的物体位置调整。其基于视频模型的迁移学习策略为解决其他图像生成任务（如修复、风格化）提供了新思路。

研究团队与开源

作者：Xin Yu（香港大学）、Tianyu Wang（Adobe Research）等。
开源计划：网页未明确提及代码开源，但提供了论文链接（待补充），未来可能通过 GitHub 或其他平台发布。

总结：ObjectMover 通过视频先验与序列建模的结合，成功解决了图像中物体移动的复杂挑战，为生成式图像编辑树立了新标杆。其创新方法在数据合成与多任务学习方面的突破，对计算机视觉领域具有重要参考价值。

下载权限

查看

￥

免费下载

评论并刷新后下载

登录后下载

查看演示

{{attr.name}}：

您当前的等级为

登录后免费下载登录小黑屋反思中，不准下载！评论后刷新页面下载评论支付以后下载请先登录您今天的下载次数（次）用完了，请明天再来支付积分以后下载立即支付支付以后下载立即支付您当前的用户组不允许下载升级会员

您已获得下载权限您可以下载每天资源次，今日剩余次

📢 免责声明 | 工具使用提醒

1️⃣ 本文内容基于发布时已知信息整理，AI技术及工具更新频繁，请以官方最新说明为准。

2️⃣ 推荐工具经过基础筛选，但未进行深度安全验证，请自行评估适用性及风险。

3️⃣ 使用第三方AI工具时，请注意数据隐私保护，避免上传敏感信息。

4️⃣ 本网站不承担因工具误用、技术故障或内容偏差导致的直接/间接损失。

5️⃣ 部分工具可能涉及付费订阅，请理性决策，本站不含任何投资建议。

{{userData.name}}已认证

ObjectMover | 基于视频先验的生成式物体运动模型

核心创新点

方法框架

实验与结果

应用价值

研究团队与开源

📢 免责声明 | 工具使用提醒

侵删处理

联系客服

商务合作

友链申请

在线工单