ObjectMover | 基于视频先验的生成式物体运动模型

ObjectMover | 基于视频先验的生成式物体运动模型

ObjectMover 是一项发表于 CVPR 2025 的研究,由香港大学与 Adobe Research 联合提出。其核心目标是解决图像中物体移动的复杂挑战,包括光照协调、视角调整、遮挡区域填充、阴影与反射同步等,同时保持物体身份一致性。传统方法难以处理这些综合问题,因此研究团队提出利用视频生成模型的先验知识,通过序列到序列建模实现物体运动的真实感生成。

核心创新点

  1. 视频先验迁移
    将物体移动视为两帧视频的特殊案例,利用预训练视频生成模型(如扩散模型)对跨帧一致性的学习能力。通过微调模型,将其从视频生成任务迁移到图像编辑任务。
  2. 序列到序列建模
    将物体移动任务重构为序列预测问题,输入包括原始图像、目标物体图像、指令图(标注移动位置与方向),输出为物体移动后的合成图像。
  3. 合成数据集构建
    针对缺乏大规模物体移动真实数据的问题,使用现代游戏引擎(如虚幻引擎)生成高质量合成数据对,涵盖复杂光照、材质和遮挡场景,增强模型训练的多样性。
  4. 多任务学习策略
    结合物体移动、移除、插入及视频数据插入四个子任务,通过统一框架在合成数据与真实视频数据上训练,提升模型对真实场景的泛化能力。

方法框架

  1. 模型架构
    • 主任务(移动):输入图像、物体图像、指令图,通过扩散 Transformer 生成目标帧,融合时间步、位置、任务嵌入。
    • 子任务(移除 / 插入):类似主任务,调整输入条件以实现特定编辑目标。
    • 视频数据插入:扩展至视频序列,确保跨帧一致性。
  2. 技术细节
    • 采用高斯噪声扰动和扩散模型逐步去噪,生成高保真图像。
    • 通过多任务学习优化模型对不同编辑任务的适应性。

实验与结果

  • 合成数据验证:在自建游戏引擎数据集上验证模型处理极端光照、材质和遮挡的能力。
  • 真实场景泛化:通过多任务学习,模型在真实图像编辑中表现出鲁棒性,例如准确补全遮挡区域、同步阴影效果。
  • 消融实验:验证视频先验、合成数据及多任务学习的必要性,证明各组件对性能的提升作用。

应用价值

ObjectMover 为图像编辑提供了突破性解决方案,可广泛应用于影视后期、虚拟现实、广告设计等领域,实现高效且真实的物体位置调整。其基于视频模型的迁移学习策略为解决其他图像生成任务(如修复、风格化)提供了新思路。

研究团队与开源

  • 作者:Xin Yu(香港大学)、Tianyu Wang(Adobe Research)等。
  • 开源计划:网页未明确提及代码开源,但提供了论文链接(待补充),未来可能通过 GitHub 或其他平台发布。

总结:ObjectMover 通过视频先验与序列建模的结合,成功解决了图像中物体移动的复杂挑战,为生成式图像编辑树立了新标杆。其创新方法在数据合成与多任务学习方面的突破,对计算机视觉领域具有重要参考价值。

下载权限
查看
  • 免费下载
    评论并刷新后下载
    登录后下载
  • {{attr.name}}:
您当前的等级为
登录后免费下载登录 小黑屋反思中,不准下载! 评论后刷新页面下载评论 支付以后下载 请先登录 您今天的下载次数(次)用完了,请明天再来 支付积分以后下载立即支付 支付以后下载立即支付 您当前的用户组不允许下载升级会员
您已获得下载权限 您可以下载每天资源次,今日剩余

📢 免责声明 | 工具使用提醒

1️⃣ 本文内容基于发布时已知信息整理,AI技术及工具更新频繁,请以官方最新说明为准。

2️⃣ 推荐工具经过基础筛选,但未进行深度安全验证,请自行评估适用性及风险。

3️⃣ 使用第三方AI工具时,请注意数据隐私保护,避免上传敏感信息。

4️⃣ 本网站不承担因工具误用、技术故障或内容偏差导致的直接/间接损失。

5️⃣ 部分工具可能涉及付费订阅,请理性决策,本站不含任何投资建议。

给 TA打赏
共{{data.count}}人
人已打赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索