
ObjectMover es una investigación publicada en CVPR 2025 y propuesta conjuntamente por la Universidad de Hong Kong y Adobe Research. Su objetivo principal es abordar los complejos retos que plantea el movimiento de objetos en imágenes, como la coordinación de la iluminación, el ajuste del punto de vista, el relleno de regiones ocluidas, la sincronización de sombras y reflejos, etc., manteniendo al mismo tiempo la coherencia de la identidad de los objetos. Los métodos tradicionales son difíciles de abordar estos problemas integrados, por lo que el equipo de investigación propone aprovechar el conocimiento a priori de los modelos de generación de vídeo para lograr una generación realista del movimiento de los objetos mediante el modelado secuencia a secuencia.
Puntos básicos de innovación
- vídeo migración a priori
Considerando el movimiento de objetos como un caso especial de vídeo de dos fotogramas, se explota la capacidad de aprendizaje de los modelos de generación de vídeo preentrenados (por ejemplo, modelos de difusión) para la coherencia entre fotogramas. Migrar el modelo de una tarea de generación de vídeo a una tarea de edición de imágenes afinándolo. - Modelización secuencia a secuencia
La tarea de movimiento del objeto se reconstruye como un problema de predicción de secuencias, en el que las entradas incluyen la imagen original, la imagen del objeto objetivo, el mapa de comandos (etiquetado con la posición y la dirección del movimiento), y la salida es una imagen sintética del objeto después del movimiento. - Construcción de conjuntos de datos sintéticos
Para hacer frente a la falta de datos reales para el movimiento de objetos a gran escala, se utilizan motores de juego modernos (por ejemplo, Unreal Engine) para generar pares de datos sintéticos de alta calidad que cubren escenarios complejos de iluminación, textura y oclusión para mejorar la versatilidad del entrenamiento de modelos. - estrategia de aprendizaje multitarea
Combinando las cuatro subtareas de movimiento de objetos, eliminación, inserción e inserción de datos de vídeo, el modelo se entrena con datos sintéticos y datos de vídeo reales mediante un marco unificado para mejorar la capacidad de generalización del modelo a escenas reales.
Marco metodológico
- arquitectura modelo
- Misión principal (móvil)Imágenes de entrada, imágenes de objetos, mapas de comandos, generación de fotogramas objetivo mediante transformador de difusión, paso de tiempo de fusión, posición, incrustación de tareas.
- Subtareas (eliminar/insertar): De forma similar a la tarea principal, ajusta las condiciones de entrada para lograr un objetivo de edición específico.
- Inserción de datos de vídeoSe extiende a las secuencias de vídeo para garantizar la coherencia entre fotogramas.
- Ficha técnica
- Para generar imágenes de alta fidelidad se utiliza un modelo de perturbación y difusión de ruido gaussiano para la eliminación gradual de ruido.
- Optimización de la adaptación de modelos a distintas tareas de edición mediante el aprendizaje multitarea.
Experimentos y resultados
- Validación de datos sintéticosValidar la capacidad del modelo para manejar iluminación extrema, materiales y oclusión en un conjunto de datos de un motor de juegos de construcción casera.
- Generalización de escenas realesGracias al aprendizaje multitarea, el modelo demuestra su solidez en la edición de imágenes reales, por ejemplo, complementando con precisión las regiones ocluidas y sincronizando los efectos de sombra.
- experimento de ablaciónValidar la necesidad del vídeo previo, los datos sintéticos y el aprendizaje multitarea y demostrar la mejora del rendimiento de cada componente.
valor aplicado
ObjectMover proporciona una solución innovadora para la edición de imágenes, que puede utilizarse ampliamente en la postproducción de cine y televisión, la realidad virtual, el diseño publicitario, etc. para lograr un ajuste eficaz y realista de la posición de los objetos. Su estrategia de aprendizaje por transferencia basada en modelos de vídeo aporta nuevas ideas para resolver otras tareas de generación de imágenes (por ejemplo, restauración, estilización).
Equipos de investigación y código abierto
- autorXin Yu (Universidad de Hong Kong), Tianyu Wang (Adobe Research), y otros.
- programa de código abiertoLa página web no menciona explícitamente que el código sea de código abierto, pero proporciona un enlace al documento (por añadir), que podría publicarse a través de GitHub u otras plataformas en el futuro.
resúmenesObjectMover resuelve con éxito el complejo reto del movimiento de objetos en imágenes mediante la combinación de vídeo previo y modelado de secuencias, estableciendo un nuevo punto de referencia para la edición generativa de imágenes. El avance de su enfoque innovador en la síntesis de datos y el aprendizaje multitarea tiene un importante valor de referencia para el campo de la visión por ordenador.
📢 Descargo de responsabilidad | Recordatorio de uso de la herramienta
1️⃣ El contenido de este artículo se basa en la información conocida en el momento de su publicación. La tecnología y las herramientas de IA se actualizan con frecuencia; consulte las últimas instrucciones oficiales.
2️⃣ Las herramientas recomendadas han sido sometidas a un control básico pero no a una validación de seguridad en profundidad, por lo que le recomendamos que evalúe usted mismo la idoneidad y el riesgo.
3️⃣ Cuando utilices herramientas de IA de terceros, presta atención a la protección de la privacidad de los datos y evita cargar información sensible.
4️⃣ Este sitio web no se hace responsable de los daños directos/indirectos debidos al mal uso de la herramienta, fallos técnicos o desviaciones del contenido.
5️⃣ Algunas herramientas pueden implicar una suscripción de pago, por favor tome una decisión racional, este sitio no contiene ningún consejo de inversión.