Cruzar el "valle del terror" de la voz: Sesame lanza CSM, un modelo multimodal de extremo a extremo

Cruzar el "valle del terror" de la voz: Sesame lanza CSM, un modelo multimodal de extremo a extremo
Interfaz SESAME

1. Objetivos principales

Sesame está realizando avances tecnológicos para dotar a los asistentes de voz de la capacidad de interactuar de forma natural y emocional, atravesando el efecto "Valle del Horror" para lograr una verdadera "Presencia de Voz" (Voice Presence), y haciendo que las conversaciones entre máquinas se acerquen más al sentido de lo humano. El sentido de la realidad y la confianza en la comunicación.

2. Principales retos técnicos

  • Faltan emoción y contextoLos asistentes de voz actuales carecen de expresión emocional, ritmo de diálogo y adaptabilidad contextual, lo que da lugar a una interacción rígida.
  • comprensión multimodalEl modelo TTS tradicional es difícil de adaptar a escenarios de diálogo dinámico en tiempo real, ya que necesita procesar simultáneamente información multidimensional como texto, habla y emoción.
  • Tiempo real y eficacia: La síntesis del habla tradicional en dos etapas (semántica → acústica) adolece de problemas de latencia y no puede satisfacer los requisitos de interacción en tiempo real.

3. Solución: Modelo Conversacional del Habla (CSM)

  • Arquitectura multimodal de extremo a extremo::
    • red troncalTransformador basado en llamas: procesa los tokens de texto y audio para predecir los tokens semánticos subyacentes (capa 0).
    • códecGeneración por capas de testigos acústicos residuales (capas 1 a N-1) con soporte para generación de baja latencia.
    • Tokenización RVQDescomponer el habla en tokens semánticos (características de alto nivel) y tokens acústicos (características detalladas), y optimizar la eficacia de la generación mediante la cuantificación de vectores residuales (RVQ).
  • Calcular la estrategia de amortizaciónLa predicción de tokens acústicos para sólo 1/16 fotogramas de audio durante el entrenamiento reduce el consumo de memoria al tiempo que mantiene la calidad de la generación.

4. Experimentación y evaluación

  • conjunto de datosLa empresa cuenta con un total de 1 millón de horas de datos de habla inglesa, que abarcan escenarios como diálogos y expresiones emocionales.
  • tamaño del modelo::
    • Tiny: Backbone 1B + Decodificador 100M
    • Pequeño: Backbone 3B + Decodificador 250M
    • Medio: Backbone 8B + Decodificador 300M
  • Indicadores objetivos::
    • WER (tasa de error de palabra): Cercano a los niveles humanos (modelo pequeño 2.9%).
    • Similitud de los oradores: 0,938 (cerca del valor de referencia humano de 0,940).
    • nuevo indicador::
      • desambiguación de homónimos(por ejemplo, distinción de pronunciación de "plomo"): Precisión media del modelo 87%.
      • coherencia de la pronunciación(por ejemplo, diferentes variantes de pronunciación de "ruta"): Modelo mediano 70%.
  • Evaluación subjetiva (pruebas CMOS)::
    • libre de contexto: Los índices de preferencia de los humanos y de los CSM-Medio se aproximan (47,11 TP3T frente a 52,91 TP3T).
    • sensible al contextoLas grabaciones humanas superaron significativamente al modelo (66,71 TP3T frente a 33,31 TP3T), lo que sugiere que aún es necesario mejorar la adaptación contextual.

5. Código abierto y planes de futuro

  • ampliar los propios recursos financierosCódigo abierto del código del modelo y componentes clave bajo el protocolo Apache 2.0 para facilitar la colaboración de la comunidad.
  • limitaciones::
    • Dependencia de los datos en inglés y capacidades multilingües limitadas.
    • Infrautilización de los conocimientos del modelo lingüístico preformado.
    • Modelización insuficiente de la estructura del diálogo (por ejemplo, turnos, pausas).
  • dirección futura::
    • Se ha ampliado la compatibilidad con más de 20 idiomas y se han añadido datos de formación multimodal.
    • Exploración de la fusión de modelos lingüísticos preformados con modelos del habla.
    • Desarrollo de un modelo de diálogo dúplex completo para aprender implícitamente la dinámica del diálogo (por ejemplo, ritmo, pausas).

6. Resumen

El modelo CSM de Sesame ha supuesto un gran avance en cuanto a la naturalidad del habla, pero aún queda margen de mejora en la comprensión contextual y el soporte multilingüe. En el futuro, debemos promover que los asistentes de voz avancen hacia una experiencia de interacción más realista e inteligente mediante la ampliación de la escala del modelo, la fusión multimodal y el modelado de la estructura del diálogo.

下载权限
查看
  • 免费下载
    评论并刷新后下载
    登录后下载
  • {{attr.name}}:
您当前的等级为
登录后免费下载登录 小黑屋反思中,不准下载! 评论后刷新页面下载评论 支付以后下载 请先登录 您今天的下载次数(次)用完了,请明天再来 支付积分以后下载立即支付 支付以后下载立即支付 您当前的用户组不允许下载升级会员
您已获得下载权限 您可以每天下载资源次,今日剩余

📢 Descargo de responsabilidad | Recordatorio de uso de la herramienta

1️⃣ El contenido de este artículo se basa en la información conocida en el momento de su publicación. La tecnología y las herramientas de IA se actualizan con frecuencia; consulte las últimas instrucciones oficiales.

2️⃣ Las herramientas recomendadas han sido sometidas a un control básico pero no a una validación de seguridad en profundidad, por lo que le recomendamos que evalúe usted mismo la idoneidad y el riesgo.

3️⃣ Cuando utilices herramientas de IA de terceros, presta atención a la protección de la privacidad de los datos y evita cargar información sensible.

4️⃣ Este sitio web no se hace responsable de los daños directos/indirectos debidos al mal uso de la herramienta, fallos técnicos o desviaciones del contenido.

5️⃣ Algunas herramientas pueden implicar una suscripción de pago, por favor tome una decisión racional, este sitio no contiene ningún consejo de inversión.

给TA打赏
共{{data.count}}人
人已打赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
❯❯❯❯❯❯❯❯❯❯❯❯❯❯❯
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索