
1. Objetivos principales
Sesame está realizando avances tecnológicos para dotar a los asistentes de voz de la capacidad de interactuar de forma natural y emocional, atravesando el efecto "Valle del Horror" para lograr una verdadera "Presencia de Voz" (Voice Presence), y haciendo que las conversaciones entre máquinas se acerquen más al sentido de lo humano. El sentido de la realidad y la confianza en la comunicación.
2. Principales retos técnicos
- Faltan emoción y contextoLos asistentes de voz actuales carecen de expresión emocional, ritmo de diálogo y adaptabilidad contextual, lo que da lugar a una interacción rígida.
- comprensión multimodalEl modelo TTS tradicional es difícil de adaptar a escenarios de diálogo dinámico en tiempo real, ya que necesita procesar simultáneamente información multidimensional como texto, habla y emoción.
- Tiempo real y eficacia: La síntesis del habla tradicional en dos etapas (semántica → acústica) adolece de problemas de latencia y no puede satisfacer los requisitos de interacción en tiempo real.
3. Solución: Modelo Conversacional del Habla (CSM)
- Arquitectura multimodal de extremo a extremo::
- red troncalTransformador basado en llamas: procesa los tokens de texto y audio para predecir los tokens semánticos subyacentes (capa 0).
- códecGeneración por capas de testigos acústicos residuales (capas 1 a N-1) con soporte para generación de baja latencia.
- Tokenización RVQDescomponer el habla en tokens semánticos (características de alto nivel) y tokens acústicos (características detalladas), y optimizar la eficacia de la generación mediante la cuantificación de vectores residuales (RVQ).
- Calcular la estrategia de amortizaciónLa predicción de tokens acústicos para sólo 1/16 fotogramas de audio durante el entrenamiento reduce el consumo de memoria al tiempo que mantiene la calidad de la generación.
4. Experimentación y evaluación
- conjunto de datosLa empresa cuenta con un total de 1 millón de horas de datos de habla inglesa, que abarcan escenarios como diálogos y expresiones emocionales.
- tamaño del modelo::
- Tiny: Backbone 1B + Decodificador 100M
- Pequeño: Backbone 3B + Decodificador 250M
- Medio: Backbone 8B + Decodificador 300M
- Indicadores objetivos::
- WER (tasa de error de palabra): Cercano a los niveles humanos (modelo pequeño 2.9%).
- Similitud de los oradores: 0,938 (cerca del valor de referencia humano de 0,940).
- nuevo indicador::
- desambiguación de homónimos(por ejemplo, distinción de pronunciación de "plomo"): Precisión media del modelo 87%.
- coherencia de la pronunciación(por ejemplo, diferentes variantes de pronunciación de "ruta"): Modelo mediano 70%.
- Evaluación subjetiva (pruebas CMOS)::
- libre de contexto: Los índices de preferencia de los humanos y de los CSM-Medio se aproximan (47,11 TP3T frente a 52,91 TP3T).
- sensible al contextoLas grabaciones humanas superaron significativamente al modelo (66,71 TP3T frente a 33,31 TP3T), lo que sugiere que aún es necesario mejorar la adaptación contextual.
5. Código abierto y planes de futuro
- ampliar los propios recursos financierosCódigo abierto del código del modelo y componentes clave bajo el protocolo Apache 2.0 para facilitar la colaboración de la comunidad.
- limitaciones::
- Dependencia de los datos en inglés y capacidades multilingües limitadas.
- Infrautilización de los conocimientos del modelo lingüístico preformado.
- Modelización insuficiente de la estructura del diálogo (por ejemplo, turnos, pausas).
- dirección futura::
- Se ha ampliado la compatibilidad con más de 20 idiomas y se han añadido datos de formación multimodal.
- Exploración de la fusión de modelos lingüísticos preformados con modelos del habla.
- Desarrollo de un modelo de diálogo dúplex completo para aprender implícitamente la dinámica del diálogo (por ejemplo, ritmo, pausas).
6. Resumen
El modelo CSM de Sesame ha supuesto un gran avance en cuanto a la naturalidad del habla, pero aún queda margen de mejora en la comprensión contextual y el soporte multilingüe. En el futuro, debemos promover que los asistentes de voz avancen hacia una experiencia de interacción más realista e inteligente mediante la ampliación de la escala del modelo, la fusión multimodal y el modelado de la estructura del diálogo.
📢 Descargo de responsabilidad | Recordatorio de uso de la herramienta
1️⃣ El contenido de este artículo se basa en la información conocida en el momento de su publicación. La tecnología y las herramientas de IA se actualizan con frecuencia; consulte las últimas instrucciones oficiales.
2️⃣ Las herramientas recomendadas han sido sometidas a un control básico pero no a una validación de seguridad en profundidad, por lo que le recomendamos que evalúe usted mismo la idoneidad y el riesgo.
3️⃣ Cuando utilices herramientas de IA de terceros, presta atención a la protección de la privacidad de los datos y evita cargar información sensible.
4️⃣ Este sitio web no se hace responsable de los daños directos/indirectos debidos al mal uso de la herramienta, fallos técnicos o desviaciones del contenido.
5️⃣ Algunas herramientas pueden implicar una suscripción de pago, por favor tome una decisión racional, este sitio no contiene ningún consejo de inversión.