
Step-Audio es un repositorio de marcos de código abierto para la interacción inteligente por voz:
Información básica
- Soporte multilingüe: Los documentos README están disponibles en chino, inglés y japonés para mayor comodidad de los usuarios de distintos idiomas.
- Enlaces de proyectos: Incluye enlaces a informes técnicos y a modelos y conjuntos de datos relacionados con Hugging Face, lo que facilita el acceso a recursos adicionales.
Principales elementos y características
1. Funciones principales
Step-Audio es el primer marco de código abierto listo para la producción para la interacción de voz inteligente que armoniza la comprensión del habla y las capacidades de generación con las siguientes características funcionales:
- diálogo multilingüe: Admite conversaciones en chino, inglés, japonés y otros idiomas.
- tono emocionalCapacidad para mostrar diferentes tonos emocionales, como alegría, tristeza, etc.
- dialecto localSoporte para dialectos locales como el cantonés y el szechuan.
- Ajuste de la velocidad de voz: Se puede ajustar la velocidad de voz.
- esquema rítmico: Admite diferentes estilos de rima, como el rap.
2. Principales innovaciones tecnológicas
- Modelos multimodales con 130.000 millones de parámetros
- es un modelo unificado que integra las capacidades de comprensión y generación para realizar tareas como el reconocimiento del habla, la comprensión semántica, el diálogo, la clonación del habla y la síntesis del habla.
- Variante de Step-Audio-Chat de código abierto con 130.000 millones de parámetros.
- Motor de datos generativos
- Elimina la dependencia de la recopilación manual de datos en la conversión tradicional de texto a voz (TTS) y genera audio de alta calidad mediante un modelo multimodal con 130.000 millones de parámetros.
- Con estos datos se ha entrenado y puesto a disposición del público un modelo Step-Audio-TTS-3B de bajo consumo de recursos con capacidades mejoradas de seguimiento de comandos para la síntesis del habla controlada.
- Control de voz preciso
- La regulación precisa se consigue mediante un diseño de control basado en comandos, que admite una amplia gama de emociones (ira, alegría, tristeza, etc.), dialectos (cantonés, sichuan, etc.) y estilos vocales (rapeo, tarareo a capela, etc.) para satisfacer necesidades diversificadas de generación de voz.
- Inteligencia mejorada
- Mejora del rendimiento de las inteligencias en tareas complejas gracias a la integración del mecanismo ToolCall y a las mejoras en los juegos de rol.
3. Modelo de arquitectura
- marco del libro de doble códigoEl flujo de audio se tokeniza mediante un marco de doble libro de códigos, que combina etiquetadores semánticos paralelos (16,7 Hz, libro de códigos de 1024 entradas) y acústicos (25 Hz, libro de códigos de 4096 entradas) con intercalación temporal 2:3.
- modelo lingüísticoPreentrenamiento de audio continuo de Step-1, un modelo de lenguaje amplio (LLM) basado en texto y preentrenado con 130.000 millones de parámetros, para mejorar la capacidad de Step-Audio de procesar eficazmente la información del habla y lograr una alineación precisa entre habla y texto.
- decodificador de vozdesempeña un papel fundamental en la conversión de tokens discretos que contienen información semántica y acústica en formas de onda continuas que representan el habla natural. La arquitectura del descodificador combina un modelo de correspondencia de flujos y un vocoder Mel-to-waveform entrenado mediante un enfoque de intercalación de dos códigos para optimizar la inteligibilidad y naturalidad del habla sintetizada.
- Proceso de inferencia en tiempo realEl sistema de inferencia optimizado se ha diseñado con un módulo controlador central que gestiona las transiciones de estado, coordina la generación de respuestas especulativas y garantiza una coordinación perfecta entre los subsistemas clave. Estos subsistemas incluyen la detección de actividad vocal (VAD) para detectar la voz del usuario, un etiquetador de audio streaming para procesar el audio en tiempo real, un modelo de lenguaje Step-Audio y un descodificador de voz para procesar y generar respuestas, y un gestor de contexto para mantener la continuidad del diálogo.
Estructura del almacén
El repositorio contiene las siguientes carpetas y archivos principales:
Dockerfile
responder cantandoDockerfile-vllm
Los archivos utilizados para construir la imagen Docker.LÉAME.md
yREADME_CN.md
yREADME_JP.md
Documento descriptivo del proyecto, que contiene información como la descripción del proyecto, un resumen del modelo y cómo utilizarlo.requisitos.txt
responder cantandorequisitos-vllm.txt
El archivo de dependencias del proyecto, que enumera los paquetes de Python necesarios para ejecutar el proyecto.activos
: Almacena los archivos de activos del proyecto, como imágenes, documentos PDF, etc.ejemplos
: Almacena código o datos de ejemplo.funasr_detach
Puede contener código funcional relacionado con el habla.altavoces
: Almacena archivos de audio de avisos relacionados con la voz e información del locutor.cosyvoice
: Puede contener recursos adicionales relacionados con el habla.
Descarga y uso del modelo
- Descarga de modelos: Proporciona enlaces para descargar modelos para las plataformas Hugging Face y Modelscope, incluidos los modelos Step-Audio-Tokenizer, Step-Audio-Chat y Step-Audio-TTS-3B.
- Uso del modeloLa documentación ofrece información sobre los requisitos necesarios para ejecutar los modelos de Step-Audio, como la memoria GPU mínima necesaria para los distintos modelos.
Step-Audio
El repositorio proporciona un marco completo y potente para la interacción inteligente por voz y es un valioso proyecto de código abierto tanto para investigadores como para desarrolladores.
📢 Descargo de responsabilidad | Recordatorio de uso de la herramienta
1️⃣ El contenido de este artículo se basa en la información conocida en el momento de su publicación. La tecnología y las herramientas de IA se actualizan con frecuencia; consulte las últimas instrucciones oficiales.
2️⃣ Las herramientas recomendadas han sido sometidas a un control básico pero no a una validación de seguridad en profundidad, por lo que le recomendamos que evalúe usted mismo la idoneidad y el riesgo.
3️⃣ Cuando utilices herramientas de IA de terceros, presta atención a la protección de la privacidad de los datos y evita cargar información sensible.
4️⃣ Este sitio web no se hace responsable de los daños directos/indirectos debidos al mal uso de la herramienta, fallos técnicos o desviaciones del contenido.
5️⃣ Algunas herramientas pueden implicar una suscripción de pago, por favor tome una decisión racional, este sitio no contiene ningún consejo de inversión.