Step-Audio：多语言、多风格的智能语音交互

Step-Audio: interacción vocal inteligente en varios idiomas y estilos

Step-Audio es un repositorio de marcos de código abierto para la interacción inteligente por voz:

Información básica

Soporte multilingüe: Los documentos README están disponibles en chino, inglés y japonés para mayor comodidad de los usuarios de distintos idiomas.
Enlaces de proyectos: Incluye enlaces a informes técnicos y a modelos y conjuntos de datos relacionados con Hugging Face, lo que facilita el acceso a recursos adicionales.

Principales elementos y características

1. Funciones principales

Step-Audio es el primer marco de código abierto listo para la producción para la interacción de voz inteligente que armoniza la comprensión del habla y las capacidades de generación con las siguientes características funcionales:

diálogo multilingüe: Admite conversaciones en chino, inglés, japonés y otros idiomas.
tono emocionalCapacidad para mostrar diferentes tonos emocionales, como alegría, tristeza, etc.
dialecto localSoporte para dialectos locales como el cantonés y el szechuan.
Ajuste de la velocidad de voz: Se puede ajustar la velocidad de voz.
esquema rítmico: Admite diferentes estilos de rima, como el rap.

2. Principales innovaciones tecnológicas

Modelos multimodales con 130.000 millones de parámetros
- es un modelo unificado que integra las capacidades de comprensión y generación para realizar tareas como el reconocimiento del habla, la comprensión semántica, el diálogo, la clonación del habla y la síntesis del habla.
- Variante de Step-Audio-Chat de código abierto con 130.000 millones de parámetros.
Motor de datos generativos
- Elimina la dependencia de la recopilación manual de datos en la conversión tradicional de texto a voz (TTS) y genera audio de alta calidad mediante un modelo multimodal con 130.000 millones de parámetros.
- Con estos datos se ha entrenado y puesto a disposición del público un modelo Step-Audio-TTS-3B de bajo consumo de recursos con capacidades mejoradas de seguimiento de comandos para la síntesis del habla controlada.
Control de voz preciso
- La regulación precisa se consigue mediante un diseño de control basado en comandos, que admite una amplia gama de emociones (ira, alegría, tristeza, etc.), dialectos (cantonés, sichuan, etc.) y estilos vocales (rapeo, tarareo a capela, etc.) para satisfacer necesidades diversificadas de generación de voz.
Inteligencia mejorada
- Mejora del rendimiento de las inteligencias en tareas complejas gracias a la integración del mecanismo ToolCall y a las mejoras en los juegos de rol.

3. Modelo de arquitectura

marco del libro de doble códigoEl flujo de audio se tokeniza mediante un marco de doble libro de códigos, que combina etiquetadores semánticos paralelos (16,7 Hz, libro de códigos de 1024 entradas) y acústicos (25 Hz, libro de códigos de 4096 entradas) con intercalación temporal 2:3.
modelo lingüísticoPreentrenamiento de audio continuo de Step-1, un modelo de lenguaje amplio (LLM) basado en texto y preentrenado con 130.000 millones de parámetros, para mejorar la capacidad de Step-Audio de procesar eficazmente la información del habla y lograr una alineación precisa entre habla y texto.
decodificador de vozdesempeña un papel fundamental en la conversión de tokens discretos que contienen información semántica y acústica en formas de onda continuas que representan el habla natural. La arquitectura del descodificador combina un modelo de correspondencia de flujos y un vocoder Mel-to-waveform entrenado mediante un enfoque de intercalación de dos códigos para optimizar la inteligibilidad y naturalidad del habla sintetizada.
Proceso de inferencia en tiempo realEl sistema de inferencia optimizado se ha diseñado con un módulo controlador central que gestiona las transiciones de estado, coordina la generación de respuestas especulativas y garantiza una coordinación perfecta entre los subsistemas clave. Estos subsistemas incluyen la detección de actividad vocal (VAD) para detectar la voz del usuario, un etiquetador de audio streaming para procesar el audio en tiempo real, un modelo de lenguaje Step-Audio y un descodificador de voz para procesar y generar respuestas, y un gestor de contexto para mantener la continuidad del diálogo.

Estructura del almacén

El repositorio contiene las siguientes carpetas y archivos principales:

Dockerfile responder cantando Dockerfile-vllmLos archivos utilizados para construir la imagen Docker.
LÉAME.mdyREADME_CN.mdyREADME_JP.mdDocumento descriptivo del proyecto, que contiene información como la descripción del proyecto, un resumen del modelo y cómo utilizarlo.
requisitos.txt responder cantando requisitos-vllm.txtEl archivo de dependencias del proyecto, que enumera los paquetes de Python necesarios para ejecutar el proyecto.
activos: Almacena los archivos de activos del proyecto, como imágenes, documentos PDF, etc.
ejemplos: Almacena código o datos de ejemplo.
funasr_detachPuede contener código funcional relacionado con el habla.
altavoces: Almacena archivos de audio de avisos relacionados con la voz e información del locutor.
cosyvoice: Puede contener recursos adicionales relacionados con el habla.

Descarga y uso del modelo

Descarga de modelos: Proporciona enlaces para descargar modelos para las plataformas Hugging Face y Modelscope, incluidos los modelos Step-Audio-Tokenizer, Step-Audio-Chat y Step-Audio-TTS-3B.
Uso del modeloLa documentación ofrece información sobre los requisitos necesarios para ejecutar los modelos de Step-Audio, como la memoria GPU mínima necesaria para los distintos modelos.

Step-Audio El repositorio proporciona un marco completo y potente para la interacción inteligente por voz y es un valioso proyecto de código abierto tanto para investigadores como para desarrolladores.

下载权限

查看

￥

免费下载

评论并刷新后下载

登录后下载

查看演示

{{attr.name}}:

您当前的等级为

登录后免费下载登录小黑屋反思中，不准下载！评论后刷新页面下载评论支付以后下载请先登录您今天的下载次数（次）用完了，请明天再来支付积分以后下载立即支付支付以后下载立即支付您当前的用户组不允许下载升级会员

您已获得下载权限您可以每天下载资源次，今日剩余次

📢 Descargo de responsabilidad | Recordatorio de uso de la herramienta

1️⃣ El contenido de este artículo se basa en la información conocida en el momento de su publicación. La tecnología y las herramientas de IA se actualizan con frecuencia; consulte las últimas instrucciones oficiales.

2️⃣ Las herramientas recomendadas han sido sometidas a un control básico pero no a una validación de seguridad en profundidad, por lo que le recomendamos que evalúe usted mismo la idoneidad y el riesgo.

3️⃣ Cuando utilices herramientas de IA de terceros, presta atención a la protección de la privacidad de los datos y evita cargar información sensible.

4️⃣ Este sitio web no se hace responsable de los daños directos/indirectos debidos al mal uso de la herramienta, fallos técnicos o desviaciones del contenido.

5️⃣ Algunas herramientas pueden implicar una suscripción de pago, por favor tome una decisión racional, este sitio no contiene ningún consejo de inversión.

{{userData.name}}已认证

Step-Audio: interacción vocal inteligente en varios idiomas y estilos

Información básica

Principales elementos y características

1. Funciones principales

2. Principales innovaciones tecnológicas

3. Modelo de arquitectura

Estructura del almacén

Descarga y uso del modelo

📢 Descargo de responsabilidad | Recordatorio de uso de la herramienta

eliminar por invasión

Contactar con el Servicio de Atención al Cliente

Cooperación empresarial

Aplicación Friendly Link

Orden de trabajo en línea