스텝 오디오: 다양한 언어와 스타일의 지능형 음성 상호 작용

스텝 오디오: 다양한 언어와 스타일의 지능형 음성 상호 작용

Step-Audio는 지능형 음성 상호작용을 위한 오픈 소스 프레임워크의 저장소입니다:

기본 정보

  • 다국어 지원언어가 다른 사용자의 편의를 위해 중국어, 영어, 일본어로 된 README 문서를 제공합니다.
  • 프로젝트 링크기술 보고서와 허깅 페이스 관련 모델 및 데이터 세트에 대한 링크가 포함되어 있어 추가 리소스에 쉽게 액세스할 수 있습니다.

주요 요소 및 기능

1. 핵심 기능

Step-Audio는 음성 이해 및 생성 기능과 다음과 같은 기능의 조화를 이루는 지능형 음성 상호작용을 위한 최초의 프로덕션 지원 오픈 소스 프레임워크입니다:

  • 다국어 대화중국어, 영어, 일본어 및 기타 언어로 대화를 지원합니다.
  • 감정적 어조기쁨, 슬픔 등 다양한 감정 톤을 표현할 수 있습니다.
  • 지역 방언광둥어, 사천어 등 현지 방언 지원.
  • 음성 속도 조정음성 속도를 조정할 수 있습니다.
  • 운율 체계랩과 같은 다양한 라임 스타일을 지원합니다.

2. 주요 기술 혁신

  • 1,300억 개의 파라미터가 포함된 멀티모달 모델
    • 은 음성 인식, 의미 이해, 대화, 음성 복제 및 음성 합성과 같은 작업을 수행하기 위해 이해 및 생성 기능을 통합한 통합 모델입니다.
    • 1,300억 개의 파라미터가 포함된 오픈 소스 스텝-오디오-챗 변형입니다.
  • 제너레이티브 데이터 엔진
    • 기존 텍스트 음성 변환(TTS)에서 수동 데이터 수집에 의존하지 않고 1,300억 개의 파라미터가 포함된 멀티모달 모델을 통해 고품질 오디오를 생성합니다.
    • 이러한 데이터를 사용하여 제어 음성 합성을 위한 향상된 명령 팔로잉 기능을 갖춘 리소스 효율적인 Step-Audio-TTS-3B 모델을 학습하고 공개적으로 사용할 수 있도록 했습니다.
  • 미세 음성 제어
    • 명령어 기반 제어 설계를 통해 정밀한 조절이 가능하며, 다양한 감정(분노, 기쁨, 슬픔 등), 방언(광동어, 사천어 등), 보컬 스타일(랩, 아카펠라 허밍 등)을 지원하여 다양한 음성 생성 요구를 충족합니다.
  • 향상된 인텔리전스
    • ToolCall 메커니즘 통합 및 롤플레잉 개선을 통해 복잡한 작업에서 인텔리전스 성능이 향상되었습니다.

3. 모델 아키텍처

  • 듀얼 코드북 프레임워크오디오 스트림은 병렬 시맨틱(16.7Hz, 1024개 항목 코드북) 및 음향(25Hz, 4096개 항목 코드북) 태거와 2:3 시간 인터리빙을 결합한 이중 코드북 프레임워크를 통해 토큰화됩니다.
  • 언어 모델1,300억 개의 파라미터를 기반으로 사전 학습된 텍스트 기반 대규모 언어 모델(LLM)인 Step-1의 지속적인 오디오 사전 학습을 통해 음성 정보를 효율적으로 처리하고 정확한 음성-텍스트 정렬을 달성하는 Step-Audio의 능력을 향상시킵니다.
  • 음성 디코더는 의미 및 음향 정보가 포함된 개별 음성 토큰을 자연스러운 음성을 나타내는 연속적인 시간 영역 파형으로 변환하는 데 핵심적인 역할을 합니다. 디코더 아키텍처는 스트림 매칭 모델과 2코드 인터리빙 접근 방식을 사용하여 학습된 멜투 파형 보코더를 결합하여 합성 음성의 명료성과 자연스러움을 최적화합니다.
  • 실시간 추론 파이프라인최적화된 추론 파이프라인은 상태 전환을 관리하고, 추측 응답 생성을 조정하며, 주요 하위 시스템 간의 원활한 조정을 보장하는 핵심 컨트롤러 모듈로 설계되었습니다. 이러한 하위 시스템에는 사용자의 음성을 감지하는 음성 활동 감지(VAD), 실시간 오디오 처리를 위한 스트리밍 오디오 태거, 응답 처리 및 생성을 위한 스텝 오디오 언어 모델 및 음성 디코더, 대화 연속성 유지를 위한 컨텍스트 관리자가 포함됩니다.

창고 구조

리포지토리에는 다음과 같은 주요 폴더와 파일이 포함되어 있습니다:

  • 도커파일 노래로 응답 도커파일-vllmDocker 이미지 빌드에 사용되는 파일입니다.
  • README.md,README_CN.md,README_JP.md프로젝트 설명, 모델 요약, 사용 방법 등의 정보가 포함된 프로젝트를 설명하는 문서입니다.
  • 요구 사항.txt 노래로 응답 요구 사항-vllm.txt프로젝트의 종속성 파일로, 프로젝트 실행에 필요한 Python 패키지를 나열합니다.
  • 자산이미지, PDF 문서 등과 같은 프로젝트의 에셋 파일을 저장합니다.
  • 예제예제 코드 또는 데이터를 저장합니다.
  • funasr_detach음성 관련 기능 코드를 포함할 수 있습니다.
  • 스피커음성 관련 프롬프트 오디오 파일 및 화자 정보를 저장합니다.
  • cosyvoice음성 관련 추가 리소스를 포함할 수 있습니다.

모델 다운로드 및 사용

  • 모델 다운로드단계별 오디오 토큰화, 단계별 오디오 챗, 단계별 오디오 TTS-3B 모델을 포함한 허깅 페이스 및 모델스코프 플랫폼용 모델을 다운로드할 수 있는 링크를 제공합니다.
  • 모델 사용이 문서에서는 다양한 모델에 필요한 최소 GPU 메모리 등 스텝 오디오 모델을 실행하기 위한 요구 사항에 대한 정보를 제공합니다.

스텝 오디오 이 리포지토리는 지능형 음성 상호작용을 위한 포괄적이고 강력한 프레임워크를 제공하며 연구자와 개발자 모두에게 유용한 오픈 소스 프로젝트입니다.

다운로드 권한
보기
  • 무료 다운로드
    새로 고침 후 댓글 달기 및 다운로드
    로그인 후 다운로드
  • {{attr.name}}:
당신의 현재 등급은
무료 다운로드로그인 작은 검은 방을 반영한 다운로드는 허용되지 않습니다! 다운로드하려면 댓글 후 페이지 새로 고침댓글 支付以后下载 삭제 해주세요로그인 오늘 다운로드가 소진되었습니다(회). 내일 다시 오십시오. 支付积分以后下载바로 결제 支付以后下载바로 결제 현재 사용자 그룹은 다운로드를 허용하지 않습니다.회원 업그레이드
다운로드 권한을 획득 했습니다. 매일 모든 자원을 다운로드 할수 있습니다.회의 특권, 오늘의 나머지

📢 면책 조항 | 도구 사용 알림

1️⃣ 이 글의 내용은 게시 시점에 알려진 정보를 기반으로 하며, AI 기술 및 도구는 자주 업데이트되므로 최신 공식 지침을 참조하시기 바랍니다.

2️⃣ 권장 도구는 기본 심사를 거쳤지만 심층적인 보안 검증을 거치지 않았으므로 직접 적합성과 위험성을 평가하시기 바랍니다.

3️⃣ 타사 AI 도구를 사용할 때는 데이터 개인정보 보호에 주의하고 민감한 정보는 업로드하지 마세요.

4️⃣ 본 웹사이트는 도구의 오용, 기술적 오류 또는 콘텐츠 편차로 인한 직/간접적 손해에 대해 책임을 지지 않습니다.

5️⃣ 일부 도구에는 유료 구독이 필요할 수 있으므로 합리적인 결정을 내리시기 바라며, 이 사이트에는 투자 조언이 포함되어 있지 않습니다.

타에게팁
총 {{data.count}} 명
사람들은 팁
0 댓글 A文章作者 M관리자
    당신의 의견을 말해 주세요.
❯❯❯❯❯❯❯❯❯❯❯❯❯❯❯
내 페이지
장바구니
할인쿠폰
오늘출석
새 메시지 메시지
검색