跨越语音 “恐怖谷”:Sesame 推出端到端多模态模型 CSM

跨越语音 “恐怖谷”:Sesame 推出端到端多模态模型 CSM
SESAME界面

1. 核心目标

Sesame 在通过技术突破,让语音助手具备自然、情感化的交互能力,跨越 “恐怖谷” 效应,实现真正的 “语音存在感”(Voice Presence),使机器对话更贴近人类交流的真实感与信任感。

2. 关键技术挑战

  • 情感与上下文缺失:现有语音助手缺乏情感表达、对话节奏和语境适应性,导致交互生硬。
  • 多模态理解:需同时处理文本、语音、情感等多维度信息,传统 TTS 模型难以实时适应动态对话场景。
  • 实时性与效率:传统两阶段语音合成(语义→声学)存在延迟问题,无法满足实时交互需求。

3. 解决方案:Conversational Speech Model (CSM)

  • 端到端多模态架构
    • 骨干网络:基于 Llama 的 Transformer 处理文本和音频令牌,预测基础语义令牌(第 0 层)。
    • 解码器:分层生成剩余声学令牌(第 1 至 N-1 层),支持低延迟生成。
    • RVQ 令牌化:将语音分解为语义令牌(高层特征)和声学令牌(细节特征),通过残差向量量化(RVQ)优化生成效率。
  • 计算摊销策略:训练时仅对 1/16 的音频帧进行声学令牌预测,减少内存消耗,同时保持生成质量。

4. 实验与评估

  • 数据集:100 万小时英文语音数据,涵盖对话、情感表达等场景。
  • 模型规模
    • Tiny:1B 骨干 + 100M 解码器
    • Small:3B 骨干 + 250M 解码器
    • Medium:8B 骨干 + 300M 解码器
  • 客观指标
    • WER(词错误率):接近人类水平(Small 模型 2.9%)。
    • 说话人相似度:0.938(接近人类基准 0.940)。
    • 新指标
      • 同形异义词消歧(如 “lead” 发音区分):Medium 模型准确率 87%。
      • 发音一致性(如 “route” 不同发音变体):Medium 模型 70%。
  • 主观评估(CMOS 测试)
    • 无上下文:人类与 CSM-Medium 的偏好率接近(47.1% vs 52.9%)。
    • 有上下文:人类录音显著优于模型(66.7% vs 33.3%),表明上下文适应性仍需改进。

5. 开源与未来计划

  • ざいげんをひろげる:将模型代码和关键组件以 Apache 2.0 协议开源,推动社区协作。
  • 局限性
    • 依赖英文数据,多语言能力有限。
    • 未充分利用预训练语言模型知识。
    • 对话结构(如轮流发言、停顿)建模不足。
  • 未来方向
    • 扩展支持 20 + 语言,增加多模态训练数据。
    • 探索预训练语言模型与语音模型的融合。
    • 开发全双工对话模型,隐式学习对话动态(如节奏、停顿)。

6. 总结

Sesame 的 CSM 模型在语音自然度上取得突破,但在上下文理解和多语言支持方面仍有提升空间。未来需通过模型规模扩展、多模态融合及对话结构建模,推动语音助手向更真实、智能的交互体验迈进。

ダウンロード許可
見る
  • 免费下载
    コメントとリフレッシュ後にダウンロード
    ログインしてダウンロード
  • {{attr.name}}:
あなたの現在のレベルは
ログインして無料でダウンロードログイン 小さな暗い反省室ではダウンロードは禁止されている! コメント後にページを更新してダウンロードするコメント 後でダウンロードするにはを支払う 選択してくださいログイン 本日のダウンロードは終了しました()! クレジットを支払う 後でダウンロードするすぐに支払う 後でダウンロードするにはを支払うすぐに支払う 現在のユーザーグループはダウンロードを許可していません。メンバーシップのアップグレード
ダウンロードアクセスが許可されました 毎日資料をダウンロードできる回、今日も残る

📢 免責事項|ツール使用上の注意事項

1️⃣ 本記事の内容は掲載時点で判明している情報に基づいており、AIの技術やツールは頻繁に更新されるため、最新の公式説明書をご参照ください。

2️ ⃣ 推奨ツールは基本的なスクリーニングは受けていますが、深いセキュリティ検証は受けていませんので、ご自身で適合性とリスクを評価してください。

3️⃣ サードパーティのAIツールを使用する際は、データプライバシー保護に注意し、機密情報のアップロードを避けてください。

4️ ⃣ 本サイトは、ツールの誤用、技術的な障害、コンテンツの逸脱による直接的/間接的な損害について責任を負いません。

5️🏣ツールによっては有料会員登録が必要な場合があります。合理的な判断をお願いします。当サイトは投資アドバイスを含むものではありません。

TA[0]へ
合計 [0]
人々はお礼を持っている。
0 返信 A文章作者 M管理员
    ディスカッションはまだありません。 ご意見をお聞かせください。
❯❯❯❯❯❯❯❯❯❯❯❯❯❯❯
パーソナルセンター
カート
クーポン
今日でサインインしました
新しいプライベートメッセージがある。 プライベートメッセージリスト
検索