
1. 核心目标
Sesame 在通过技术突破,让语音助手具备自然、情感化的交互能力,跨越 “恐怖谷” 效应,实现真正的 “语音存在感”(Voice Presence),使机器对话更贴近人类交流的真实感与信任感。
2. 关键技术挑战
- 情感与上下文缺失:现有语音助手缺乏情感表达、对话节奏和语境适应性,导致交互生硬。
- 多模态理解:需同时处理文本、语音、情感等多维度信息,传统 TTS 模型难以实时适应动态对话场景。
- 实时性与效率:传统两阶段语音合成(语义→声学)存在延迟问题,无法满足实时交互需求。
3. 解决方案:Conversational Speech Model (CSM)
- 端到端多模态架构:
- 骨干网络:基于 Llama 的 Transformer 处理文本和音频令牌,预测基础语义令牌(第 0 层)。
- 解码器:分层生成剩余声学令牌(第 1 至 N-1 层),支持低延迟生成。
- RVQ 令牌化:将语音分解为语义令牌(高层特征)和声学令牌(细节特征),通过残差向量量化(RVQ)优化生成效率。
- 计算摊销策略:训练时仅对 1/16 的音频帧进行声学令牌预测,减少内存消耗,同时保持生成质量。
4. 实验与评估
- 数据集:100 万小时英文语音数据,涵盖对话、情感表达等场景。
- 模型规模:
- Tiny:1B 骨干 + 100M 解码器
- Small:3B 骨干 + 250M 解码器
- Medium:8B 骨干 + 300M 解码器
- 客观指标:
- WER(词错误率):接近人类水平(Small 模型 2.9%)。
- 说话人相似度:0.938(接近人类基准 0.940)。
- 新指标:
- 同形异义词消歧(如 “lead” 发音区分):Medium 模型准确率 87%。
- 发音一致性(如 “route” 不同发音变体):Medium 模型 70%。
- 主观评估(CMOS 测试):
- 无上下文:人类与 CSM-Medium 的偏好率接近(47.1% vs 52.9%)。
- 有上下文:人类录音显著优于模型(66.7% vs 33.3%),表明上下文适应性仍需改进。
5. 开源与未来计划
- 开源:将模型代码和关键组件以 Apache 2.0 协议开源,推动社区协作。
- 局限性:
- 依赖英文数据,多语言能力有限。
- 未充分利用预训练语言模型知识。
- 对话结构(如轮流发言、停顿)建模不足。
- 未来方向:
- 扩展支持 20 + 语言,增加多模态训练数据。
- 探索预训练语言模型与语音模型的融合。
- 开发全双工对话模型,隐式学习对话动态(如节奏、停顿)。
6. 总结
Sesame 的 CSM 模型在语音自然度上取得突破,但在上下文理解和多语言支持方面仍有提升空间。未来需通过模型规模扩展、多模态融合及对话结构建模,推动语音助手向更真实、智能的交互体验迈进。
📢 免责声明 | 工具使用提醒
1️⃣ 本文内容基于发布时已知信息整理,AI技术及工具更新频繁,请以官方最新说明为准。
2️⃣ 推荐工具经过基础筛选,但未进行深度安全验证,请自行评估适用性及风险。
3️⃣ 使用第三方AI工具时,请注意数据隐私保护,避免上传敏感信息。
4️⃣ 本网站不承担因工具误用、技术故障或内容偏差导致的直接/间接损失。
5️⃣ 部分工具可能涉及付费订阅,请理性决策,本站不含任何投资建议。