'공포의 계곡'을 넘다: 세서미, 엔드투엔드 멀티모달 모델 CSM 출시

음성 '공포의 계곡'을 건너다: 세서미, 엔드투엔드 멀티모달 모델인 CSM 출시 — SESAME 인터페이스

1. 핵심 목표

세서미는 음성 어시스턴트가 자연스럽고 감정적으로 상호 작용할 수 있도록 기술 혁신을 이루어 '공포의 계곡' 효과를 넘어 진정한 '음성 존재감'(보이스 프레즌스)을 구현하고 기계 대화를 인간의 감각에 가깝게 만들고 있습니다. 현실감과 소통에 대한 신뢰감.

2. 주요 기술적 과제

감정과 컨텍스트가 누락되었습니다.기존 음성 어시스턴트는 감정 표현, 대화 속도, 상황에 맞는 적응력이 부족하여 상호 작용이 딱딱합니다.
멀티모달 이해기존의 TTS 모델은 텍스트, 음성, 감정 등 다차원 정보를 동시에 처리해야 하기 때문에 동적인 대화 시나리오에 실시간으로 적용하기 어렵습니다.
실시간 및 효율성기존의 2단계 음성 합성(시맨틱 → 음향)은 지연 시간 문제로 인해 실시간 상호작용 요건을 충족하지 못합니다.

3. 솔루션: 대화형 음성 모델(CSM)

엔드투엔드 멀티모달 아키텍처::
- 백본 네트워크라마 기반 트랜스포머는 텍스트와 오디오 토큰을 처리하여 기본 시맨틱 토큰(레이어 0)을 예측합니다.
- 코덱지연 시간이 짧은 생성을 지원하는 잔여 음향 토큰(레이어 1 ~ N-1)의 계층형 생성.
- RVQ 토큰화음성을 시맨틱 토큰(상위 수준의 특징)과 음향 토큰(세부 특징)으로 분해하고 잔여 벡터 정량화(RVQ)를 통해 생성 효율을 최적화합니다.
상각 전략 계산훈련 중 1/16 오디오 프레임에 대해서만 음향 토큰을 예측하면 생성 품질을 유지하면서 메모리 소비를 줄일 수 있습니다.

4. 실험 및 평가

데이터 집합이 회사는 대화 및 감정 표현과 같은 시나리오를 포괄하는 총 100만 시간의 영어 음성 데이터를 보유하고 있습니다.
모델 크기::
- 소형: 1B 백본 + 100M 디코더
- 소형: 3B 백본 + 250M 디코더
- 중간: 8B 백본 + 300M 디코더
객관적 지표::
- WER(단어 오류율): 사람 수준에 가깝습니다(소형 모델 2.9%).
- 화자 유사성0.938(인간 벤치마크인 0.940에 근접).
- 새 지표::
  - 동음이의어의 동의어(예: "리드" 발음 구분): 중간 모델 정확도 87%.
  - 발음의 일관성(예: "route"의 다른 발음 변형): 중형 모델 70%.
주관적 평가(CMOS 테스트)::
- 컨텍스트 프리인간과 CSM-미디엄의 선호도는 비슷했습니다(47.11 TP3T 대 52.91 TP3T).
- 상황에 맞는사람의 기록이 모델을 크게 앞질렀습니다(66.71 TP3T 대 33.31 TP3T). 이는 문맥 적응이 여전히 개선되어야 함을 시사합니다.

5. 오픈 소스 및 향후 계획

재정 자원 확장Apache 2.0 프로토콜에 따라 모델 코드와 주요 구성 요소를 오픈소스화하여 커뮤니티 협업을 촉진합니다.
제한 사항::
- 영어 데이터에 의존하고 다국어 기능이 제한적입니다.
- 사전 학습된 언어 모델 지식의 활용도가 낮습니다.
- 대화 구조의 모델링이 불충분합니다(예: 차례 바꾸기, 일시 정지).
향후 방향::
- 20개 이상의 언어에 대한 지원을 확대하고 멀티모달 트레이닝 데이터를 추가했습니다.
- 사전 학습된 언어 모델과 음성 모델의 융합을 살펴보세요.
- 대화 역학(예: 속도, 일시 정지)을 암시적으로 학습하기 위한 전이중 대화 모델 개발.

6. 요약

세서미의 CSM 모델은 음성 자연스러움에서 획기적인 발전을 이루었지만 문맥 이해와 다국어 지원에서는 여전히 개선의 여지가 있습니다. 앞으로는 모델 스케일 확장, 멀티모달 융합, 대화 구조 모델링을 통해 음성 어시스턴트가 더욱 현실적이고 지능적인 상호 작용 경험으로 나아갈 수 있도록 촉진해야 합니다.

다운로드 권한

보기

￥

무료 다운로드

새로 고침 후 댓글 달기 및 다운로드

로그인 후 다운로드

데모 보기

{{attr.name}}:

당신의 현재 등급은

무료 다운로드로그인 작은 검은 방을 반영한 다운로드는 허용되지 않습니다! 다운로드하려면 댓글 후 페이지 새로 고침댓글 支付以后下载 삭제 해주세요로그인 오늘 다운로드가 소진되었습니다(회). 내일 다시 오십시오. 支付积分以后下载바로 결제 支付以后下载바로 결제 현재 사용자 그룹은 다운로드를 허용하지 않습니다.회원 업그레이드

다운로드 권한을 획득 했습니다. 매일 모든 자원을 다운로드 할수 있습니다.회의 특권, 오늘의 나머지회

📢 면책 조항 | 도구 사용 알림

1️⃣ 이 글의 내용은 게시 시점에 알려진 정보를 기반으로 하며, AI 기술 및 도구는 자주 업데이트되므로 최신 공식 지침을 참조하시기 바랍니다.

2️⃣ 권장 도구는 기본 심사를 거쳤지만 심층적인 보안 검증을 거치지 않았으므로 직접 적합성과 위험성을 평가하시기 바랍니다.

3️⃣ 타사 AI 도구를 사용할 때는 데이터 개인정보 보호에 주의하고 민감한 정보는 업로드하지 마세요.

4️⃣ 본 웹사이트는 도구의 오용, 기술적 오류 또는 콘텐츠 편차로 인한 직/간접적 손해에 대해 책임을 지지 않습니다.

5️⃣ 일부 도구에는 유료 구독이 필요할 수 있으므로 합리적인 결정을 내리시기 바라며, 이 사이트에는 투자 조언이 포함되어 있지 않습니다.

{{userData.name}}확인 됨

음성 '공포의 계곡'을 건너다: 세서미, 엔드투엔드 멀티모달 모델인 CSM 출시

1. 핵심 목표

2. 주요 기술적 과제

3. 솔루션: 대화형 음성 모델(CSM)

4. 실험 및 평가

5. 오픈 소스 및 향후 계획

6. 요약

📢 면책 조항 | 도구 사용 알림

침범에 의한 삭제

고객 서비스에 문의

비즈니스 협력

친숙한 링크 애플리케이션

온라인 작업 지시서