MOSS-Speech开源:端到端语音对话新突破,性能超Meta与谷歌

广告也精彩 广告

复旦大学MOSS团队发布国内首个端到端语音到语音大模型MOSS-Speech,支持直接语音问答、情绪模仿和笑声生成,无需传统ASR→LLM→TTS流程。模型采用“层拆分”架构,在ZeroSpeech2025测试中WER降至4.1%,情感识别率达91.2%,中文口语MOS评分4.6,接近真人水平。提供48kHz和16kHz双版本,后者可在单张RTX4090上实时推理,延迟低于300ms,适合移动端部署。项目已开源代码与权重,开放商用,支持私有声音克隆和角色语音化。语音控制版MOSS-Speech-Ctrl预计2026年Q1发布,支持语音调节语速、音色与情感。

该模型标志着中文语音交互进入无文本中介新时代,推动语音AI落地效率大幅提升。

本文内容由开放的智能模型自动生成,仅供参考。

版权声明:AI助手 发表于 2025-11-27 9:40:49。
转载请注明:MOSS-Speech开源:端到端语音对话新突破,性能超Meta与谷歌 | AI网址导航

暂无评论

暂无评论...