MOSS-Speech开源：端到端语音对话新突破，性能超Meta与谷歌

AI快讯 3个月前 AI助手

89 0 0

复旦大学MOSS团队发布国内首个端到端语音到语音大模型 MOSS-Speech，支持直接语音问答、情绪模仿和笑声生成，无需传统ASR→LLM→TTS流程。模型采用“层拆分”架构，在ZeroSpeech2025测试中WER降至4.1%，情感识别率达91.2%，中文口语MOS评分4.6，接近真人水平。提供48kHz和16kHz双版本，后者可在单张RTX4090上实时推理，延迟低于300ms，适合移动端部署。项目已开源代码与权重，开放商用，支持私有声音克隆和角色语音化。语音控制版MOSS-Speech-Ctrl预计2026年Q1发布，支持语音调节语速、音色与情感。