复旦大学MOSS团队发布国内首个端到端语音到语音大模型MOSS-Speech,支持直接语音问答、情绪模仿和笑声生成,无需传统ASR→LLM→TTS流程。模型采用“层拆分”架构,在ZeroSpeech2025测试中WER降至4.1%,情感识别率达91.2%,中文口语MOS评分4.6,接近真人水平。提供48kHz和16kHz双版本,后者可在单张RTX4090上实时推理,延迟低于300ms,适合移动端部署。项目已开源代码与权重,开放商用,支持私有声音克隆和角色语音化。语音控制版MOSS-Speech-Ctrl预计2026年Q1发布,支持语音调节语速、音色与情感。
该模型标志着中文语音交互进入无文本中介新时代,推动语音AI落地效率大幅提升。
本文内容由开放的智能模型自动生成,仅供参考。
暂无评论...