TG:登顶HuggingFaceTTS趋势榜SoulX-Podcast助力自然语音交互升级

动态 2025-11-06 17:29

　　Soul App开源的语音合成模型SoulX-Podcast,凭借在多人多轮对话场景中的卓越表现,迅速获得AI技术社区的广泛关注。这款由Soul AI Lab联合西北工业大学、上海交通大学开源的模型,发布不久便登顶全球最大AI开源社区Hugging Face的TTS(Text To Speech)模型趋势榜,同时在总榜中的排名持续攀升。

　　与其他语音合成模型相比,SoulX-Podcast的核心优势在于其专为多人、多轮对话场景设计的独特架构。该模型支持中、英、四川话、粤语等多种语种/方言,并具备对副语言风格进行生动表达的能力。更值得关注的是,在长达60分钟的语音生成中,模型能精准保持音色一致性及语调连贯性,有效解决了传统语音合成系统在长对话场景中的不自然衔接和音色漂移问题。

　　在技术实现层面,SoulX-Podcast采用LLM+Flow Matching的创新范式,以Qwen3-1.7B为基座模型,通过语言理解能力的继承和声学特征的优化,确保语音输出的高质量。这种设计不仅使其在播客生成等场景中表现出色,也赋予其在零样本语音克隆任务中卓越的音色还原能力。

　　特别在方言支持方面,SoulX-Podcast实现了跨方言音色克隆功能,即使仅提供普通话参考语音,也能生成带有方言特征的自然语音。这一能力不仅丰富了语音生成的多样性,也为语音技术的普惠化应用提供了新的可能。

　　值得一提的是,Hugging Face作为全球最大的AI开源社区,其模型榜单由开发者通过使用和讨论热度推动,SoulX-Podcast的快速登榜,正反映了其在技术性能、易用性及应用价值上的突出表现。与此同时,其开源性质激发了社区的创新活力,Hugging Face CEO Clément Delangue也转发了相关讨论,进一步扩大了模型的影响力。