TG:亿道研究院与 IDEA 研究院联手打造端到端语音大模型UniTTS助力端侧人机交互发展
在当今数字化时代,人机交互已成为人们生活中不可或缺的一部分。从智能手机上的语音助手到智能家居设备的语音控制,人机语音交互技术正以惊人的速度改变着我们的生活方式。然而,要实现真正自然、流畅且富有情感的人机语音交互,依然面临诸多挑战。传统语音交互系统在处理音频信息时,难以充分捕捉和利用音频中的副语言特征,比如音色、韵律和情感等,这使得由机器生成的语音在自然度和情感表达方面存在不足。此外,随着人工智能技术的不断发展,人们对语音交互系统的要求也越来越高,不仅希望它能准确理解并执行指令,更期望它能像人类一样,通过语音传递情感和个性。
为了突破这些限制,实现更加自然、智能的端侧人机语音交互体验,亿道研究院与粤港澳大湾区数字经济研究(IDEA研究院)联合实验室(COTLab)共同致力于语音大模型的研发,打造了端到端语音大模型 UniTTS系列。
当前,基于离散编码的LLM-based的建模方案是TTS主流方法之一,而音频离散编码方案会严重影响模型最终效果。目前,部分研究者将声学特征和语义特征分开提取,但并不是所有的speech信息都适合被分解为语义和声学信息,例如speech中的笑声、哭声等强情感表征的部分,以及具有丰富背景音或者音效的高质量universal audio数据。部分研究者采用了GRFVQ-based多码本方案,在提升其性能的同时,也使得语音离散化序列的比特率急速提升,导致语音序列过长,使得LLMs建模语音序列关系的难度大增,因此低码率也是此方案关注的一个重要指标。本工作提出了DistilCodec和UniTTS,DistilCodec是训练得到的单码本,码本利用率接近100%且码本利用均匀,并基于DistilCodec做音频离散化,主干网络使用qwen2.5-7B,训练得到UniTTS模型。具体工作贡献如下:
(1)采用多码本教师模型(GRVQ)蒸馏到单码本的学生模型(DistilCodec),达到近100%的码本利用率,实现了简洁、高效的音频离散编解码,可为音频大模型提供无需解耦的声学和语义音频压缩表征。
(2)本工作提出了UniTTS,其基于DistilCodec完整Audio特征建模的能力,具备完整语音End2End的输入输出能力,UniTTS生成的音频具备更自然的情感表现力。
(3)本工作提出了Audio Language Model新的训练范式:DistilCodec的训练称为音频感知建模,其只专注于音频的特征离散化,使用Universal audio的数据提升其鲁棒性。UniTTS的训练称为音频认知建模,其分为pretrain、SFT、Alignment三阶段,在pretrain阶段,借助DistilCodec的完整音频特征建模能力,加入了universal audio模态自回归任务,并验证了其有效性;UniTTS具备接收任意形式的text-audio interleaved prompt,所以在SFT阶段详细验证了不同prompt对于TTS性能的影响;由于UniTTS语音模态以完全End2End的形式加入到了LLM中,所以使用直接偏好优化,进一步提升语音生成能力。
模型架构使用一个单码本tokenizer和一个decoder-only模型。为了将音频离散化为token,并用大模型建模token之间的关系,首先训练了一个码本利用率接近100%单码本codec(DistilCodec),主干网络使用qwen2.5-7B模型,在模型原来的词表后新增32K音频token,因此扩充后的词表共计180k。模型训练主要分成两个部分,音频感知建模以及音频认知建模,其中音频模态感知建模过程不进行语义对齐,专注于音频特征的离散化以及音频重建;在音频模态认知建模过程中,在已有语言模型的基础上,将音频模态和文本模态进行融合,实现音频的认知建模。
DistilCodec网络结构如上,通过傅立叶变换将音频转为频谱,并由堆叠的残差卷积层实现特征压缩,在量化器(Quantizer)中通过线性层将压缩特征投影到码本向量邻域,其对应邻域中心的索引作为该音频片段的离散表征。在反向重构过程中,通过GAN网络重构为对应音频片段。
相较于文本建模,音频建模具有更大的表示空间。因此,大规模高质量文本-音频配对数据是实现通用音频自回归的前提。UniTTS设计了一套多阶段的预训练方法。在第一阶段:在预训练的文本模型基础上,使模型在文本数据、通用音频数据和一定数量的文本-音频配对数据上进一步训练,使模型学习音频建模。然而,将音频训练数据直接引入预训练的文本模型,会导致模态竞争,模型的文本生成能力退化。为此,在第二阶段:结合基于文本的指令数据集,以及现有的通用音频和文本-音频配对数据集,进一步增强模型的文本生成能力。此外,为了适应更长的上下文序列,音频训练要求将模型的上下文窗口大小,从8,192扩展到16,384,以适应具有长序列特性的音频模态数据。
在监督微调过程中,数据质量将显著影响模型最终的能力。现有开源文本-音频配对数据集有一定缺陷,例如:1)参考文本通常来自ASR标注,固有地包含噪声 2)大量样本取自于有声书籍、博客等来源,往往包含较长的沉默片段。这会TTS模型的生成效果。为此,UniTTS 设计了一种实用的复合质量评分方法过滤样本:
其中,dnsmos有效地过滤音频声学质量,CER表示为重标注的错字率,可进一步过滤标注错误。基于Quality的重排和阈值筛选,可有效优化训练样本的质量。
SFT可使模型有效学习特定语音任务的模式,但一定程度上会产生韵律延长、重复的问题(类似文本域的复读现象)。为此,UniTTS采用直接偏好优化(DPO)进一步优化模型效果,但对于长序列音频建模而言,DPO容易出现模式崩溃。因此,UniTTS引入线性偏好优化方法(LPO)作为DPO的替代方案:
在LPO损失中,x1、x2分别为正、负样本采样策略偏好,通过抑制正负样本的直通策略估计,并小幅促进正样本策略以修正模型策略梯度方向,稳定长序列偏好优化训练。
从下表中可以看到,DistilCodec的码本利用率接近100%,同时码本利用均衡,因此DistilCodec对于语音的离散化具备一定的性能。
为了进行严格的评估,我们也将UniTTS与现有方法进行对比,主要包括:CosyVoice2、Spark-TTS、LLaSA、F5-TTS Fish-Speech、IndexTTS。结果表明,与UniTTS-SFT相比,UniTTS-LPO在情感表现力、保真度和自然度方面取得了全面的进步,验证了LPO训练方法的有效性。UniTTS-LPO的性能提升,主要源于由蒸馏解码驱动的韵律-音色-情感特征的整体建模,以及多样化的无监督训练。
通过高效的离散编解码技术,DistilCodec实现在单码本场景下利用率接近100%,并且码本利用均匀,有效地拓展了音频大模型在多种音频任务上的应用潜力,为不同音频场景下的适应性奠定了基础。UniTTS采用三阶段训练策略,实现稳定的大模型跨模态训练。在人机交互的背景下,UniTTS不仅提升了语音交互的自然度和流畅性,为用户带来了更富有情感和个性的交互体验。
猜你喜欢
- 06-02TG字节跳动公益启动AI语音康
- 06-08TGSonos Arc Ultra AI语音增强技
- 03-19TG首页无广告!YY语音独立
- 07-02TG马斯克的xAI再获100亿美元
- 05-06TGOpenAI发布革命性语音生成
- 06-13TG越轨的“心理咨询”:一
- 04-18TG马斯克Grok语音模式上线语
- 05-27TG上汽通用别克昂科威第
- 05-29TG金舟AI变声器