TG:小米又有新动作:开源首个原生端到端语音大模型

MiMo-Audio-7B-Base 还展示了强大的语音延续能力,能够。在训练后阶段,我们构建了丰富的指令调整语料库,并将思维机制引入音频理解和生成。MiMo-Audio-7B-Instruct 在音频理解基准、口语对话基准和指令-TTS 评测中均取得了开源 SOTA 的成绩,接近
为了让生成的分词应该能够适应下游的语言建模,小米团队还推出了 MiMo-Audio-Tokenizer。这个拥有12 亿参数的模型采用基于 Transformer 的架构,包含一个编码器、一个离散化层和一个解码器,以 25Hz 的帧率运行,并通过 8 层残差矢量量化 (RVQ) 每秒生成 200 个分词。
通过整合语义和重构目标,团队基于一个 1000 万小时的语料库从零开始训练该模型,在重构质量方面取得了卓越的性能,并促进了下游语言建模。
MiMo-Audio 是一个统一的生成式音频语言模型,可对文本和音频 token 序列进行联合建模。该模型接受文本和音频 token 作为输入,并自回归预测文本或音频 token,从而支持涉及任意文本和音频模态组合的广泛任务。
为了提高 token 速率,达到类似每秒 200 个 token 序列的建模效率,并缓解语音和文本模态之间的长度差异,团队采用了一种结合块编码器、LLM 和块解码器的全新架构。块编码器将四个连续时间步长的 RVQ token 聚合成单个块,并将序列下采样为 LLM 的 6.25Hz 表示。随后,块解码器自回归生成完整的 25Hz RVQ token 序列。
通过将 MiMo-Audio 的预训练数据扩展到超过一亿小时,团队观察到在各种音频任务中出现的少量学习能力。
在训练后阶段,团队使用了丰富的指令调整语料库,并将思维机制引入音频理解和生成。MiMo-Audio 在音频理解基准(MMSU、MMAU、MMAR、MMAU-Pro)、口语对话基准(Big Bench Audio、MultiChallenge Audio)以及指令-TTS 评测中均取得了开源 SOTA 的成绩,接近甚至超越了闭源模型
MiMo-Audio 还展示了跨多个领域的全面口语对话能力,能够通过深入理解和适当回应进行自然对话。
MiMo-Audio 在无需参数更新的情况下,可以仅依赖上下文语音示例完成语音到语音生成任务。功能包括:风格转换、语音转换、语音翻译、语音编辑。
由于其大规模的预训练、广泛的数据集曝光和精心设计的监督微调(SFT)数据,MiMo-Audio 模型表现出强大的音频理解能力以及一定程度的推理能力。
其中包括全面的音频字幕功能,可提供跨各个领域和场景的音频内容的详细描述。
音频推理功能,能够深入理解和分析复杂的音频内容,包括上下文识别和逻辑推理。
长音频理解功能,能够以持续的注意力和连贯的解释来处理和分析较长的音频序列
机器人奥运会战报:宇树机器人摘下首金,天工Ultra抢走首位“百米飞人”
猜你喜欢
- 06-12TG中国电信中标结果:曲靖
- 08-01TG嘀嗒顺风车上线IM语音消息
- 06-17TG巴黎4-0马竞创新测试:裁
- 05-24TG语音输入
- 06-23TG唐驳虎:特朗普上演美以
- 07-14TG最新!印航空难首份调查
- 07-09TG沃尔沃怎么样?语音助手
- 07-09TG宇信科技:公司在语音机
- 08-24TG支付宝申请语音识别的方
