TG:Voices 能够让 Java 应用程序快速实现文本到语音转换

Voices 是一个开源的文本转语音项目,专为运行在 Java 17 或更新版本的应用程序设计的。这个库不需要外部 API 或手动安装的软件,可以根据字典或 OpenVoice 为不同语言生成音频文件。
Voices 使用 ONNX Runtime,这是一个跨平台的 AI 引擎,可以加速训练和推理,支持来自各种深度学习框架的模型,如 TensorFlow 和 PyTorch。该运行时在可能的情况下会利用硬件加速器,并支持各种硬件和操作系统配置。
这里演示的例子需要多个库,以下的 POM 文件配置可以与 Maven 一起使用:
可以通过替换上述依赖项来使用 en_us 字典,以取代 en_uk 字典。onnxruntime 可以被 onnxruntime_gpu 替换以进行 GPU 加速。Chorus类可以用来管理语音模型和管理资源。建议在应用程序中使用单个Chorus实例,因为加载模型的成本较高。以下示例演示了将英文文本转换为 InfoQ_English* 音频文件的过程:
前面的示例使用了在构建时通过 Maven 依赖项检索到的模型。其他模型也可以在运行时通过以下 Maven 依赖项检索进来:
以下示例使用NonEnglishModels类中的荷兰 nlNLRonnie 模型将荷兰文的文本转换为荷兰语音频文件:
另外,还可以使用 OpenVoice 来改善生成的语音,而不需要字典。然而,它需要更多的计算能力,并且模型大小为 50MB,明显大于 3MB 的字典文件。以下依赖项启用了 Maven 对 OpenVoice 的支持:
OpenVoice 还支持英国或美国英语以及荷兰语等语言的语音,如下例所示:
默认情况下,会使用 GPU 0,没有其他选项;另外,可以使用在ChorusConfig类中定义的withCudaOptions()方法进行配置。
当库在文本中遇到 Markdown 符号时,即 #、---、em 或 en 破折号,会添加暂停。
与其他配置一样,可以使用ChorusConfig类来更改暂停的默认设置。
其他一些文本转语音的解决方案(如 Sherpa Onnx 和 MaryTTS),从 Maven 等构建工具中获取较为困难,或者产生的声音质量较低。
InfoQ:您能想象在什么场景下声音最常见吗?您能分享一些这些库真正发挥作用的样例吗?
Henry Coles: 最初,代码是编辑小说的工具的一部分。我只能猜测它可能在其他地方有用,但当你需要快速生成听起来相当自然的语音,并且不想依赖外部服务时,它就非常合适。
Coles:我需要从 Java 生成语音,而大多数现代文本转语音(Text to Speech,TTS)库都是用 Python 编写的。最初,我将 piper 作为 HTTP 服务运行,但这很不方便,所以开始寻找从 Java 运行 piper 模型的方法。
Coles:现有的 Java TTS 解决方案是很久以前建立的,按照现代标准听起来很机械。它们很难改进。相比之下,运行 piper ONNX 模型非常简单,但是它缺少一个部分:将文本转换为 音素(phonemes) 的 Java 代码。我找不到任何 Java phonemiser,所以我不得不自己实现一个。
InfoQ:在构建声音时,您面临了哪些挑战,您是如何克服它们的?有没有您非常纠结关键设计决策?
Coles:主要挑战是我对语言学一无所知。开发过程也与我通常的工作方式完全不同。这主要是一个移植项目,即将 TypeScript 逻辑翻译成 Java。测试本质上都是别人的逻辑,由于没有明确的“正确”答案,这进一步复杂化了。英语不能通过简单的规则进行音素化(需要通过字典处理特殊情况),所以对于某些输入,输出总是错误的,这是一个将该类场景识别出来的问题。我最终得到了一个非常手动化的开发循环,生成音频并通过耳朵进行评分,然后添加测试用例以捕获特定输入的回归。
Coles:我想清理 API。当前的 API 是为了快速满足单一用例而创建的,如果进行一些前期思考,我可能会创建出更好的东西。
Coles:如果有机会的话,我会考虑改进它处理暂停和设置语音节奏的方式。
InfoQ:您推荐使用库的应用程序应该采用哪种自动化测试方法?也许使用语音转文本解决方案,以便比较输入和输出?
Henry:我建议适度测试输出。一些检查音频是否产生以及一切是否正确连接的测试是很有意义的,但库的功能不是客户端应用程序控制的,所以它们应该主要关注检查输入到边界。
猜你喜欢
- 08-28TG鸿蒙智行全新问界 M7“幸
- 05-11TG汤姆猫获6家机构调研:公
- 08-23TGYY语音有些预订卡号页面为
- 06-16TG安凯微获3家机构调研:安
- 06-21TG行业首发!微博推出首批
- 05-22TG中英文朗读专家更换语音
- 07-21TG上海茵罗智能取得一种语
- 06-22TG长安汽车获得发明专利授
- 07-04TG讯飞听见-免费在线录音转
