TG:腾讯混元推出开源语音数字人模型让图片人物“活”起来说话唱歌！

动态 2025-05-30 03:01

腾讯混元推出开源语音数字人模型让图片人物“活”起来说话唱歌！

　　腾讯混元近日宣布了一项创新技术突破，正式推出了其自主研发的语音数字人模型——HunyuanVideo-Avatar，并慷慨地决定将此技术开源。这一模型具备高度灵活性，能够支持从头肩到全身的各种景别，同时兼容多种风格、物种以及双人互动场景。

　　用户现在只需上传一张人物图像和相应的音频文件，HunyuanVideo-Avatar模型便能迅速解析这些信息。它不仅能够识别图像中的人物及其所处环境，还能深入理解音频中的情感色彩。基于这些理解，模型能够使图像中的人物栩栩如生地说话或歌唱，生成的视频中人物的表情自然、唇形与音频完美同步，甚至连全身动作都流畅协调。

　　据腾讯混元团队介绍，HunyuanVideo-Avatar模型的成功，得益于先进的深度学习算法和大量的训练数据。这使得模型能够准确地捕捉并再现人类语音、面部表情和身体动作之间的微妙关系。用户上传的任何图像和音频，都能在模型的处理下，被赋予新的生命和活力。

　　HunyuanVideo-Avatar模型还支持多种自定义选项，用户可以根据自己的喜好和需求，调整生成视频的风格、速度和表情强度等参数。这使得该技术不仅适用于娱乐和创意领域，还可为在线教育、远程会议和虚拟现实等应用场景提供强有力的支持。

　　腾讯混元的这一创新举措，无疑为数字人技术的发展注入了新的活力。随着技术的不断进步和应用的日益广泛，我们有理由相信，未来的数字人将更加智能、更加逼真，为我们的生活带来更多惊喜和便利。

　　抛开预期差，虽然本季广告收入是小超预期的，但趋势上仍是由上季的 17% 继续下探到了不足 15%，仍反映出拼多多主站的 GMV增速可能在继续放缓，以及其广告变现率在进一步同比走低。由于 Temu 在政策…

　　Cursor大放异彩！学生可免费享一年Pro会员，AI编程教育迎来新机遇

　　阿里2025财年Q4财报出炉：营收稳增，净利润大涨22%，AI+云成新引擎？

　　2025年淘宝天猫京东618活动时间正式公布：从5月13日开始到6月18日结束

　　本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。

TGapp