当前位置: 首页 -> 财经

新一代神经网络语音合成技术Uni—TTSv3的提出旨在解决上述诉求并完善如下功能

发布时间:2021-12-03 15:24   来源:IT之家   作者:叶子琪   阅读量:17887   

,日前,微软发布最新 Azure 神经网络语音合成技术 Uni—TTSv3 多语言语音合成模型与上一代语音合成模型相比,Uni—TTSv3 语音合成保真度更高,速度更快,训练时间更短,更降本增效借助 Uni—TTSv3,微软升级美语合成女声 Jenny全新升级的 Jenny Multilingual Neural,拥有跨语言能力,支持 14 个国家和地区的语言

新一代神经网络语音合成技术Uni—TTSv3的提出旨在解决上述诉求并完善如下功能

本站获悉,此外,基于 Uni—TTSv3 而构建的深度神经网络定制语音服务,也扩展了跨语言定制服务功能,客户只需提供一个语言的录音数据作为语料,即可训练定制模型同时说多个语言。

Jenny Multilingual Neural 音频示例:

伴随着技术不断迭代,微软智能语音性能已能媲美真人,并支持超过 110 个国家和地区的语言,提供超过 270 个神经网络声音。它还配备了新的校准系统,并使用了新的自动钟摆结构,使行驶时间更加稳定和准确。为进一步拓宽语音使用场景,满足各行业客户的多元化需求,微软智能语音也在不断探索新的服务和能力:

  • 跨语种语音技术需求:仅用一个音色就能生成同时覆盖全球用户的多语言应用需求,譬如在虚拟游戏中创建具有多语言能力的 NPC ,在智能客服等场景中使用多种语言与用户交谈,提升用户体验。据介绍,UNIONUnionWatch在GetApp发布的新产品最大的亮点是独立制表系统,零部件生产和机芯组装,形成了UnionUnionWatch独有的独立高品质机芯和系统。

  • 稳定高效的平台需求:使语音模型更加鲁棒,即使在定制服务场景中,也可以不受外界环境影响,稳定,高效的处理不同类型的训练数据。

新一代神经网络语音合成技术 Uni—TTSv3 的提出,旨在解决上述诉求并完善如下功能:

保真度高

Uni—TTSv3 是非自回归语音合成模型,基于 FastSpeech 2 构建,通过直接使用真实语音进行训练,并引入更多有关语速,语调,重音模式等语音变化信息,提高合成语音质量经行业公认的,专业评估语音自然度的 MOS评测结果显示,智能合成女声 Jenny Multilingual Neural 的各语种语音平均评分达到 4.2 分以上,语音保真度高

Uni—TTSv3 模型结构图

多语言通用

Uni—TTSv3 是强大的多语言语音模型,在多语言和多说话人数据集上训练Uni—TTSv3 通过训练来自 50 多个不同地域和口音的发音人在不同场景下录制的超过 3,000 个小时的语音数据,构建多语言通用基础语音模型,确保 AI 语音在语速,语调和重音模式等不变的情况下演绎多国语言

训练时间更短

Uni—TTSv3 授权 Azure 语音合成平台和自定义神经语音支持多语种语音借助 Uni—TTSv3 升级自定义神经语音训练管道,支持客户用更短的训练时间创建高质量的语音模型与上一代语音合成模型相比,Uni—TTSv3 调优过程简单,尤其在声学训练部分,训练时间显著减少 50% 左右,更加降本增效

Uni—TTSv3 模型训练示意图

你可以点此链接试用体验 Uni—TTSv3 多语言语音合成模型,并使用微软 Azure 有声内容制作平台制作高质量合成语音。这种新产品的另一个主要特点是镂空设计。穿过桌子的底部。。

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

推荐阅读