“小马声音延续计划”添加去噪机制和更多角色

Want create site? Find Free WordPress Themes and plugins.

自上次语音合成网站15.ai下线更新已经过了数月之久，在大家的期待下，站点终于带着一大批新角色（不仅限于小马角色）重新上线！

在最近的一次更新中，15.ai对网站的UI做了微调，并添加了赞助渠道以及去噪功能。在生成语音后还会显示AI生成的该条语音的校准置信度（75%以上为优秀）。此外站点还去掉了原有的情绪选择功能，将其改为根据上下文自动选择情绪。

本次更新包含了:

提高角色音频质量，引入全新去噪机制（可显著提高所有角色的音频质量）
引入大量新角色（不仅限于小马角色，下文中仅列举已有小马角色）
网站UI优化
TTS模型（文本转语音）支持使用emoji表情改变句子的语气

该去噪机制是基于GAN生成对抗网络并结合TensorFlow改进的的Flow/GAN混合网络，可以显著提高生成的音频质量（该网络同样适用于图像去噪均属于深度学习范畴）。虽然站点上已经加入了去噪相关的参数滑条，但目前去噪的开启状态和参数均不可修改。

现在共计有45位小马角色支持语音生成了，分别是：

新添加的小马国女孩角色共有四个（尽管每个角色只有几十秒到几分钟的训练时间，但生成的语音依然可以达到80%的可信度：

Sunset Shimmer
Adagio Dazzle
Aria Blaze
Sonata Dusk

15.ai使用的TTS算法目前已经更新到v11.2.x，这是语音克隆和语音合成领域最前沿的算法，该算法通过使用字典查找表将每个英语单词分解成各自的音素。该算法使用字典查找表是由牛津词典API、Wiktionary和CMU发音词典拼凑而成的。这其中也包含了现代新兴词汇，采集自各大网站互联网，其中包括谷歌、reddit、4chan和城市词典（urban dictionary）。如果该算法遇到了一个词典表中不存在的单词，则将使用从LibriTTS数据集的训练中学到的语音规则来推断该单词的发音。

此次更新并加入了表情分析“emoji analysis”的功能。该功能基于MIT的DeepMoji项目，可以将文本背后的感情用emoji表达出来，借此控制输出的语音该偏向何种情绪。接下来TTS模型能够基于emoji产生带有情感的语音。除此以外，该模型能通过同时训练多个角色来显著减少所需训练时间（原模型每个角色需要单独训练），实验表明，在同时支持多声道嵌入和情绪感知的情况下，仅需15秒的语音数据该模型就可以克隆出真假难辨的声音。

如需更多信息也可参见15.ai官网

Did you find apk for android? You can find new Free Android Games and apps.

热度： 2,248

已有 17 条评论

关于作者