VALL-E 来了
微软表示,只需提供三秒钟的音频片段,其新的文本转语音 AI 即可克隆你的声音和语气等。这个 AI 的名字叫做 VALL-E。对此我们的心情很复杂。
这个系统背后的底层技术,微软在一篇新论文中称之为“神经编解码器语言模型”。这个技术复杂,但实际上,这套系统的使用似乎非常简单:只需插入音频样本,然后再插入一些文本,接着就能得到真实的语音。
当然,文本转语音的已经有很多应用了。比方说,大多数新闻网站都提供了机器驱动的听写服务,而像 Siri 和 Alexa 这样的语音助手也已非常受欢迎。
不过,大多数现有的语音生成程序都需要大量输入。那些应用还没有完全弄清楚如何让 AI 的声音听起来特别像人,这主要是因为情绪基调以及微小的语型变化是很难表达出来的。
如果微软的系统确实能够在几乎不需要输入端的情况下模仿人的口吻的话,那可就不得了了。
喜忧参半
根据开发者的说法,VALL-E 有许多应用,包括“零样本的 TTS、语音编辑以及内容创建”,并补充说,如果 的 GPT-3 语言建模系统(微软给这项技术背后的开发者 进行了大量投资以及投入了大量资源,并且已经在开发多款产品)可以与这款新的语音生成器相结合起来的话,会是一种特别有用的技术,可以用来作为创作内容的一种手段。
如果你喜欢后者这种可能性的话,那么微软确实有它的道理。从理论上来讲,通过将 VALL-E 与 GPT-3 这两项强大的 AI 驱动技术结合到一起,你很快就能将大量听起来真实可信的内容拼凑在一起。
但是,当然,一些道德上棘手的假设这时候也会冒出来。
问题之一显然是虚假的、带误导性的声音——毕竟,如果只需要三秒钟的音频即可模仿的话,理论上你可以利用从名人采访到真人 故事的任何东西来冒充某人。
话虽如此,微软还是很谨慎地解决了这一问题,并解释说,由于存在“滥用模型的潜在风险”,自己在约束它的使用(至少目前是这样)——微软并没有开源代码。他们还声称自己正在努力整合某种系统,以检测音频是否是用 VALL-E 创建的,但也许他们应该问问他们在 的朋友,做到这一点究竟有多容易。
译者:boxi。