15秒完成声音克隆OpenAI推出VoiceEngine

15秒完成声音克隆OpenAI推出VoiceEngine-3

OpenAI正在对外界展示其文本转语音模型VoiceEngine的早期测试成果,该模型能够以高度逼真的人类声音朗读文字。尽管技术进步显著,但同时也引起了对深度伪造技术潜在风险的关注。目前,OpenAI仅向少数开发者展示了该技术,并计划与全球合作伙伴共同探讨其风险与应用。

OpenAI近期在对其最新的文本转语音模型Voice Engine进行早期测试,并取得了突破性进展。该模型能够以极其逼真的人类声音朗读文字,标志着人工智能领域的又一重要里程碑。然而,这一技术的出现也引发了社会各界对于深度伪造技术潜在风险的广泛担忧。

OpenAI原计划通过申请程序向多达100名开发者推广这项技术,但最终决定缩小发布范围,仅向约10名开发者展示了Voice Engine的早期演示和应用案例。该公司在周五的博客文章中表示,他们意识到生成与人们声音相似的语音存在严重风险,尤其是在选举年,因此需要更加谨慎。此前,已有其他AI技术被用于伪造声音的案例。

Voice Engine模型的独特之处在于,它能够创建具有个体特征的语音,包括特定的节奏和语调。仅需15秒的某人语音录音,该软件就能复制他们的声音。

OpenAI的产品负责人Jeff Harris表示:“如果你有适当的音频设备,它的声音质量几乎可以达到人类水平。”但他同时指出,“显然,在准确模仿人类语音的能力周围存在许多安全问题。”

OpenAI的开发者合作伙伴,非营利性健康系统Lifespan的Norman Prince神经科学研究所,正在使用这项技术帮助患者恢复声音。例如,该工具被用来帮助一位因脑肿瘤而失去清晰发音能力的年轻患者,通过复制她早期的录音,为她的一个学校项目恢复了声音。

此外,OpenAI的定制语音模型还能将其生成的音频翻译成不同语言,这对Spotify Technology SA等音频业务公司来说非常有用。Spotify已在自己的试点项目中使用该技术,翻译了Lex Fridman等受欢迎主持人的播客。OpenAI还强调了该技术的其他有益用途,比如为儿童教育内容创造更多样化的声音。

在测试计划中,OpenAI要求合作伙伴遵守其使用政策,在未经原始发言者同意的情况下不得使用他们的声音,并需向听众披露他们听到的声音是由AI生成的。该公司还在音频中嵌入了一个不可听见的水印,以便区分哪些音频是由其工具生成的。

在决定是否更广泛地发布该功能之前,OpenAI表示正在征求外部专家的意见。“让全世界的人们了解这项技术的发展动向非常重要,无论我们最终是否自行广泛部署它,”公司在其博客文章中表示。

OpenAI还表示,希望其软件的预览能够激发社会对于抵御更先进AI技术挑战的韧性。例如,该公司建议银行逐步淘汰将语音认证作为访问银行账户和敏感信息的安全措施。同时,它也在寻求公众教育,以识别AI内容的欺骗性,并推动更多技术的发展,以检测音频内容是真实的还是AI生成的。

版权声明:
作者:小火箭
链接:https://www.xiaohuojian6.top/559.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>