自从写了一篇关于各种人工智能用途(包括人工智能艺术)的出现的文章以来,我一直在浏览 GitHub 代码存储库和 Reddit 中的各种链接,以查看人们正在修改和发布的人工智能模型。
其中一些模型甚至进入商业网站,运行自己的算法或修改其他人作为开源发布的算法。现有人工智能语音网站的一个很好的例子是Uberduck.ai,它提供了数百个预编程模型。当您在文本字段中输入文本时,虚拟埃隆·马斯克、比尔·盖茨、佩吉·希尔、达菲鸭、亚历克斯·特雷贝克、比维斯、小丑、Siri 等将大声朗读预先编程的台词。
ⓒ 马克·哈赫曼 / IDG 来自 Dreamstudio.ai
去年,PCWorld 上传了一个假比尔·克林顿的模型,赞扬 PCWorld。即便如此,准确率也已经达到了相当高的水平。
要训练 AI 重现您的声音,您需要上传清晰的语音样本
人工智能观察说话者如何组 巴西电话号码数据 合声音,学习和完善声音之间的关系,并模仿结果。如果您看过 1992 年的经典惊悚片《运动鞋》(该片的演员阵容也十分出色,包括罗伯特·雷德福、西德尼·波蒂埃和本·金斯利),您一定会记得其中的角色录制目标声音样本以破解生物识别的场景。语音代码。将会。可以看出,它们几乎是一模一样的。
创建良好的语音模型需要使用能够很好地代表特定人说话方式的长样本进行大量训练。但最近几天,新的情况出现了。Vall-E,微软的一篇关于合成语音的研究论文,带有实例。Bally 只需几秒钟的源音频即可创建完全可编程的声音。
为了回答人工智能研究人员和爱好者的问题
巴厘岛没有公开以尝 销售线索 试另一种名为 Tortoise 的模型。(创建者解释说,他们之所以将其命名为“Tortoise”,是因为它很慢。它确实很慢,但无论如何它都能工作。