VALL-E —— 通过三秒钟样本克隆任何人的声音
🗣 微软最近在一篇论文中宣布了其最新研究的语音合成系统(Text-to-speech)VALL-E,它可以基于一段三秒钟的语音样本,生成具备讲者声线特质的语音模型,并可以用于其他内容的朗读。据称,开发人员在训练 VALL-E 时使用了6万小时的语音素材,其中大部分素材来自于 Teams 的录音
📞 除了复刻声线,VALL-E 还可以就一段话随机生成不同风格(语音、语调、停顿等)的讲话模式,可以还原讲者的环境噪音(比如经典的话筒声),甚至可以保持讲者在声音样本中的情感(愤怒、困倦、逗趣等)
👂 有兴趣可以去论文的 Github 专页试听上面提到的 demo,一些简要说明:Text 指需要生成的语音内容,Speaker Prompt 即三秒的语音样本,Ground Truth 是由样本的讲者亲述的 Text,Baseline 是指一款被选作基线的语音合成系统来帮助比对
🧐 VALL-E 的惊异表现让人称奇,但也引发了人们对于滥用风险的担忧,比如 VALL-E 可能会被用于身份冒充或网络诈骗。技术媒体 Tech Monitor 已经就如何规范使用 VALL-E 向微软进行了发问
🗣 微软最近在一篇论文中宣布了其最新研究的语音合成系统(Text-to-speech)VALL-E,它可以基于一段三秒钟的语音样本,生成具备讲者声线特质的语音模型,并可以用于其他内容的朗读。据称,开发人员在训练 VALL-E 时使用了6万小时的语音素材,其中大部分素材来自于 Teams 的录音
📞 除了复刻声线,VALL-E 还可以就一段话随机生成不同风格(语音、语调、停顿等)的讲话模式,可以还原讲者的环境噪音(比如经典的话筒声),甚至可以保持讲者在声音样本中的情感(愤怒、困倦、逗趣等)
👂 有兴趣可以去论文的 Github 专页试听上面提到的 demo,一些简要说明:Text 指需要生成的语音内容,Speaker Prompt 即三秒的语音样本,Ground Truth 是由样本的讲者亲述的 Text,Baseline 是指一款被选作基线的语音合成系统来帮助比对
🧐 VALL-E 的惊异表现让人称奇,但也引发了人们对于滥用风险的担忧,比如 VALL-E 可能会被用于身份冒充或网络诈骗。技术媒体 Tech Monitor 已经就如何规范使用 VALL-E 向微软进行了发问