VALLE —— 通过三秒钟样本克隆任何人的声音 🗣 微软最近在一篇论文中宣布了其最新研究的语音合成系统（Texttospeech）VALLE，它可以基于一段三秒钟的语音样本，生成具备讲者声线特质的语音模型，并可以用于其他内容的朗读。据称 | Roller | AI AGENT 中文社区

2023/01/13 08:26

VALL-E —— 通过三秒钟样本克隆任何人的声音
🗣 微软最近在一篇论文中宣布了其最新研究的语音合成系统（Text-to-speech）VALL-E，它可以基于一段三秒钟的语音样本，生成具备讲者声线特质的语音模型，并可以用于其他内容的朗读。据称，开发人员在训练 VALL-E 时使用了6万小时的语音素材，其中大部分素材来自于 Teams 的录音
📞 除了复刻声线，VALL-E 还可以就一段话随机生成不同风格（语音、语调、停顿等）的讲话模式，可以还原讲者的环境噪音（比如经典的话筒声），甚至可以保持讲者在声音样本中的情感（愤怒、困倦、逗趣等）
👂 有兴趣可以去论文的 Github 专页试听上面提到的 demo，一些简要说明：Text 指需要生成的语音内容，Speaker Prompt 即三秒的语音样本，Ground Truth 是由样本的讲者亲述的 Text，Baseline 是指一款被选作基线的语音合成系统来帮助比对
🧐 VALL-E 的惊异表现让人称奇，但也引发了人们对于滥用风险的担忧，比如 VALL-E 可能会被用于身份冒充或网络诈骗。技术媒体 Tech Monitor 已经就如何规范使用 VALL-E 向微软进行了发问