Roller | AI AGENT 中文社区 头像

消息来源频道

Roller | AI AGENT 中文社区

@rollerrolling

频道8,769 位成员公开可见0 人在线

有趣的 AI 科技日记 💬 群组: t.me/+XThkfMjY1bRiYTVh 🪄 由@bnl5110和@endingwalker一同撰写 #DeepSeek #GenAI #AIGC #互联网 #科技 #人工智能 #AI产品 #ChatGPT #Claude 谢谢订阅,喝杯茶再走?🍵

成员规模8,769 位成员
在线情况0 人在线
消息总数526 条消息
浏览量总数216,797 次浏览

在这个频道里搜索消息……

t.me/rollerrolling

VALL-E —— 通过三秒钟样本克隆任何人的声音
🗣 微软最近在一篇论文中宣布了其最新研究的语音合成系统(Text-to-speech)VALL-E,它可以基于一段三秒钟的语音样本,生成具备讲者声线特质的语音模型,并可以用于其他内容的朗读。据称,开发人员在训练 VALL-E 时使用了6万小时的语音素材,其中大部分素材来自于 Teams 的录音
📞 除了复刻声线,VALL-E 还可以就一段话随机生成不同风格(语音、语调、停顿等)的讲话模式,可以还原讲者的环境噪音(比如经典的话筒声),甚至可以保持讲者在声音样本中的情感(愤怒、困倦、逗趣等)
👂 有兴趣可以去论文的 Github 专页试听上面提到的 demo,一些简要说明:Text 指需要生成的语音内容,Speaker Prompt 即三秒的语音样本,Ground Truth 是由样本的讲者亲述的 Text,Baseline 是指一款被选作基线的语音合成系统来帮助比对
🧐 VALL-E 的惊异表现让人称奇,但也引发了人们对于滥用风险的担忧,比如 VALL-E 可能会被用于身份冒充或网络诈骗。技术媒体 Tech Monitor 已经就如何规范使用 VALL-E 向微软进行了发问