互联网从业者充电站 头像

消息来源频道

互联网从业者充电站

@https1024

频道28,610 位成员公开可见持续更新

互联网从业者专属 内容多为技术、产品、设计、运营等不同话题内容; 目标人群为程序员、设计师、产品经理、运营管理等不同职能。 投稿/合作: @inside1024_bot 内容来源网络

成员规模28,610 位成员
在线情况待同步
消息总数32,672 条消息
浏览量总数5,085,503 次浏览

在这个频道里搜索消息……

t.me/https1024

开源 TTS 卷到这个程度了?园区诈骗又有新武器了?
清华 OpenBMB 放出 VoxCPM2,20 亿参数,200 万小时多语言数据训练,48kHz 录音棚级音质。
关键是——不用 Tokenizer。
传统 TTS 先把音频切成离散 token 再生成,信息损失不可避免。VoxCPM2 直接在连续潜空间里做扩散自回归,音色细节保留得更完整。
几个硬指标:
- 30 种语言 + 9 种中文方言
- X 4090 上实时率 0.13,流式输出几乎无延迟
- 用自然语言描述就能凭空创造声音,不需要参考音频
- 声音克隆还能调情绪、语速、表达方式
- Apache 2.0 协议,商用友好
最狠的是「终极克隆」模式:给一段参考音频 + 文本,连呼吸节奏、口癖这种微妙细节都能复刻。
GitHub 已经破万星,之前连续霸榜 GitHub 和 HuggingFace Trending。
播客、有声书、游戏配音、短视频旁白——开源方案已经够用了。
https://github.com/OpenBMB/VoxCPM
互联网充电站