国产免费2B开源语音模型征服《莽撞人》!复刻郭德纲最难贯口
刚融资数亿元的面壁又发新模型,让歪果仁直呼Amazing
金磊 发自 凹非寺
量子位 | 公众号 QbitAI
终于,郭德纲最难的贯口——《莽撞人》,被免费的2B国产AI给复刻出来了!
来,展示~
△图片和音频均为AI生成
视频地址:
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q
这段《莽撞人》是被公认的难度顶尖,甚至成为北影台词课的教科书范本,很多专业演员面对它也是望而却步。
而之前AI语音模型要复刻这段贯口,要么速度不够快,要么咬字、节奏错误,要么就是莫得感情。
但这一次,AI“无中生有”自行音色设计出来的女声版贯口,不仅把节奏拿捏到位,甚至连百(bē)战百(bē)胜、白(bē)盔白(bē)甲白(bē)旗靠……这些特殊发音也是读对了!
包括这两天在网上包括的沈阳翻译片段,这个免费国产AI也是分分钟能复刻出来男声版:
△图片和音频均为AI生成
视频地址:
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q
那几个被网友们笑疯了的小词儿:“音乐会儿”、“害有”、啊,国产AI把大姨东北话的灵魂给抓得稳稳的。
不止是东北话,这个语言模型已经可以cover九种方言,像四川话版《大话西游》经典名场面,是这样的:
(注:九种方言分别是四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南语。)
△图片和音频均为AI生成
视频地址:
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q
“巴适得板”、“悔得抠脚”、“女娃儿”……
这小味儿确实有点满级四川方言的味道了,而且还把周星驰原配音的声色给保住了。
除了方言啊,这个国产2B模型还有一技——同一段语音可以用不同国家的语言来演绎!
例如这段原先是中文的《甄嬛传》滴血验亲的名片段,就秒变成了韩语版:
△图片和音频均为AI生成
视频地址:
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q
不论是语气还是人声,都有点中文原版的那个味道了。
当然,泰语版和西语版,也是手拿把掐:
△图片和音频均为AI生成
视频地址:
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q
不仅如此啊,这个语音模型是直接可以cover三十门外语的那种。
来听一下30种不同风格的“你好”:
如此好玩,还免费开源的国产语音模型,到底是何许AI是也?
不卖关子,它正是面壁智能联合OpenBMB开源社区、清华大学人机语音交互实验室新升级的VoxCPM 2。
整体看下来,除了多语种、多方言之外,VoxCPM 2在音色设计、音色可控和高表现力方面也是较为亮眼。
不少歪果仁在VoxCPM 2发布之后就立马去尝了下鲜,纷纷表示“自家语言的效果针不戳!”
而且在音质方面,市面一般是24000Hz,但VoxCPM 2这次直接拔高到了48000Hz(CD音质)!
这下子,游戏、动画、影视、有声书等领域的人可以说是有福了。
生成只需1秒钟的语音模型
开源的VoxCPM 2,我们现在就可以在在线体验的网站上体验了(地址见文末):
接下来,我们就一起手把手,搓一个东北话版的《火影忍者》。
首先在界面的左上角,我们上传一段宋小宝的原声片段,大概20秒左右:
然后在它的下方,我们填一个“东北话”的指令,再把台词写进要合成的文本里,例如:
搁这儿用秽土转生跟我唠嗑,可真够损的奥。
最后点击下面的“Generate Speech”按钮,不到一秒钟的时间,宋小宝味儿的《火影》宇智波斑的台词就诞生了:
接下来,我们只需要配上一小段视频,齐活儿:
细心的小伙伴可能发现了,刚才宋小宝音频的demo里其实是有背景杂音的,但到视频里就没有了。
这其实是VoxCPM 2的参考音频降噪功能,只要勾选一下,声音就会变得清晰:
还有值得注意的是,视频里二代土影的声音,是没有上传任何参考音频的情况下生成。
如果你找不到合适的灵感,大可以让VoxCPM 2自由发挥。
然后如果想克隆声音的质量有保证,建议上传的参考音频尽量大于等于5秒;以及你还可以在“Control Instruction”里面添加提示词,改变参考声音的情绪和语速等等。
(但克隆声音的时候,是不能改变性别的哦~)
除此之外,还有3个小细节:
第一个是文本规范化,这是在你输入的台词里有日期、符号、阿拉伯数字等AI读不明白的内容时,你就可以点它,让AI读得规范起来。
第二个CFG Value,它的作用是用来控制AI的听话程度,数值越高就越听你的要求,反之,AI会自由发挥。
第三个就是LocDiT,设置它的步数越高,音频效果就会越好,但生成的速度就会变慢。
除此之外,台词中间停顿的音效,现在可以用[laughing](笑声)、[sigh](叹气)、[Uhm](嗯……)这些标签来控制:
总而言之,现在要玩儿逼真、有趣的声音,简直太简单了。
怎么做到的?
看到这里,肯定有不少的小伙伴要问了:
只有2B大小,还免费开源的语音模型,到底是怎么做到的?
来,咱们这就扒一波。
首先就是VoxCPM 2走了一条跟市面上大多数模型不太一样的路线——采用扩散自回归连续表征(Diffusion Autoregressive Continuous Representation)。
和市面上主流的Token-based传统方案不同的是,它是基于Tokenizer-Free的TTS系统来做的设计,通过端到端扩散自回归架构直接生成连续语音表征,实现了隐式语义-声学的解耦。
简单来说,传统方案在语音转换时极易出现信息损失,而这套技术能最大程度保留原始声音的声学细节、情感基调和方言特色。
这也就是它既能完美复刻周星驰配音的声色,又能把东北话、四川话说得地道入味的核心原因。
与此同时,这款模型的底气,还来自面壁智能深耕多年的高密度小模型技术壁垒。VoxCPM 2完全基于面壁智能自研的MiniCPM基座打造,延续了系列模型“小身板、大能量”的特质。
此前VoxCPM系列就已经在Hugging Face斩获超千点赞、5.5k+下载量,这次升级更是把多语种、高保真、音色可控等核心能力拉到了行业新高度。
更难得的是,VoxCPM 2不止开源了完整的模型权重,更提供了从一键上手到大规模部署的全套工具链,支持原生Torch推理、LoRA及全参数微调,还适配了多端UI扩展,上手使用变得超简单。
最后回到国产这个点。
放眼全球范围内,目前除了基座大模型牢牢占据了开源领先地位,在小模型、端侧模型上,中国公司也在持续领先。
体验地址:
https://voxcpm.modelbest.cn/
GtiHub地址:
https://github.com/OpenBMB/VoxCPM/
HuggingFace地址:
https://huggingface.openbmb.com/model/openbmb/VoxCPM2
- 开源模型首超Opus4.6!智谱GLM-5.1登场,14小时后CUDA专家被冲了2026-04-08
- 企业玩不转龙虾,是人的思维出错了2026-04-03
- 智谱上市后首份财报:超7.24亿元!国内收入最高大模型公司,MaaS发力了2026-03-31
- 刚刚,TRAE SOLO上线独立端:已经不满足写代码,还要跨界干活!2026-03-31




