< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

国产免费2B开源语音模型征服《莽撞人》！复刻郭德纲最难贯口

十三 2026-04-08 14:10:06 来源：量子位

刚融资数亿元的面壁又发新模型，让歪果仁直呼Amazing

金磊发自凹非寺

量子位 | 公众号 QbitAI

终于，郭德纲最难的贯口——《莽撞人》，被免费的2B国产AI给复刻出来了！

来，展示~

△图片和音频均为AI生成

视频地址：
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q

这段《莽撞人》是被公认的难度顶尖，甚至成为北影台词课的教科书范本，很多专业演员面对它也是望而却步。

而之前AI语音模型要复刻这段贯口，要么速度不够快，要么咬字、节奏错误，要么就是莫得感情。

但这一次，AI“无中生有”自行音色设计出来的女声版贯口，不仅把节奏拿捏到位，甚至连百（bē）战百（bē）胜、白（bē）盔白（bē）甲白（bē）旗靠……这些特殊发音也是读对了！

包括这两天在网上包括的沈阳翻译片段，这个免费国产AI也是分分钟能复刻出来男声版：

△图片和音频均为AI生成

视频地址：
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q

那几个被网友们笑疯了的小词儿：“音乐会儿”、“害有”、啊，国产AI把大姨东北话的灵魂给抓得稳稳的。

不止是东北话，这个语言模型已经可以cover九种方言，像四川话版《大话西游》经典名场面，是这样的：

（注：九种方言分别是四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南语。）

△图片和音频均为AI生成

视频地址：
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q

“巴适得板”、“悔得抠脚”、“女娃儿”……

这小味儿确实有点满级四川方言的味道了，而且还把周星驰原配音的声色给保住了。

除了方言啊，这个国产2B模型还有一技——同一段语音可以用不同国家的语言来演绎！

例如这段原先是中文的《甄嬛传》滴血验亲的名片段，就秒变成了韩语版：

△图片和音频均为AI生成

视频地址：
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q

不论是语气还是人声，都有点中文原版的那个味道了。

当然，泰语版和西语版，也是手拿把掐：

△图片和音频均为AI生成

视频地址：
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q

不仅如此啊，这个语音模型是直接可以cover三十门外语的那种。

来听一下30种不同风格的“你好”：

如此好玩，还免费开源的国产语音模型，到底是何许AI是也？

不卖关子，它正是面壁智能联合OpenBMB开源社区、清华大学人机语音交互实验室新升级的VoxCPM 2。

整体看下来，除了多语种、多方言之外，VoxCPM 2在音色设计、音色可控和高表现力方面也是较为亮眼。

不少歪果仁在VoxCPM 2发布之后就立马去尝了下鲜，纷纷表示“自家语言的效果针不戳！”

而且在音质方面，市面一般是24000Hz，但VoxCPM 2这次直接拔高到了48000Hz（CD音质）！

这下子，游戏、动画、影视、有声书等领域的人可以说是有福了。

生成只需1秒钟的语音模型

开源的VoxCPM 2，我们现在就可以在在线体验的网站上体验了（地址见文末）：

接下来，我们就一起手把手，搓一个东北话版的《火影忍者》。

首先在界面的左上角，我们上传一段宋小宝的原声片段，大概20秒左右：

然后在它的下方，我们填一个“东北话”的指令，再把台词写进要合成的文本里，例如：

搁这儿用秽土转生跟我唠嗑，可真够损的奥。

最后点击下面的“Generate Speech”按钮，不到一秒钟的时间，宋小宝味儿的《火影》宇智波斑的台词就诞生了：

接下来，我们只需要配上一小段视频，齐活儿：

细心的小伙伴可能发现了，刚才宋小宝音频的demo里其实是有背景杂音的，但到视频里就没有了。

这其实是VoxCPM 2的参考音频降噪功能，只要勾选一下，声音就会变得清晰：

还有值得注意的是，视频里二代土影的声音，是没有上传任何参考音频的情况下生成。

如果你找不到合适的灵感，大可以让VoxCPM 2自由发挥。

然后如果想克隆声音的质量有保证，建议上传的参考音频尽量大于等于5秒；以及你还可以在“Control Instruction”里面添加提示词，改变参考声音的情绪和语速等等。

（但克隆声音的时候，是不能改变性别的哦~）

除此之外，还有3个小细节：

第一个是文本规范化，这是在你输入的台词里有日期、符号、阿拉伯数字等AI读不明白的内容时，你就可以点它，让AI读得规范起来。

第二个CFG Value，它的作用是用来控制AI的听话程度，数值越高就越听你的要求，反之，AI会自由发挥。

第三个就是LocDiT，设置它的步数越高，音频效果就会越好，但生成的速度就会变慢。

除此之外，台词中间停顿的音效，现在可以用[laughing]（笑声）、[sigh]（叹气）、[Uhm]（嗯……）这些标签来控制：

总而言之，现在要玩儿逼真、有趣的声音，简直太简单了。

怎么做到的？

看到这里，肯定有不少的小伙伴要问了：

只有2B大小，还免费开源的语音模型，到底是怎么做到的？

来，咱们这就扒一波。

首先就是VoxCPM 2走了一条跟市面上大多数模型不太一样的路线——采用扩散自回归连续表征（Diffusion Autoregressive Continuous Representation）。

和市面上主流的Token-based传统方案不同的是，它是基于Tokenizer-Free的TTS系统来做的设计，通过端到端扩散自回归架构直接生成连续语音表征，实现了隐式语义-声学的解耦。

简单来说，传统方案在语音转换时极易出现信息损失，而这套技术能最大程度保留原始声音的声学细节、情感基调和方言特色。

这也就是它既能完美复刻周星驰配音的声色，又能把东北话、四川话说得地道入味的核心原因。

与此同时，这款模型的底气，还来自面壁智能深耕多年的高密度小模型技术壁垒。VoxCPM 2完全基于面壁智能自研的MiniCPM基座打造，延续了系列模型“小身板、大能量”的特质。

此前VoxCPM系列就已经在Hugging Face斩获超千点赞、5.5k+下载量，这次升级更是把多语种、高保真、音色可控等核心能力拉到了行业新高度。

更难得的是，VoxCPM 2不止开源了完整的模型权重，更提供了从一键上手到大规模部署的全套工具链，支持原生Torch推理、LoRA及全参数微调，还适配了多端UI扩展，上手使用变得超简单。

最后回到国产这个点。

放眼全球范围内，目前除了基座大模型牢牢占据了开源领先地位，在小模型、端侧模型上，中国公司也在持续领先。

体验地址：

https://voxcpm.modelbest.cn/

GtiHub地址：

https://github.com/OpenBMB/VoxCPM/

HuggingFace地址：

https://huggingface.openbmb.com/model/openbmb/VoxCPM2

莽撞人郭德纲面壁智能

十三

国产免费2B开源语音模型征服《莽撞人》！复刻郭德纲最难贯口

生成只需1秒钟的语音模型

怎么做到的？

相关阅读

CPM-Bee 开源满月｜已飞入数十家企业，欢迎更多商用申请

面壁智能给大模型接入16000+真实API，效果直逼ChatGPT！

清华系初创面壁智能获新一轮数亿元融资

面壁智能联合清华NLP实验室打造大模型“超级英雄”—— XAgent

大模型应用，最重要的是逻辑推理能力｜面壁智能李大海@MEET2024

知乎大模型「知海图AI」上线！产品官宣即内测，为4亿用户摘取「热榜摘要」

热门文章

不用再找了，AI落地最全的实战打法，都在亦庄这场大会里

Agent、多模态、应用、算力一天看尽，峰会亮点在此｜5.20日，来现场一起AI

SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”

6.4k Stars！用Claude Code写论文的全套流水线，有人打包开源了

龙虾之父月烧940万元的token！要不是入职OpenAI还真用不起