风口预警！Meta一分钟文本转3D模型炸场，游戏规则已改变，赛道着火了

西风 2024-07-03 19:53:04 来源：量子位

包括高质量纹理和PBR材质贴图

西风发自凹非寺

量子位 | 公众号 QbitAI

Meta放大招！发布3D生成最新成果——Meta 3D Gen。

号称1分钟内即可文本端到端高质量转3D，包括高质量纹理和基于PBR材质（基于物理的渲染）贴图的3D Mesh。

支持修改已有的3D对象/模型的纹理。

例如，编织风：

像素风：

暗黑恐怖风：

单拎出来一只金属哈巴修狗，毛发纹理等各种细节拉满：

搭配其它工具装上骨架让3D模型动起来，效果也可以用“精细”两字形容：

有网友看到此效果直呼“改变行业游戏规则”、“改变工作流程”。

还有不少网友认为生成的模型可以直接3D打印了：

不过，这次Meta 3D Gen的发布木有代码，木有Demo可玩。

与效果一同发布的，是一份技术报告以及两篇论文，介绍了Meta 3D Gen背后用于文本到3D生成和文本到纹理生成的方法。

3D对象生成器+纹理生成器

翻看技术报告，原来Meta 3D Gen是一种组合系统，基于Meta另外两项研究，即同时发布的两篇论文：Meta 3D AssetGen、Meta 3D TextureGen。

Meta 3D AssetGen用于文本到3D对象的生成（第一阶段），Meta 3D TextureGen用于文本到纹理的生成（第二阶段），两者是Meta 3D Gen的关键组件。

AssetGen负责从文本描述生成完整的3D对象，其工作流程大致为:

1）用一个神经网络根据文本描述生成多个2D视图；
2）使用另一个神经网络从这些2D视图重建3D Mesh和初始纹理；
3）通过融合重投影的纹理来优化初始纹理。

TextureGen负责为给定的3D对象生成纹理。它接收一个3D对象（包含形状和UV坐标信息等）和一个文本描述作为输入，工作流程大致为:

1）使用一个神经网络生成这个3D对象的多个2D视图；
2）将这些2D视图重新投影到对应的纹理图像上；
3）另一个神经网络将这些纹理和原始文本描述结合，生成一个完整的UV纹理；
4）可以选择使用一个超分辨率网络来提高纹理的分辨率。

值得一提的是，TextureGen中的纹理融合和增强网络基于3D艺术家提供的“真实”UV图进行训练，与AssetGen生成的自动提取的UV图大有不同。

而Meta 3D Gen集成了这两种方法，所以整体流程是：

首先使用AssetGen生成初始的3D形状和UV映射。然后，使用TextureGen的第一个网络，基于这个3D形状生成更高质量的2D视图。接着，使用TextureGen的第二个网络，从这些高质量视图生成统一的UV纹理。最后，使用AssetGen的纹理优化网络进行最终的纹理融合和增强。

以下是在Meta 3D Gen在第一阶段（左）和第二阶段（右）后的视觉对比：

方法细节，感兴趣的家人们可以查看技术报告和论文，重点来看效果测试。

404个文本提示评估

基准测试部分，Meta 3D Gen的比较对象包括：CSM Cube 2.0、Tripo3D、Rodin Gen-1 V0.5、Meshy v3和一个第三方文本转3D生成器。

定量比较方面，Meta使用了404个来自DreamFusion的不同文本提示（分为物体、角色和组合场景三类，难度由低到高）让模型进行3D生成。

然后让普通用户和专业3D艺术家对模型在不同测试类别中的表现进行评估和打分，评估指标包括提示保真度、整体视觉质量、几何质量和纹理质量。

评估针对每个模型单独进行或通过随机A/B测试来比较不同模型的表现。

根据Meta的测试结果，首先在生成时间方面，Meta 3D Gen仅需1分钟，超越所有其它方法（3分钟到1小时不等）：

文本提示保真度，即模型的生成与文本prompt的符合度，Meta 3D Gen和其它模型的比较结果如下：

整体Meta 3D Gen效果最佳，Tripo3D、Third-part T23D generator与其相差不大，CSM Cube 2.0、Rodin Gen-1 V0.5稍显逊色。

值得一提的是，用于对比的工业基线中，Tripo3D来自国内玩家VAST，Meshy则是胡渊鸣在太极图形之后创办的独立新品牌。

在难度最高的组合类场景生成中，Tripo3D排名第二，与Meta 3D Gen相近，但却在最简单的物体生成上表现不如Meta，拉低了整体评分。

A/B测试方面，主要是为了比较Meta 3D Gen和那些同时生成纹理和使用PBR材料的基准模型。所有用户、仅专业3D艺术家的评估结果分别如下，Meta 3D Gen在大多数指标上表现优于竞争者：

此外，Meta还分析了不同3D生成模型在处理不同复杂度的场景时的性能，下图是Meta 3D Gen与基线方法相比的胜率。

纵坐标是Meta win rate，低于50%说明对比方法比Meta好，折线越低方法越好。

结果显示，随着场景复杂度增加，例如从单一对象过渡到包含多个角色和元素的复合场景生成，Meta 3DGen的表现开始显著优于其它模型。

接下来再看定性比较。

相同提示词，不同模型文本提示保真度对比是这样婶儿的：

除了Meta 3D Gen，Tripo3D表现也不错，比如第一个生成带有“GenAI”logo的金属羊驼的例子，Meta 3D Gen虽然在logo生成上表现很好，但腿部生成明显有缺陷，而Tripo3D的腿部生成更胜一筹，且纹理细节也很好。第二个寿司测试，CSM则表现优异。

第三个“半兽人在砧板上锻造锤子”的例子，Tripo3D和Meta各有优势。Tripo3D纹理和几何细节更丰富、orc更保真、“锻造锤子”也展现出来了；Meta的砧板相对好些，但整体纹理细节差些。

其它几个模型的结果语义丢失严重。

此外，针对纹理的对比结果如下，在下面的这张图中，Meta 3D Gen的纹理细节处理的很细致：

3D生成赛道真热闹

Meta 3D Gen的发布，无疑给持续升温的3D生成赛道又添了一把火。

在对比测试中，也不乏国内玩家的身影，比如Tripo 3D就是由AI初创公司VAST在今年初推出的3D生成大模型。

VAST创始人兼CEO为宋亚宸，此前在商汤负责AIGC技术在动画及游戏等行业实际落地，也曾参与创立AI独角兽Minimax。CTO梁鼎是商汤的通用模型负责人、首席科学家曹炎培曾在腾讯AI Lab领导AIGC 3D方向的研发工作。

此外，Meshy模型也是由国内玩家打造。

Meshy联合创始人兼CEO是计算机图形学知名学者胡渊鸣，胡渊鸣毕业于清华大学姚班，也是MIT博士、太极（TaiChi）编程语言作者。

说回Meta 3D Gen，虽然根据Meta的技术报告，Meta 3D Gen的表现在很多方面超过了基准模型，不过也有人对此测试结果表示存疑。

首先在生成时间上，就有网友表示给CSM Cube 2.0标的时间不准确：

据量子位测试，其实Tripo3D最新Web版生成时间也缩短了，Stage1是10秒左右，Stage2现在只需要2分钟。

据量子位在Tripo Discord beta频道测试，Tripo3D新版几何质量也有了进一步提升：

Tripo团队发文表示更好的几何和PBR都在路上了：

另一边，胡渊鸣也发推文表示，Meshy很快就会发布速度提升10倍的模型。

Rodin团队也出面表示欢迎Meta加入3D生成赛道，未来想制定更综合和合理的3D生成评判标准。

除此之外还有网友认为，没有Demo大家又玩不上，对于Meta 3D Gen很难评。

雀食，Tripo3D、Meshy等模型都是可以玩的。

而且还不是简单玩玩，开头网友说的3D打印甚至已经落地了。

就拿Tripo3D来说，不仅在全球最大的3D素材交易网站-CG模型网已上线艺术家内测版本：

而且已经和全球家用3D打印机龙头企业们达成合作，拓竹的Markerworld和Anycubic旗下的模型社区网站Makeronline等都已上线，3D打印爱好者们可以尝试起来了！

在行业探索上，Meshy之前和Snap达成合作上线了AI 3D特效，CSM则做了更多产品化的探索，上线了Cube。

全球AI艺术家也在3D生成赛道上卷起来了，Tripo上个月做了全球第一个AI 3D全球渲染大赛，目前正在和CivitAI一起举办AI电影大赛Project Odyssey。

这次泼天的热度算是落到3D生成赛道了。

参考链接：
[1]https://x.com/AIatMeta/status/1808157832497488201
[2]https://ai.meta.com/research/publications/meta-3d-gen/
[3]https://x.com/tripoai/status/1808427964339470445
[4]https://x.com/DeemosTech/status/1808207652188836020
[5]https://x.com/YuanmingH/status/1808352082824683818

3D生成 Meta

西风

风口预警！Meta一分钟文本转3D模型炸场，游戏规则已改变，赛道着火了

3D对象生成器+纹理生成器

404个文本提示评估

3D生成赛道真热闹

相关阅读

单卡就能跑的大模型等效GPT-3！Meta发布大语言模型LLaMA，大小从7B到65B不等

小扎开9位数薪酬新建AI团队！砸千亿收购华人初创公司，Llama 4太拉胯急坏了

Meta大模型成了“科学造假发动机”，发布3天就在争议中下架

AI实时解读大脑信号，7倍速还原图像关键视觉特征，LeCun转发

小扎突然拆散AI部门，LeCun被迫投身元宇宙，Meta动荡高管持续走人

推理token减少46%！Meta新方法缩短思维链，告别重复推导

热门文章

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”

看完最新国产AI写的公众号文章，我慌了！

共推空天领域智能化升级！趋境科技与金航数码强强联手

Waymo认栽召回！搞不定校车难题，被抓到19次非法超车

英伟达自毁CUDA门槛！15行Python写GPU内核，性能匹敌200行C++