清华系多模态大模型公司刚刚融了数亿元!放话“今年达到Sora效果”

聚焦原生多模态赛道

衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

清华系多模态大模型公司,又拿钱了!

生数科技,师出清华朱军团队,是国内最早布局多模态大模型的团队之一。

市场消息传来,这家公司刚刚完成新一轮数亿元融资。本轮融资由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。

生数方面的说法是,本轮融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。

此前,生数已经在文生图、文生3D模型、文生视频方面都有研究成果对外释出。

2022年9月,生数科技创始成员就提出了基于Transformer的网络架构U-ViT,这与Sora和Stable Diffusion3背后采用的Diffusion Transformer架构DiT,在架构思路与实验路径上完全一致。

对此,生数科技CEO唐家渝表示:

我们积累了完整高效的工程化经验,拥有在大规模GPU集群上实现高效兼容、低成本的模型训练经验,整体上来讲,我们追赶Sora肯定比追赶GPT-4轻松很多。

今年一定能达到Sora目前版本的效果,很难说是三个月还是半年(笑),但这件事我们的信心还是非常足的。

2022年已提出类DiT架构U-ViT

在扩散模型方面,生数科技团队是国内率先开启该方向研究的团队,成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。

2022年9月,生数创始成员提出了基于Transformer的网络架构U-ViT时,U-ViT就在千万至数亿参数量级范围内验证了极强的可扩展性(scaling up)。

这项工作在CVPR 2023发表,早于DiT。

2023年3月,团队又开源了全球首个基于Diffusion Transformer架构(U-ViT)的多模态扩散大模型UniDiffuser,在参数量和训练数据规模上与Stable Diffusion直接对齐。

清华系多模态大模型公司刚刚融了数亿元!放话“今年达到Sora效果”

从架构上来看,UniDiffuser比最近公开论文的Stable Diffusion3(采用DiT架构)领先了一年。

此外,除了单向的文生图以外,Unidiffuser支持更通用的图文任务,能够实现图生文、图文联合生成、图文改写等多种功能。

清华系多模态大模型公司刚刚融了数亿元!放话“今年达到Sora效果”

持续进行Scale up

在统一化架构的思路下,生数科技持续进行Scale up

在图文模型的训练中,其模型参数量从最早开源版的1B不断扩展至3B、7B、10B及以上,使得模型在美学性、多元风格、语义理解等方面实现快速稳定的提升。

同时在此基础上,通过拓展空间维度和时间维度,逐步实现3D生成和视频生成模型的训练。

依托底层U-ViT架构的创新尝试,截至2023年9月,生数科技推出了基于统一的多模态多任务框架的产业级通用基础大模型(闭源版),全链路自主训练、自主研发,在图像生成、3D生成、视频生成等多项任务中位居前列。

清华系多模态大模型公司刚刚融了数亿元!放话“今年达到Sora效果”

目前的成果是,生数的3D生成,已经可实现高精度与最快10秒级的模型生成。

此外,生数团队还推出全球首个4D动画生成、可控3D场景编辑等工作。

而视频生成方面,也已实现短视频的编辑与生成能力,在画面美观度、连贯性方面实现了突破。

清华系多模态大模型公司刚刚融了数亿元!放话“今年达到Sora效果”

近期将重点突破长视频生成能力

在商业化落地方面,依托于MaaS(模型即服务)能力,生数科技在2B、2C端同时发力。

一方面以API的形式向B端机构直接提供模型能力,另一方面打造垂类应用产品,按照订阅等形式收费。

目前公司已与多家游戏公司、个人终端厂商、互联网平台等B端机构开展合作,开放模型服务,提供AIGC个性化体验、定制化内容生产等方面的能力。

去年,面向艺术设计、游戏制作、影视动画、社交娱乐等创意领域,生数科技上线了两款工具产品:

  • 视觉创意设计平台PixWeaver
  • 3D资产创建工具VoxCraft

而学术层面上,团队于ICML、NeurIPS、ICLR等人工智能顶会发表相关论文近30篇,其中提出的免训练推理算法Analytic-DPM、DPM-Solver等突破性成果,获得ICLR杰出论文奖,并被OpenAI、苹果、Stability.ai等机构采用,并被DALL·E 2、Stable Diffusion等项目采用。

那么,接下来的路是什么?

谈到对未来的规划,生数科技始终坚持“原生多模态”方向。

一边,是对产品端持续迭代;

另一边,则是在基础模型层面持续优化,主要是提升语义理解、可控性、美观度方面的生成效果。

其实,Sora出现前,生数内部主要聚焦于短视频,但现在公司会投入更多资源在长视频上,架构、数据使用调优方面,团队已经做过不少探索,也踩过许多坑(很多现在都已经解决了)。

但OpenAI砸大钱捧出一个Sora,验证了这条路的正确性,也打消了团队的许多顾虑,“目前的视频生成长度在4-5秒左右,我们近期将重点突破长视频生成能力……尤其长视频画面的连贯性,我们还在做一系列攻克工作”。

版权所有,未经授权不得以任何形式转载及使用,违者必究。