< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

中科院自动化所全模态大模型亮相，图文音视频3D传感器信号全能

梦晨 2023-06-16 15:45:21 来源：量子位

还有开放服务平台

梦晨发自凹非寺
量子位 | 公众号 QbitAI

大模型搞多模态，做文字、图像、音视频这几样就够了？

中科院自动化所说不：

我们还加入了3D点云和更多传感器信号。

国产大模型新成员，千亿参数全模态大模型「紫东太初2.0」正式亮相。

不光能认知和理解多模态数据，还能在多轮对话中进一步与用户交互。

AI离理解现实世界中复杂多样的信息，又近了一步。

而且不仅如此，多个数据，甚至不同模态数据一起出现也难不倒它。

对于车内视角和车外视角的两个视频，可以找出共同特点。

图书馆照片和汽车鸣笛音频一起出现，也能分析出奇怪之处并给出解释。

认知、推理之外，紫东太初2.0也可以完成多模态生成任务。

图像、音频、视频一起出现，就能结合起来讲一个完整的故事。

又或者提取多模态数据中的特征并进行模仿。

AI如何理解全模态？

为什么要做多模态甚至全模态？
团队介绍到，现实世界中本来就充满了复杂多样的异构信息，人类自己也是综合多模态信息去理解这个世界的。

从模态的种类来说，文本只是其中非常小的一部分。

但从数据收集的角度来说，文本却又是数据最丰富的。

AI最擅长的就是从海量数据中提取出隐藏的规律，所以语言大模型进展最快也就不奇怪了。

其他模态数据本来就少，尤其是做多模态需要的配对数据就更稀缺。

拿大家已经很熟悉的文生图AI绘画来说，训练阶段需要大量的图-文配对数据，生产成本已经很高。

要想得到充足的文字、图像、音频、视频、3D、信号等模态之间的配对数据，那就想都别想了。

学术界为这个问题也想出一种解决办法：

以其中一种模态为核心，作为桥梁连接其他模态。

在科研探索中又分化出两条路线。

国外Meta的ImageBind选择了以图像为核心，

国内的紫东太初2.0团队则是“以语言为核心”路线的代表。

团队对此的考量是，图像能表达的语义还是不够丰富，比如像抽象的概念最后还是得靠语言。

以语言为核心连接起全模态数据，也为AI大模型打开很多新的应用空间，在发布会现场也做了展示。

全模态大模型用在哪？

外科手术中除了需要用到视觉，触觉传感器数据也同样重要。

两种数据跨模态融合，就解决了机器人辅助手术中的国际性难题。

同样是医学领域，医学影像、患者照片、病例等结合起来，还可以辅助罕见病的鉴别诊断。

交通领域，多模态协同推理也能更精准研判违规行为。

对于网络谣言常见的视频画面与音频播报内容不一致的手段，多模态大模型也能加以识别。

企业和组织想要借助这些全模态能力开发应用，也可以直接到紫东太初大模型开放服务平台。

简单来说，就是AI应用开发全生命周期的每一个环节所对应的服务都安排好了。

开放服务平台内置MindSpore、Pytorch等主流开源深度学习框架，提供大模型下游微调、自动学习、可视化拖拽建模、交互式代码开发等不同建模方式。主打全方位国产可控、快速切入客户场景，以及简单易用的人工智能建模和应用。

全模态大模型怎么炼成的？

说起来，全模态大模型并不是凭空出现。

2020年1月，中科院自动化所就发起集团式攻关，聚焦多模态大模型路线

2021年9月，发布首个千亿参数三模态大模型紫东太初1.0，做到多模态统一表示，相互生成、推理。

在应用实践过程中又发现数字时代万物互联的新需求，融入3D、视频、传感信号等更多模态数据，进一步突破感知、认知和决策的交互屏障。

但全模态也不是终点。

在发布会现场，中科院自动化研究所所长徐波表示，站在更宏观的视角，全模态大模型属于信息智能的突破。

未来要通向AGI，势必还要与另两大路线“类脑智能”和“博弈智能”再次融合。

中科院自动化所多模态大模型

梦晨

亚太唯一！阿里云跻身Gartner可观测魔力象限“挑战者”象限2026-07-24
业内首款超算+智算的大规模计算底座，在WAIC上我们找到了2026-07-22
AI语音进入“表演时代”：阿里Qwen-Audio-3.0-TTS登顶全球权威榜单2026-07-20
这，可能是今年WAIC最惊艳的图片！2026-07-19

中科院自动化所全模态大模型亮相，图文音视频3D传感器信号全能

AI如何理解全模态？

全模态大模型用在哪？

全模态大模型怎么炼成的？

相关阅读

图结构转文本序列，大模型直接读懂！图推理性能大涨

AI天才杨植麟交卷大模型产品，特点：长长长长长

北大最新多模态大模型开源：混合数据集训练，图像视频任务直接用

大模型生成提速2倍！单GPU几小时搞定微调，北大数院校友共同一作丨开源

用大模型测试人格/抑郁/认知模式！通过游戏剧情发展测量心理特质｜清华出品

MSRA王晋东：大模型时代，普通人的科研何去何从

热门文章

合肥又押中AI独角兽：多模态赛道，3个月融了21亿

智能体政策新闻相关背景和简要解读

国产世界模型登顶李飞飞团队榜单！适配国产昇腾算力、代码权重全开源

世界模型“六小龙”在WAIC吵起来了！行业红利就在非共识里

长内容创作者苦AI失忆久矣，这个新Agent漂亮填坑！门槛低到只需要会用键盘打字