多模态大模型

SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”

先把SFT挖的坑填了！

衡宇 2026-05-17

SFT 多模态大模型模型训练

商汤「日日新V6.5」登顶OpenCompass全球多模态大模型榜单

领先Gemini 2.5 Pro以及GPT-5等国际顶尖模型

量子位 2025-09-10

商汤多模态大模型

全球四项第一！优必选自研人形机器人最强大脑Thinker登顶全球

人形机器人Walker S系列的“最强大脑”实现关键进化

量子位 2025-09-09

优必选具身智能多模态大模型

CVPR2025视频生成统一评估架构，上交x斯坦福联合提出让MLLM像人类一样打分

能够通过模拟人类的认知过程，建立起连接文本指令与视觉内容的智能评估体系。

不圆 2025-06-12

AI视频生成 AI视频评估多模态大模型

上海AI实验室造出首个「通才」机器人大脑：看懂世界+空间推理+精准操控全拿下

可实现多模态大模型（MLLM）对物理实体的直接操控，使机器人能像人类一样“看到-思考-行动”

不圆 2025-06-05

上海AI Lab 具身智能多模态大模型

多模态大模型不会画辅助线？最新评估得分：o3仅25.8%，远低于人类82.3% | 清华腾讯斯坦福联合

目前大模型视觉推理尚处早期阶段

十三 2025-05-28

多模态大模型清华大学视觉推理

字节把GPT-4o级图像生成能力开源了！

一个模型实现所有模态功能

衡宇 2025-05-24

多模态大模型字节开源

GPT-4V仅达Level-2？全球首个多模态通才段位排行榜发布，General-Level打造多模态通用AI评测新范式

最高段位至今空缺

不圆 2025-05-16

多模态大模型

7B模型搞定AI视频通话，阿里最新开源炸场，看听说写全模态打通，开发者企业免费商用

手机等终端轻松部署

西风 2025-03-27

多模态大模型开源阿里通义千问

华为昇腾适配阶跃星辰多模态开源模型，上线魔乐社区

阶跃开源首月各生态厂商均已接入

量子位 2025-03-10

华为昇腾多模态大模型开源阶跃星辰

全球最大开源视频模型，现在也Created in China了，阶跃出品

开源生态滚雪球ing

衡宇 2025-02-18

多模态大模型大模型六小强开源阶跃星辰

多模态模型免微调接入互联网，即插即用新框架，效果超闭源方案

首个辅助多模态大模型对实时信息进行反馈的开源检索增强框架SearchLVLMs。

白交 2024-11-11

多模态大模型

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

还能操纵手机和机械臂

克雷西 2024-08-30

多模态大模型通义Qwen2

北大王选所：让多模态大模型更懂人类在做什么｜ECCV 2024

靠提示词就行

一水 2024-08-13

北大多模态大模型

阿里大模型元老杨红霞去向：入职香港高校！被曝创业项目也在推进

通义底层技术核心贡献人

明敏 2024-07-28

多模态大模型大模型人才通义千问阿里巴巴

中国版GPT-4o炸场：国内首个流式多模态交互模型，现场实时且丝滑

现场“哇”声一片

十三 2024-07-05

GPT-4o 商汤商量多模态大模型

多模态能力全球TOP3，来自中国从容大模型

曾刷新10项世界纪录

白交 2024-07-02

云从从容大模型多模态大模型

谢赛宁&Lecun团队新成果：首发以视觉为中心的多模态大模型

模型视觉能力up up

一水 2024-06-27

多模态大模型谢赛宁

奥特曼和老黄动手了……Luma干的

大型翻车现场

十三 2024-06-15

Luma OpenAI Sora 多模态大模型文生视频

全华人团队推出多模态大模型新基准，GPT-4o准确率仅为65.5%

还发现感知错误、推理错误是所有模型最常见的两大错误。

白交 2024-06-12

GPT-4o 多模态大模型

SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”

商汤「日日新V6.5」登顶OpenCompass全球多模态大模型榜单

全球四项第一！优必选自研人形机器人最强大脑Thinker登顶全球

CVPR2025视频生成统一评估架构，上交x斯坦福联合提出让MLLM像人类一样打分

上海AI实验室造出首个「通才」机器人大脑：看懂世界+空间推理+精准操控全拿下

多模态大模型不会画辅助线？最新评估得分：o3仅25.8%，远低于人类82.3% | 清华腾讯斯坦福联合

字节把GPT-4o级图像生成能力开源了！

GPT-4V仅达Level-2？全球首个多模态通才段位排行榜发布，General-Level打造多模态通用AI评测新范式

7B模型搞定AI视频通话，阿里最新开源炸场，看听说写全模态打通，开发者企业免费商用

华为昇腾适配阶跃星辰多模态开源模型，上线魔乐社区

全球最大开源视频模型，现在也Created in China了，阶跃出品

多模态模型免微调接入互联网，即插即用新框架，效果超闭源方案

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

北大王选所：让多模态大模型更懂人类在做什么｜ECCV 2024

阿里大模型元老杨红霞去向：入职香港高校！被曝创业项目也在推进

中国版GPT-4o炸场：国内首个流式多模态交互模型，现场实时且丝滑

多模态能力全球TOP3，来自中国从容大模型

谢赛宁&Lecun团队新成果：首发以视觉为中心的多模态大模型

奥特曼和老黄动手了……Luma干的

全华人团队推出多模态大模型新基准，GPT-4o准确率仅为65.5%

热门文章

WPS笔记正式发布：AI贯穿记录、整理与复用全过程

100亿砸向人形，不如先让10万台机器狗走进家庭

A股账户可以买Robotaxi了

有人靠CPU把AI算力密度卷到了新高度

腾讯想让企业打开AI的方式只剩一个