"多模态"最新资讯 | 量子位

美团新独立APP，点不了菜只能点AI

模型还全面支持多模态

鹭羽 2025-11-03

SOTA 多模态美团

人类秒懂，AI崩溃：一个简单测试，就让GPT-5、Gemini等顶级模型集体“翻车”

AI靠模式匹配，不懂文字结构

不圆 2025-09-10

VLM 图像识别多模态

视频理解新标杆，快手多模态推理模型开源：128k上下文+0.1秒级视频定位+跨模态推理

从实验环境推向千万级日常场景

克雷西 2025-09-05

多模态快手

商汤多模态大模型赋能铁路勘察设计，让70年经验“活”起来

铁一院x商汤大装置

十三 2025-08-13

商汤多模态大装置

Gemini负责人爆料！多模态统一token表示，视觉至关重要

多模态背后理念，当前应用及未来方向全公开了

闻乐 2025-07-03

Gemini 多模态视觉

拯救P图废柴，阿里上新多模态模型Qwen-VLo！人人免费可玩

一手实测这就奉上

一水 2025-06-28

多模态阿里

拿了火星图片的华为云盘古大模型，这样在地球落地

盘古大模型5.5正式发布

十三 2025-06-20

华为华为云盘古大模型多模态

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

首次将推理战场从文本空间拓展到像素空间

梦晨 2025-06-09

多模态

打破跨模态干扰，快手东北大学联合提出统一多模态框架，横扫多模态检索基准

构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器

梦晨 2025-06-09

多模态

多模态模型挑战北京杭州地铁图！o3成绩显著，但跟人类有差距

首个聚焦于高分辨率交通图（主要为地铁图）的多模态推理评测基准

白交 2025-06-07

多模态

GPT-4o不敌Qwen，无一模型及格！UC伯克利港大等提出多模态新基准

多视图理解推理有新的评判标准了

白交 2025-05-14

多模态

突破多模态奖励瓶颈！中科院清华快手联合提出R1-Reward，用强化学习赋予模型长期推理能力

闻乐 2025-05-08

多模态

图像编辑开源新SOTA，来自多模态卷王阶跃！大模型行业正步入「多模态时间」

首个MLLM+DiT架构开源图像编辑模型来了

衡宇 2025-04-28

多模态开源阶跃星辰

UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成！

闻乐 2025-04-25

图像生成多模态

GPT-4o能拼好乐高吗？首个多步空间推理评测基准：闭源模型领跑

多模态大模型的真实“空间智商”究竟如何

白交 2025-04-23

多模态空间智能

OPPO 旗舰新机 Find X8 Ultra 首发“一键闪记”，阶跃星辰多模态提供技术支持

只需拍一张图，小布助手就可以精准识别并理解图像中蕴含的信息

量子位 2025-04-22

OPPO 多模态阶跃星辰

LIama 4发布重夺开源第一！DeepSeek同等代码能力但参数减一半，一张H100就能跑，还有两万亿参数超大杯

百万上下文+原生多模态

衡宇 2025-04-06

LLaMA Meta 多模态开源

业界突破多模态泛化推理能力，OPPO研究院&港科广提出OThink-MR1技术

基于动态强化学习

一水 2025-03-30

OPPO 多模态强化学习

“计算机视觉被GPT-4o终结了”（狗头）

GPT-4o原生多模态图像生成更多玩法被开发出来

梦晨 2025-03-29

多模态

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

创造性引入规则化奖励函数机制

梦晨 2025-03-20

多模态

多模态