多模态

戴盟机器人完成亿元融资，阿里通义多模态大牛加盟攻关物理世界模型

甩开视觉内卷

衡宇 2026-06-04

多模态戴盟机器人物理世界模型触觉

将DSA注意力引入多模态，快手Keye2.0开启强化推理新范式

光影之间，读懂未尽之意

克雷西 2026-05-26

多模态快手

DeepSeek识图模式是个新模型？！一手实测在此（没错我被灰度到了）

非思考模式快到飞起

鱼羊 2026-04-30

Deepseek 多模态

不卷参数卷架构，这个开源模型把图像理解和生成统一了

全网开源，即刻可用

henry 2026-04-29

AIGC 商汤科技多模态

国产多模态Agent拿下医学分割SOTA！不用改模型、不加token

已被CVPR 2026接收

一水 2026-04-22

多模态

神秘「欢乐马」霸榜视频模型！本以为Seedance2.0已封神…

据传10号正式发布

听雨 2026-04-09

AI 人工智能多模态

开卷视觉编程！GLM-5V-Turbo上线，一张草图搞定前端

以后改用Vision Coding

听雨 2026-04-02

AI AIGC 人工智能多模态大模型智谱

彻底告别VE与VAE！商汤硬核重构多模态：砍掉所有中间编码器

2B规模吊打传统范式

邓思邈 2026-03-07

商汤多模态

华为开源7B多模态模型，视觉定位和OCR能力出色，你的昇腾端侧“新甜点”来了

主打一个实用

衡宇 2026-01-05

华为多模态开源模型端侧模型

美团新独立APP，点不了菜只能点AI

模型还全面支持多模态

鹭羽 2025-11-03

SOTA 多模态美团

人类秒懂，AI崩溃：一个简单测试，就让GPT-5、Gemini等顶级模型集体“翻车”

AI靠模式匹配，不懂文字结构

不圆 2025-09-10

VLM 图像识别多模态

视频理解新标杆，快手多模态推理模型开源：128k上下文+0.1秒级视频定位+跨模态推理

从实验环境推向千万级日常场景

克雷西 2025-09-05

多模态快手

商汤多模态大模型赋能铁路勘察设计，让70年经验“活”起来

铁一院x商汤大装置

十三 2025-08-13

商汤多模态大装置

Gemini负责人爆料！多模态统一token表示，视觉至关重要

多模态背后理念，当前应用及未来方向全公开了

闻乐 2025-07-03

Gemini 多模态视觉

拯救P图废柴，阿里上新多模态模型Qwen-VLo！人人免费可玩

一手实测这就奉上

一水 2025-06-28

多模态阿里

拿了火星图片的华为云盘古大模型，这样在地球落地

盘古大模型5.5正式发布

十三 2025-06-20

华为华为云盘古大模型多模态

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

首次将推理战场从文本空间拓展到像素空间

梦晨 2025-06-09

多模态

打破跨模态干扰，快手东北大学联合提出统一多模态框架，横扫多模态检索基准

构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器

梦晨 2025-06-09

多模态

多模态模型挑战北京杭州地铁图！o3成绩显著，但跟人类有差距

首个聚焦于高分辨率交通图（主要为地铁图）的多模态推理评测基准

白交 2025-06-07

多模态

GPT-4o不敌Qwen，无一模型及格！UC伯克利港大等提出多模态新基准

多视图理解推理有新的评判标准了

白交 2025-05-14

多模态