扫码关注量子位
甩开视觉内卷
光影之间,读懂未尽之意
非思考模式快到飞起
全网开源,即刻可用
已被CVPR 2026接收
据传10号正式发布
以后改用Vision Coding
2B规模吊打传统范式
主打一个实用
模型还全面支持多模态
AI靠模式匹配,不懂文字结构
从实验环境推向千万级日常场景
铁一院x商汤大装置
多模态背后理念,当前应用及未来方向全公开了
一手实测这就奉上
盘古大模型5.5正式发布
首次将推理战场从文本空间拓展到像素空间
构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器
首个聚焦于高分辨率交通图(主要为地铁图)的多模态推理评测基准
多视图理解推理有新的评判标准了