多模态大模型

CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分

能够通过模拟人类的认知过程,建立起连接文本指令与视觉内容的智能评估体系。

上海AI实验室造出首个「通才」机器人大脑:看懂世界+空间推理+精准操控全拿下

可实现多模态大模型(MLLM)对物理实体的直接操控,使机器人能像人类一样“看到-思考-行动”

多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案

首个辅助多模态大模型对实时信息进行反馈的开源检索增强框架SearchLVLMs。

全华人团队推出多模态大模型新基准,GPT-4o准确率仅为65.5%

还发现感知错误、推理错误是所有模型最常见的两大错误。

港大字节提出多模态大模型新范式,模拟人类先感知后认知

区域性图像编码来提升多模态大模型的感知定位能力。