扫码关注量子位
模型还全面支持多模态
AI靠模式匹配,不懂文字结构
从实验环境推向千万级日常场景
铁一院x商汤大装置
多模态背后理念,当前应用及未来方向全公开了
一手实测这就奉上
盘古大模型5.5正式发布
首次将推理战场从文本空间拓展到像素空间
构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器
首个聚焦于高分辨率交通图(主要为地铁图)的多模态推理评测基准
多视图理解推理有新的评判标准了
首个MLLM+DiT架构开源图像编辑模型来了
多模态大模型的真实“空间智商”究竟如何
只需拍一张图,小布助手就可以精准识别并理解图像中蕴含的信息
百万上下文+原生多模态
基于动态强化学习
GPT-4o原生多模态图像生成更多玩法被开发出来
创造性引入规则化奖励函数机制