多模态

多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench

期待后续多模态大模型的研究和发展更加关注多语种场景

梦晨 2024-06-21

AI读论文新神器:多栏密集文字、中英图文混排文档都能读|旷视

“一图胜千言”—— one image token >> one text token。

梦晨 2024-06-01

香港大模型公司Weitu AI首秀,打造多模态Native的技术和产品

“技术驱动的多模态交互Native产品将形成新的产品习惯”

梦晨 2024-04-09

钉钉AI:好险,差点就被长文本卷到

长文本、多模态、工作流,钉钉AI上大分

3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜

甚至部分指标比13B的模型还要好

梦晨 2024-02-09

大模型学会听音乐了!风格乐器精准分析,还能剪辑合成

首创基于多模态大模型的音乐理解与生成框架