< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

多模态大模型的多语种文字理解能力还有很长的路要走，字节、华科联合发布MTVQA Bench

梦晨 2024-06-21 15:54:56 来源：量子位

期待后续多模态大模型的研究和发展更加关注多语种场景

MTVQA Bench团队投稿
量子位 | 公众号 QbitAI

近期多模态大模型(MLLM)在视觉文本理解领域取得了显著进展，比如开源模型InternVL 1.5、MiniCPM-Llama3-V 2.5、TextMonkey, 闭源模型GPT-4o、Claude等，甚至在某些方面展现了超越人类的能力。

然而，当前的评估主要集中在英文和中文的语言环境中，对于更具挑战的多语种环境，研究还相对缺乏。在全球化的今天，多语言环境越来越多的出现在人们日常生活中，也给人工智能的发展带来了很大的挑战。

MTVQA（Multilingual Text-Centric Visual Question Answering）基准测试正是在这样的背景下应运而生，专注于以多语言文字为中心的视觉问答,旨在填补现有评测基准在多语种视觉文本领域的空白。

MTVQA涵盖了阿拉伯语、韩语、日语、泰语、越南语、俄语、法语、德语和意大利语等9种语言，收集整理了自然场景和文档场景下的多语种富文本图片，如菜单、路标、地图、账单、PPT、论文、图表等。问答对都经过人类专家的精心标注，以确保视觉文本与问题及答案之间的高度一致性。

在MTVQA基准的测试结果显示，无论是开源模型还是最先进的闭源模型如GPT-4o （Acc. 27.8%），准确率不到30%，开源的文档类专家大模型表现也不尽如人意。

无论从哪方面来看，多语种文字理解能力都还有较大的提升空间。MTVQA重点关注除中英文以外广泛使用的语言，希望能促进多语种文字理解能力的发展，将多模态大模型的成果普及到更多的国家和地区。

多模态大模型的多语种文字理解能力还有很长的路要走，字节、华科联合发布MTVQA Bench

论文链接：https://arxiv.org/abs/2405.11985

项目链接：https://bytedance.github.io/MTVQA/

背景介绍

视觉文本理解能力是多模态大模型能力中的一个关键维度，现有的benchmark如DocVQA、TextVQA、STVQA等在GPT-4o、Gemini 、Internlm VL等先进的闭源和开源MLLMs的测评中发挥了重要作用，评估了多模态大模型在不同维度的视觉文本理解能力，但是他们都专注于中英文能力的测评，缺少一个能够测评其他语种理解能力的benchmark。针对这些不足，字节和华科的研究者提出了MTVQA，首个全面测评多场景多语种视觉文本理解能力的benchmark。

MTVQA的构建过程

数据收集

测试集包括1220张泛文档类的图片和876张自然场景的图片，数据来源可分为三部分:
(1) 网络收集的图片，如PPT、paper、logo等。
(2) 实地采集拍摄图片，包括各种场景，时间跨度2023年3月到2024年3月。
(3) 现有公开数据，从ICDAR MLT19的公开图片中采样了一些具有代表性的场景文本图片。

数据标注

所有QA数据均为经过培训的母语人士进行标注，并进行多轮交叉验证，确保问题的丰富性和答案的准确性。
标注规则：

问题必须和图片中的文字内容有关
每张图片包括3个可以直接问答的问题和2个需要进行一定推理的问题
答案尽可能和图片中的文字保持一致
答案尽可能简短，不重复问题的内容

交叉评估和修改：

评估问题和图片中文本内容的相关性
评估答案的准确性和完整性
道德评估，判断是否符合人类道德规范

数据集概览

MLLMs在MTVQA Bench上的表现

在MTVQA上对19个先进的MLLM进行来测评，包括开源和闭源模型，测评结果如下:

实验结果发现：

多语种文字理解现阶段任然是非常有挑战性的任务。尽管GPT-4o在大部分语种和总体成绩上取得了第一名的成绩，但是平均准确率只有27.8，相比于多模态大模型的英文理解能力，差距明显，更别谈和人类的差距了。

开源模型和闭源模型存在较大的差距。最优的开源模型是MiniCPM-V 2.5，取得了18.9%的成绩，但距离顶尖的闭源模型如QwenVL Max, Gemini Ultra, Claude3 Opus, GPT-4o等还比较远。

以文字理解为中心的多模态大模型并没有明显的优势。研究者选取了最近的3个以视觉文字理解为中心的MLLM，mPLUG-DocOwl 1.5，TextMonkey，TextSquare，发现最优的TextSquare相比通用MLLM MiniCPM-V 2.5并没有优势（15.6 vs. 18.9）。

不同语种的理解能力差距明显。拉丁类的语种如意大利语、德语、法语的表现远好于非拉丁类语种如日语、韩语、俄语。这应该是由于拉丁类语种在视觉和语义上都和英文更相似。

总结

来自字节跳动和华中科大的研究者们针对多语种视觉文本理解任务提出了新的测评基准MTVQA Bench，并对多模态大模型的表现进行了测评和分析。研究发现，多语种视觉理解任务难度很大，当前多模态大模型表现较差，距离人类的水平还有很长的路要走。研究者们期待后续多模态大模型的研究和发展更加关注多语种场景，扩大多模态大模型的应用范围，使得更多国家和地区的人们能够参与其中，共享人工智能带来的便利

多模态

梦晨

亚太唯一！阿里云跻身Gartner可观测魔力象限“挑战者”象限2026-07-24
业内首款超算+智算的大规模计算底座，在WAIC上我们找到了2026-07-22
AI语音进入“表演时代”：阿里Qwen-Audio-3.0-TTS登顶全球权威榜单2026-07-20
这，可能是今年WAIC最惊艳的图片！2026-07-19

多模态大模型的多语种文字理解能力还有很长的路要走，字节、华科联合发布MTVQA Bench

背景介绍

MTVQA的构建过程

数据收集

数据标注

数据集概览

MLLMs在MTVQA Bench上的表现

总结

相关阅读

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

“计算机视觉被GPT-4o终结了”（狗头）

商汤多模态大模型赋能铁路勘察设计，让70年经验“活”起来

多模态大咖齐刷刷翻开小红书

人类秒懂，AI崩溃：一个简单测试，就让GPT-5、Gemini等顶级模型集体“翻车”

值得买科技与人大高瓴人工智能学院首个多模态领域联合研究成果亮相CNCC2024

热门文章

合肥又押中AI独角兽：多模态赛道，3个月融了21亿

智能体政策新闻相关背景和简要解读

国产世界模型登顶李飞飞团队榜单！适配国产昇腾算力、代码权重全开源

世界模型“六小龙”在WAIC吵起来了！行业红利就在非共识里

长内容创作者苦AI失忆久矣，这个新Agent漂亮填坑！门槛低到只需要会用键盘打字