< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

帮视障人士“看见”图片字节跳动最新视觉语言预训练模型入选ICML 2022

量子位的朋友们 2022-06-17 09:03:20 来源：量子位

X-VLM 的模型在业内首次提出学习多粒度的视觉和语言对齐

近日，字节跳动AI Lab Research 团队推出一项视觉语言预训练模型，支持多模态的理解和生成，例如将画面转化为准确、流畅的描述文字，帮助视障人士“看见”图片。这项技术成果已入选人工智能国际顶级会议ICML 2022，并应用于今日头条App、大力智能灯等业务场景。

据了解，这个名为X-VLM 的模型在业内首次提出学习多粒度的视觉和语言对齐，能为图片生成更为精准的描述，比如更正确地识别物体、描述物体间的关系。

信息无障碍研究会发布的报告显示，超过90%的视障人士会使用智能手机了解外面的世界。此前，手机系统自带的读屏软件已经实现把屏幕上的文字念出来，帮助视障人士“读”新闻、“看”文章。可遇到文章中的图片，读屏软件往往无法识别，只能播报“图片”二字。

采用了X-VLM 模型，今日头条App可以自动识别图片，还能将它们“翻译”成通顺流畅的语句，并通过语音播报出来，助力视障人士解决读图难题。

值得一提的是，X-VLM可在模型规模和预训练数据有限的情况下实现高效训练。数据显示：仅216M参数量的X-VLM模型就能在图像文本检索、基于图片的问答或推理、视觉定位、图片描述生成等广泛的多模态任务上获得十分优秀的表现。目前，X-VLM 在字节跳动的真实应用场景上的表现已超过一些业界领先的最新模型。

近年来，人工智能在助推无障碍环境方面发挥了重要作用。利用技术持续改进无障碍与适老化体验是字节跳动在公益方面的重要方向。除了在抖音系产品中不断完善无障碍功能，字节跳动还通过面向企业用户的云服务平台火山引擎，以技术输出的方式，服务更广泛的社会群体。

论文：Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts（https://arxiv.org/abs/2111.08276）

代码：https://github.com/zengyan-97/X-VLM

字节跳动

量子位的朋友们

学习强国做了个AI社区，两周铺进68座城市2026-07-31
中科院院士对话北电数智AI专家：以 AI 与数学 “乘法效应” 开辟产业落地新路径2026-07-29
OceanBase回应融资报道：全力投入AI数据创新，与资本市场保持开放沟通2026-07-29
空中具身操作：让蜘蛛侠们安全落地2026-07-29

帮视障人士“看见”图片字节跳动最新视觉语言预训练模型入选ICML 2022

相关阅读

字节跳动将打造通用搜索引擎，入局全网搜索挑战百度

马斯克要向火星发射数千艘120米火箭，字节计划重返印度市场，台积电将砸1万亿新台币扩大2nm产能布局，今日更多大新闻在此

字节版龙虾架构火爆GitHub！开源获35k+ Star，内置Skill全家桶，原生适配飞书

字节跳动2023奖学金计划报名开启！10万奖学金，助力科研梦想！

字节跳动获CVPR2021 细粒度图像竞赛双料冠军

字节跳动发布 Cloud Firmware 2.0，实现产品化coreboot固件解决方案

热门文章

3万小时触觉数据补齐具身智能“手感”！新智具身&复旦报告三连发

陶哲轩在菲尔兹颁奖现场：数学迎来百年新危机

Kimi K3、Unlimited OCR包揽全球前二，中国开源模型持续刷屏海外

智能体走向终端，个人AI时代正在到来

DeepSeek被曝主动叫停了第二轮融资签约

帮视障人士“看见”图片 字节跳动最新视觉语言预训练模型入选ICML 2022

相关阅读

字节跳动将打造通用搜索引擎，入局全网搜索挑战百度

马斯克要向火星发射数千艘120米火箭，字节计划重返印度市场，台积电将砸1万亿新台币扩大2nm产能布局，今日更多大新闻在此

字节版龙虾架构火爆GitHub！开源获35k+ Star，内置Skill全家桶，原生适配飞书

字节跳动2023奖学金计划报名开启！10万奖学金，助力科研梦想！

字节跳动获CVPR2021 细粒度图像竞赛双料冠军

字节跳动发布 Cloud Firmware 2.0，实现产品化coreboot固件解决方案

热门文章

3万小时触觉数据补齐具身智能“手感”！新智具身&复旦报告三连发

陶哲轩在菲尔兹颁奖现场：数学迎来百年新危机

Kimi K3、Unlimited OCR包揽全球前二，中国开源模型持续刷屏海外

智能体走向终端，个人AI时代正在到来

DeepSeek被曝主动叫停了第二轮融资签约

帮视障人士“看见”图片字节跳动最新视觉语言预训练模型入选ICML 2022