< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

何恺明团队新作：只用普通ViT，不做分层设计也能搞定目标检测

鱼羊 2022-04-01 13:37:44 来源：量子位

更加简单粗暴

鱼羊发自凹非寺

量子位 | 公众号 QbitAI

微软的Swin Transformer去年横空出世，一举突破了Transformer做视觉任务复杂度过高的问题。

这种把Transformer“卷积网络”化的做法，也成为当前ViT研究领域的热门方向。

但现在，何恺明团队的最新论文提出了不同的观点：

在目标检测任务上，像Swin Transformer那样的复杂操作可能是没有必要的。

只用普通ViT做骨干网络，一样能在目标检测任务上拿下高分。

不对ViT引入分层设计

ViT可以说是打开了Transformer跨界处理视觉任务的新大门。

但原始ViT的问题在于，它是一个非层次化的架构。也就是说，ViT只有一个单一尺度的特征图。

于是在目标检测这样的任务中，ViT就面临着两个问题：

其一，如何在下游任务中用预训练好的骨干网络来处理好各种大小不同的物体？

其二，全局注意力机制的复杂度与输入图像尺寸的平方呈正比，在面对高分辨率图像时，处理效率低下。

以Swin Transformer为代表，给出的解决方案是向CNN学习，将分层设计重新引入骨干网络：

基于分层特征图，利用特征金字塔网络（FPN）或U-Net等技术进行密集预测
将自注意力计算限制在不重叠的局部窗口中，同时允许跨窗口连接，从而带来更高的效率

而何恺明团队的这篇新论文，则试图寻找一个新的突破方向。

其核心，是放弃FPN设计。

具体而言，研究人员通过对ViT的最后一层特征图进行卷积或反卷积，得到了多尺度特征图，从而重建出一个简单的FPN。

相比于标准特征金字塔通过bottom-up、top-down和lateral connection做特征融合的方法，可以说得上是简单粗暴。

另外，在对高分辨率图像进行特征提取时，研究人员也采用了窗口注意力机制，但没有选择像Swin Transformer那样做shift。

在进行信息交互时，他们将block均分为四个部分，探索了两种策略：全局传播和卷积传播。

从表格中可以看出，采用4个卷积块（conv block）的效果是最好的。

这种新方法被命名为ViTDet。

论文还提到，结合MAE方法进行预训练，效果更好。

从实验结果来看，以ViT作为骨干网络的方法，在模型较大时，展现出了比Swin、MVITv2等采用分层策略的方法更优的性能。

研究人员表示：

使用普通ViT作为骨干网络，基于MAE方法进行预训练，由此得到的ViTDet能与之前所有基于分层骨干网络的先进方法竞争。

关于作者

Yanghao Li，本硕毕业于北京大学，现在在Facebook AI研究院担任研究工程师。

Hanzi Mao，本硕毕业于华中科技大学，2020年在德州农工大学拿到博士学位，现为Facebook AI研究院高级研究科学家。

另外，除了何恺明，Ross Girshick大神也坐镇了这篇论文。

论文地址：
https://arxiv.org/abs/2203.16527

ViT 何恺明团队目标检测

鱼羊

3万小时触觉数据补齐具身智能“手感”！新智具身&复旦报告三连发2026-07-26
WAIC信息爆炸！大佬们都在说什么，笔记看这里2026-07-18
不是吧OpenAI首款硬件吹半天就是个AI音箱？？2026-07-15
菲尔兹奖提前泄露！王虹邓煜双双在列2026-07-14

何恺明团队新作：只用普通ViT，不做分层设计也能搞定目标检测

不对ViT引入分层设计

关于作者

相关阅读

肚子上挂张画就能“隐身”：AI完全看不到我，更看不出我是人类了 | 开源

超越Mask-RCNN：这是谷歌大脑的AI，自己写的目标检测模型

1.3MB的超轻YOLO算法！全平台通用，准确率接近YOLOv3，速度快上45%丨开源

可以在手机里运行的Detectron2来了：FB官方出品

小哥自创AI防拖延系统，一玩手机就被“闪瞎” | Reddit高热

YOLO项目复活！大神接过衣钵，YOLO之父隐退2月后，v4版正式发布，性能大幅提升

热门文章

合肥又押中AI独角兽：多模态赛道，3个月融了21亿

智能体政策新闻相关背景和简要解读

国产世界模型登顶李飞飞团队榜单！适配国产昇腾算力、代码权重全开源

世界模型“六小龙”在WAIC吵起来了！行业红利就在非共识里

长内容创作者苦AI失忆久矣，这个新Agent漂亮填坑！门槛低到只需要会用键盘打字