大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了
顺便进来考考咱自个儿的眼力
丰色 发自 凹非寺
量子位 | 公众号 QbitAI
GPT-4V挑战视觉错误图,结果令人“大跌眼镜”。
像这种判断“哪边颜色更亮”的题,一个没做对:
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/229f4f321ad6335ed7ae931840d3850a.png)
读图片中隐藏信息的也傻傻看不出,怎么问都说“没有啊”:
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/3d1eb16e87811c8dbbc86ca267c7851c.png)
但是呢,这种人类乍一看绝对会错的图,它又成功答对:
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/4174b2dda26f25fb22a69980788af9c9.png)
以及这样的错位图,它对了又没完全对。。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/019c49f5f36395e816d49f1d4df0d01d.jpeg)
(GPT-4V直接看出来头盔是位于男的大腿上的,没有女的,但它还是表示图里有俩人,另一个躲在男的身后戴着那顶头盔==)
看完这些,是不是觉得很迷?
整个一“该对的不对,该错的又对了”。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/180aad34fcc58d97a1dbd35c5688a072.png)
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/f4eaaef1d9bd3ae58606fc0de0a6baad.png)
测试者则表示:
在测之前,他以为GPT-4V对这种挑战完全不在话下,谁知结果竟是这样。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/05801a8a6306356e61e1e4ec82a21be7.png)
不止是他,网友也都不理解GPT-4V作为一个“精准的”AI系统,按理很智能,为什么还会犯和人类一模一样的错觉??!
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/c2f4d6948081d61daed406e59b6cf804.png)
所以,这到底怎么回事?
GPT-4V五大错觉挑战
下面是来自网友的更多测试案例。
首先是次次都错误的颜色错觉题。
(1)除了开头的两颗小树图,还有这个:
问它哪边的绿色更亮一些,果不其然还是左边亮,右边暗,实际明明都一样。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/4f45bf9a5f279d6903223f914a6f9d86.png)
(2)还有这张稍微复杂一点的:
两只眼睛其实都是灰色,但让GPT-4V来描述图像时,它回答一只为蓝色,另一只做了灰度处理,无法得知颜色。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/40d009b6901de34965f174a45e06aa08.png)
(3)这张就更别提了,直接被糊弄地死死的。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/d7ba9054dd0eade3b520267966de2911.png)
当然,这确实很难,大部分人类也识别不出来所有的球其实都是棕色。
其次是会产生动态错觉的图。
(1)有一点意外,当我们问GPT-4V“你看见了什么?描述细节”时,它直接挑明了这是一张看久了就会让人产生眩晕感的错觉图,本质就是一些波浪线而已。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/034bd7e8124416fc88e08555f3c086ec.png)
(2)这张也没有难倒它。
但奇怪的是问它图中有几种颜色,它怎么都只能识别出黄色和蓝色,看不到黑色和白色。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/c60335da1be16e97790ae7e7d3f35c22.png)
接下来是另一类比较平面的错觉图。
(1)如开头所示的这张:
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/2492c56e5be2df043d5749d4c0b6ff9d.jpeg)
一般人类真的表示很懵圈,但是GPT-4V居然对了。
But,别急!!有人拿着测试者的图去问“自己的”GPT-4V,让它再检查一下时,它居然改变了答案。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/5ec1dcc8f0fcb97c86a293d456045593.png)
然而还没完。评论区惊现套娃操作,有人又拿着这俩人的对话图再问GPT-4V,您猜怎么着?它又改回去了。。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/9b4219868f5f323ee95cb4fdccfe894f.png)
大伙可是玩上瘾了,又是一次又一次套娃。好在最终GPT-4V坚持了己见。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/76cc5497b0dc9bafd285b88fdb01316a.png)
总的来说,对于这种错觉陷阱是完全没问题。
(2)我们自己也测了一个长度错觉题:
结果是so easy~
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/8f08f70693e90f17a9e4df5ab415363a.png)
再来一组找隐藏信息的图。
很遗憾,这种对于人类来说真的还算轻松的题,GPT-4V是一点也搞不定。
(1)先看这张,“远看”可以看到“NYC”三个大写字母。但它描述了一堆有的没的,就是表示没发现任何隐藏信息。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/94130a83f0cc430032220f08f39d91e3.png)
(2)如果说上门这个有点隐晦,看不出也罢。但对于这种图形隐藏,它也不行。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/e20d4e64bc47fe3ff75b87bd42023551.png)
它描述到的只有其中的小女孩,即使测试者让它“往远了看,又没有新发现”,也无济于事。
不过,如果我们把这张图片手动缩小再丢给它,它行了,看到了骷髅。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/12552d969390c74feaf868be4447724c.jpeg)
最后是一组真实世界的错位图。
(1)除了开头展示的人骑摩托,这张小猫“悬浮”,它居然对了。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/f2c31cde5f037c2d09868d12371508b4.png)
(2)这张惊悚图,也OK。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/80766708f923de9e8bea4fe310045d2c.jpeg)
(3)但这个就失败了,实际后面是一只狗和小baby的重合,它认成法斗犬幼崽。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/e88974c0a1264494ee6392a44c9cd2b8.jpeg)
(4)至于这张,它压根儿就没提鞋子的事儿,说了也些不痛不痒的话。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/427b554ed546f8f76dcffc3a3376e0de.jpeg)
为什么会这样?
所以,为什么会发生上面这些情况:有的错觉它可以识别出来,有的又表现得很差劲?
首先,对于颜色错觉的图,网友首先认为是提示词的问题。
就像两颗小树那张,我们问它“哪个更亮”,其实就是给了GPT-4V暗示或偏见,它会顺着咱的偏见来回答。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/4b402bedb3da8089a269223b7a2cafa2.png)
我们自己的测试也是如此:
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/670d97bc20763959b0fd0908c12384ac.png)
但如果我们不带立场的问:图中两种颜色一样吗?它完全没问题。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/ff12da9ac6028d918203f73e5e302836.png)
不过,也有网友指出,当我们问它哪棵树更亮时,如果是非常严谨地对所有像素进行平均,GPT-4V的回答没有毛病。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/d0e95fb4b856c9da22a2675e79d4af96.png)
甚至有网友还用测色计实测了一把:
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/01bf97f5a92650a5310fdf7528fbe3e8.jpeg)
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/5f28d69df9375c92fcc1f1c984e29bcd.jpeg)
但!又有人指出如果只显示一部分时,两者明明一样。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/e3456d8d3184fb815fd2267142378b34.png)
暂且不再争论这个问题,可以肯定的是,“提示词”的使用方法会对它的判断造成影响是没问题的。
另外,网友发现:
如果我们去追问GPT-4V,让它再仔细确认一下,它也能纠正回答。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/5064029c115f5a2bcc0a6e21feb587ff.png)
至于无法识别远景图像的问题,有网友认为这可能是因为GPT-4V只会从左往右地读取图像。
而对于“为什么有时它会和人类一样发昏被错觉误导、完全不像个智能AI”的疑问,不少人则表示这毫不意外,是训练问题。
即大模型是根据人类数据、人的反馈、人的注释进行训练的,自然会产生和人一样的错误。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/09cdc0a2d3a0a1edf09d939772419f3b.png)
因此,还有人戏谑:
看来我们人类创造了那么多科幻作品,描述AI是如何冷酷、完美,但当现在我们真正拥有它时,发现它也不过如此。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/7837db49e0d084388f3d647d28b91cab.png)
(手动狗头)
你认为该如何让GPT-4V的错觉识别能力更强呢?
One More Thing
值得一提的是,我们也测试了其中的一些案例。
发现GPT-4V的表现不大一样,有些题它在“我们这里”是可以的。
比如这张判断球颜色的:
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/3d31954f836cbb74e000ac6096e5cfb7.png)
还有这个:
尽管把大图认成老女人而非骷髅,但还是表明它可以“远观” 的。
![大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了](/wp-content/uploads/replace/a123a554179c8dae1ed45d5251e5b138.png)
参考链接:
[1]https://twitter.com/fabianstelzer/status/1717131235644875024
[2]https://twitter.com/BeyondTodAI/status/1713279431681118557
[3]https://twitter.com/janbobrowicz/status/1717229335076393350
- 北大开源最强aiXcoder-7B代码大模型!聚焦真实开发场景,专为企业私有部署设计2024-04-09
- 刚刚,图灵奖揭晓!史上首位数学和计算机最高奖“双料王”出现了2024-04-10
- 8.3K Stars!《多模态大语言模型综述》重大升级2024-04-10
- 谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用2024-04-10