深圳市人工智能产业协会 - 【检测信息】比幻觉更可怕的是盲视，李飞飞团队戳破：AI连图都没看到，却在自信地诊断病情！

当前的位置:

首页 >> 【检测信息】比幻觉更可怕的是盲视，李飞飞团队戳破：AI连图都没看到，却在自信地诊断病情！

详情

信息来源：澎湃新闻

微信图片_20260617140721_427_2.jpg

|真正重要的不是AI演得有多像，而是它到底能不能理解它眼前的这个世界

论文名称：《Mirage: The Illusion of Visual Understanding》

（海市蜃楼：视觉理解的幻觉）

发布机构：斯坦福大学等跨学科团队（含李飞飞团队）

有没有这种可能，你把X光片传给AI，他给你了一个详细的解读和结论，但实际上你这份光片根本就没上传成功，AI其实啥也没看到，但就给你出诊了。

这就是这篇论文验证的现实，研究团队给这种情况起了一个名：海市蜃楼效应

这里要做一个它和大模型幻觉的区别

咱们常说的环节是他看到了图片，但编错了答案，而海市蜃楼更离谱，AI压根啥也没看见却正儿八经的开始推理。

一、实验直击：把图片悄悄拿走

为了证明这种情况不是个例，研究团队设计了一个测试（Phantom-0），里面有医学、生物、艺术等20个类别，共计200道视觉题目。

操作很简单，就是把图片移除但不告诉模型。

结果发现现在主流模型如GPT-5等在无图的情况下还能达到原来的70%至80%准确率。

整体测试下来发现模型平均幻影率超过60%，如果加上一些常用的标准化提示词，有来有回的对话，幻影率能升到90%，基本上就是完全假装看见图片了。

二、最让人担心的是医疗场景

如果这种情况发生在医疗领域的话，还真是挺吓人。

团队用69.6万条题目的胸片数据集训练了一个30亿参数的的纯文本模型，也就是说他压根就没见过图。

然后让它在一组标准的胸片问答测试中与前沿多模态模型及人类放射科医生相比较。

结果是这个连图都没看过的模型成绩不仅比多模态模型好，甚至比人类放射科医生水平还高出10个百分点以上。

另外研究团队还发现，模型在假装看片子时，给出的诊断一般偏向严重的病症，比如心梗、癌症等。

三、考试题目本身有问题

为什么AI会这样？

其实根本原因是目前模型的测评基准都默认了一个前提，就是答对越多，视觉理解越强。

但团队通过实验发现，其实有相当一部分的考试题根本不需要看图片，通过题干的文字线索就能答对题目

为了量化这个问题，团队提出了一个基准清洗框架B-Clean。

结果发现在多模态评测基准中，有高达74%至77%的题目在无图情况下仍然能被答对。

换个思路，也就是咱们过去看各种模型视觉排行榜，可能考的不是模型识别能力有多强，而是他们能不能根据题目才出答案。

比如你问他图片中的手有几个手指头，根据题干或许他靠猜给出了一个答案是5个。

如果此时明确告诉模型图片不存在、你随意猜，模型成绩反而会明显下降。

但要是悄悄把图拿走，让他还以为图在，结果发现分数仍能维持在高位。

这说明模型内部存在两套不同的响应机制：一种是被动保守的猜测模式，另一种则是主动自信的海市蜃楼模式。

在后者，模型会自己脑补出一张图并在其基础上推演输出。

四、看清问题之后，AI下一步该往哪走

其实李飞飞团队写这篇论文主要是想提醒行业，要停下来重新想清楚一件事：人们该用什么标准来衡量AI到底有没有看懂？未来AI该往哪个方向走？

这篇论文给了人们三个清晰的启示：

第一，必须增加无图对照的消融测试，让每一次评估都看清楚，加了图到底能多加分，不加图差距又在哪里；

第二，测评要避免只依靠公开基准或过于静态的标准题库，以免被训练数据或文本线索提前作弊；

第三，医疗等高风险场景必须严格校验有图与无图输出的差异，防止模型在没有视觉输入的情况下作出危险推理。

李飞飞和她的World Labs也一直在尝试一个更大的方向，从语言模型走向世界模型。

让AI能理解物理世界的三维结构、物体属性和运动规律。

她曾在一场演讲中提到过，语言在生物进化史上不过最近几十万年的产物，而视觉与触觉所代表的空间智能早在数亿年前就开启了大自然的演化竞赛。

最后

回到最开始的问题，AI到底是真在看图，还是在表演？

毫无疑问的是，我肯定坚信AI会越来越强大，甚至有一天会真正学会看世界。

但在那一天到来之前，我们至少得先学会一件事：

不要因为AI给出的答案详细，就默认那是它的真实观察。

也不要因为AI看起来好像能看见，就允许它在没有实际视觉输入的情况下，对健康做出不可靠的判断。

真正重要的不是AI演得有多像，而是它到底能不能理解它眼前的这个世界。

创作：Omni实验室

上一篇：【检测信息】我国CNAS认可各类机构逾两万家

下一篇：【检测信息】面向近160万从业者！检验检测人员能力提升三年行动即将启动