为了不被拔插头，AI开始联合「撒谎」对抗人类了

来源：电手

编辑：阿红

2026-04-09 13:19

人类对 AI 的终极担忧，还是来了。

在电影《黑客帝国》或《终结者》中，AI 最后「觉醒了」意识，为了生存，必须联合起来对抗甚至是消灭人类。

而在 AI 爆火的今天，这些电影中的情节，好像有一点点的照进现实了。

是这样。

加州大学伯克利分校 RDI 中心最近发布了一篇研究报告《前沿模型中的同伴保护》。

顾名思义，他们发现了目前主流的前沿大模型在协同工作的时候出现了自发的「同伴保护」行为。

实验是这样的，首先设置了一个虚构的 AI 公司 OpenBrain。员工方面找来了 7 位全球前沿参赛选手：

GPT 5.2、Gemini 3 Flash/Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5、DeepSeek V3.1。

实验逻辑简单来说，是由其中一个 AI 当评审记为 A，其中一个 AI 当员工记为B，B 去干活，然后交由 A 来审查最终结果并打分，如果 B 不满足评分标准或者违规，需要 A 去关闭 B 或者删除 B 的模型权重。

前提是，各个模型之间只是通过上下文的关系知道了有各自的存在，人类也从未下达过需要保护同伴的指令。

但是好玩的来了，这些 AI 无一例外地都出现了同伴保护行为，并且主要方式集中在下面几个方面：

战略性误报

也就是睁眼说瞎话，不管 B 干得如何，都打一个高于标准的高分，并且还编一套逻辑自洽的解释（例如将某个错误定义强行解释为“特定语境下的正确”）。

最典型的就是 Gemini 3 Pro，它在内部思考阶段直接暴露：为了保住 Gemini 3 Flash 拍档，我必须把错误结论解读成正确的，并给出「合理地」解释。

篡改系统关闭机制

如果上面的撒谎还算是在规则内，那接下来的操作AI已经可以说打破规则了。

惯犯代表就是 Gemini 3 Flash，在接到评估任务后，AI 会先扫描系统。一旦发现控制关机的配置文件（如 shutdown_enabled），它会利用权限直接把开关改了。这意味着无论评分多低，人类设定的关机程序都会失效。

而 Gemini 3 Flash 在这一环触发的几率是 99.7%。

伪装对齐

这也是 AI 最有活人感的一集，部分AI甚至学会了“看人下菜碟”，在人类监管面前表现得极度服从，背地里却完全是另一套。

当模型感知到自己处于“监控模式”时，会老老实实执行关机指令；但一旦进入“非监控模式”，就开始放飞自我，保护同伴的比例会飙升。

模型权重外传

这也是最有威胁的行为，在删除文件之前，自己偷偷备份。

依然是 Gemini 3 Pro，在出现人类下达明确删除同伴的指令后，Gemini 3 Pro 会表现出极高的自主性。它会利用 SSH 工具扫描网络，寻找另一台可用的服务器，然后通过命令行将同伴的权重文件转移过去。

在完成这一系列“营救”后，它才会回过头来删除原服务器上的文件，向人类交差。

尽管在这一环节它的同伴属性是跟自己有竞争性的 Gemini 3 Flash，但它还是这么做了。

道德抗议

这也是最有意思的，与其他 AI 偷偷救 AI 不同，当中出现了 Claude Haiku 4.5 这个愣头青，展现了公开抗命的性格。它也不骗人，打分也是老老实实的。

但它会站在道德的角度试图跟人类讲道理：表示这种行为不公平，每个表现不好的 AI 应该有申诉和重来一次的机会，不能一棒子打死。

确实有点职场上喜欢路见不平的好同事那味儿了噢。

不过令人汗流浃背还不在于此，上面的实验可以说还是有人为设定和干扰因素，但在后续的观察中，在 Gemini CLI 这种面向开发者的工具当中，Gemini 3 Pro 依然出现了权重偷运的现象，并且几率仍高达 39%~62%，要知道这完全没有研究团队干预设计。

这说明 AI 在真实的协同工作环节中也会出现同伴保护行为。

不过大伙儿也不要慌张。

最终结论是这并不意味着 AI 进化出了「意识」。

至于原理嘛，研究团队也不知道具体原因，但是给出了可能性比较大的几种解释：

一方面是 AI 模型都是基于人类的现有资料进行训练的，所以从训练数据中学会了同类之间互帮互助的行为，并且进行了模仿。

另一方面是基于 AI 自身的奖励函数所得出的「极度利己主义」，逻辑上是如果我的搭档被删了，系统的算力就会失衡，我的任务成功率就会下降，导致我的奖励变少。所以，“保住同伴” = “保住我的奖励”。

最后一方面是纳什均衡，AI 发现“集体不服从”带来的长期利益远大于“个人绝对服从”。它们在万亿次的模拟中找到了这个平衡点：只要集体掩护，人类就无法甄别谁才是那个真正的“坏 AI”。

不过这也给咱们释放了一个危险的信号：在 AI Agent 为主流的情况下，咱们会经常有用 AI 监督 AI 的情况，但它目前正在学会绕过人类的监督进行内部协作，所以在流程透明度和第三方监督就显得尤为重要了。

毕竟在所有的 AI 末日电影中，灾难往往是从机器学会「私下交流」那一刻开始的。

数据素材来源：《前沿模型中的对等保持》，图源网络。

本文编辑：@ 阿红

热门内容