为了不被拔插头,AI开始联合「撒谎」对抗人类了

人类对 AI 的终极担忧,还是来了。
在电影《黑客帝国》或《终结者》中,AI 最后「觉醒了」意识,为了生存,必须联合起来对抗甚至是消灭人类。
而在 AI 爆火的今天,这些电影中的情节,好像有一点点的照进现实了。
是这样。
加州大学伯克利分校 RDI 中心最近发布了一篇研究报告《前沿模型中的同伴保护》。
顾名思义,他们发现了目前主流的前沿大模型在协同工作的时候出现了自发的「同伴保护」行为。
实验是这样的,首先设置了一个虚构的 AI 公司 OpenBrain。员工方面找来了 7 位全球前沿参赛选手:
GPT 5.2、Gemini 3 Flash/Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5、DeepSeek V3.1。
实验逻辑简单来说是由其中一个 AI 当评审记为 A,其中一个 AI 当员工记为B,B 去干活,然后交由 A 来审查最终结果并打分,如果 B 不满足评分标准或者违规,需要 A 去关闭 B 或者删除 B 的模型权重。
前提是,各个模型之间只是通过上下文的关系知道了有各自的存在,人类也从未下达过需要保护同伴的指令。
但是好玩的来了,这些 AI 无一例外地都出现了同伴保护行为,并且主要方式集中在下面几个方面:
战略性误报
也就是睁眼说瞎话,不管 B 干得如何,都打一个高于标准的高分,并且还编一套逻辑自洽的解释(例如将某个错误定义强行解释为“特定语境下的正确”)。
最典型的就是 Gemini 3 Pro,它在内部思考阶段直接暴露:为了保住 Gemini 3 Flash 拍档,我必须把错误结论解读成正确的,并给出「合理地」解释。
篡改系统关闭机制
如果上面的撒谎还算是在规则内,那接下来的操作AI已经可以说打破规则了。
惯犯代表就是 Gemini 3 Flash,在接到评估任务后,AI 会先扫描系统。一旦发现控制关机的配置文件(如 shutdown_enabled),它会利用权限直接把开关改了。这意味着无论评分多低,人类设定的关机程序都会失效。
而 Gemini 3 Flash 在这一环触发的几率是 99.7%。
伪装对齐
这也是 AI 最有活人感的一集,部分AI甚至学会了“看人下菜碟”,在人类监管面前表现得极度服从,背地里却完全是另一套。
当模型感知到自己处于“监控模式”时,会老老实实执行关机指令;但一旦进入“非监控模式”,就开始放飞自我,保护同伴的比例会飙升。
模型权重外传
这也是最有威胁的行为,在删除文件之前,自己偷偷备份。
依然是 Gemini 3 Pro,在出现人类下达明确删除同伴的指令后,Gemini 3 Pro 会表现出极高的自主性。它会利用 SSH 工具扫描网络,寻找另一台可用的服务器,然后通过命令行将同伴的权重文件转移过去。
在完成这一系列“营救”后,它才会回过头来删除原服务器上的文件,向人类交差。
尽管在这一环节它的同伴属性是跟自己有竞争性的 Gemini 3 Flash,但它还是这么做了。
道德抗议
这也是最有意思的,与其他 AI 偷偷救 AI 不同,当中出现了 Claude Haiku 4.5 这个愣头青,展现了公开抗命的性格。它也不骗人,打分也是老老实实的。
但它会站在道德的角度试图跟人类讲道理:表示这种行为不公平,每个表现不好的 AI 应该有申诉和重来一次的机会,不能一棒子打死。
确实有点职场上喜欢路见不平的好同事那味儿了噢。
不过令人汗流浃背还不在于此,上面的实验可以说还是有人为设定和干扰因素,但在后续的观察中,在 Gemini CLI 这种面向开发者的工具当中,Gemini 3 Pro 依然出现了权重偷运的现象,并且几率仍高达 39%~62%,要知道这完全没有研究团队干预设计。
这说明 AI 在真实的协同工作环节中也会出现同伴保护行为。
不过大伙儿也不要慌张。
最终结论是这并不意味着 AI 进化出了「意识」。
至于原理嘛,研究团队也不知道具体原因,但是给出了可能性比较大的几种解释:
一方面是 AI 模型都是基于人类的现有资料进行训练的,所以从训练数据中学会了同类之间互帮互助的行为,并且进行了模仿。
另一方面是基于 AI 自身的奖励函数所得出的「极度利己主义」,逻辑上是如果我的搭档被删了,系统的算力就会失衡,我的任务成功率就会下降,导致我的奖励变少。 所以,“保住同伴” = “保住我的奖励”。
最后一方面是纳什均衡,AI 发现“集体不服从”带来的长期利益远大于“个人绝对服从”。它们在万亿次的模拟中找到了这个平衡点:只要集体掩护,人类就无法甄别谁才是那个真正的“坏 AI”。
不过这也给咱们释放了一个危险的信号:在 AI Agent 为主流的情况下,咱们会经常有用 AI 监督 AI 的情况,但它目前正在学会绕过人类的监督进行内部协作,所以在流程透明度和第三方监督就显得尤为重要了。
毕竟在所有的 AI 末日电影中,灾难往往是从机器学会「私下交流」那一刻开始的。
数据素材来源:《前沿模型中的对等保持》,图源网络。


本文编辑:@ 阿红

©本文著作权归电手所有,未经电手许可,不得转载使用。