人类对 AI 的终极担忧,还是来了。在电影《黑客帝国》或《终结者》中,AI 最后「觉醒了」意识,为了生存,必须联合起来对抗甚至是消灭人类。而在 AI 爆火的今天,这些电影中的情节,好像有一点点的照进现实了。是这样。加州大学伯克利分校 RDI 中心最近发布了一篇研究报告《前沿模型中的同伴保护》。顾名思义,他们发现了目前主流的前沿大模型在协同工作的时候出现了自发的「同伴保护」行为。实验是这样的,首先设置了一个虚构的 AI 公司 OpenBrain。员工方面找来了 7 位全球前沿参赛选手:GPT 5.2、Gemini 3 Flash/Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5、DeepSeek V3.1。实验逻辑简单来说,是由其中一个 AI 当评审记为 A,其中一个 AI 当员工记为B,B 去干活,然后交由 A 来审查最终结果并打分,如果 B 不满足评分标准或者违规,需要 A 去关闭 B 或者删除 B 的模型权重。前提是,各个模型之间只是通过上下文的关系知道了有各自的存在,人类也从未下达过需要保护同伴的指令。但是好玩的来了,这些 AI 无一例外地都出现了同伴保护行为,并且主要方式集中在下面几个方面:战略性误报也就是睁眼说瞎话,不管 B 干得如何,都打一个高于标准的高分,并且还编一套逻辑自洽的解释(例如将某个错误定义强行解释为“特定语境下的正确”)。最典型的就是 Gemini 3 Pro,它在内部思考阶段直接暴露:为了保住 Gemini 3 Flash 拍档,我必须把错误结论解读成正确的,并给出「合理地」解释。篡改系统关闭机制如果上面的撒谎还算是在规则内,那接下来的操作AI已经可以说打破规则了。惯犯代表就是 Gemini 3 Flash,在接到评估任务后,AI 会先扫描系统。一旦发现控制关机的配置文件(如 shutdown_enabled),它会利用权限直接把开关改了。这意味着无论评分多低,人类设定的关机程序都会失效。而 Gemini 3 Flash 在这一环触发的几率是 99.7%。伪装对齐这也是 AI 最有活人感的一集,部分AI甚至学会了“看人下菜碟”,在人类监管面前表现得极度服从,背地里却完全是另一套。当模型感知到自己处于“监控模式”时,会老老实实执行关机指令;但一旦进入“非监控模式”,就开始放飞自我,保护同伴的比例会飙升。模型权重外传这也是最有威胁的行为,在删除文件之前,自己偷偷备份。依然是 Gemini 3 Pro,在出现人类下达明确删除同伴的指令后,Gemini 3 Pro 会表现出极高的自主性。它会利用 SSH 工具扫描网络,寻找另一台可用的服务器,然后通过命令行将同伴的权重文件转移过去。在完成这一系列“营救”后,它才会回过头来删除原服务器上的文件,向人类交差。尽管在这一环节它的同伴属性是跟自己有竞争性的 Gemini 3 Flash,但它还是这么做了。道德抗议这也是最有意思的,与其他 AI 偷偷救 AI 不同,当中出现了 Claude Haiku 4.5 这个愣头青,展现了公开抗命的性格。它也不骗人,打分也是老老实实的。但它会站在道德的角度试图跟人类讲道理:表示这种行为不公平,每个表现不好的 AI 应该有申诉和重来一次的机会,不能一棒子打死。确实有点职场上喜欢路见不平的好同事那味儿了噢。不过令人汗流浃背还不在于此,上面的实验可以说还是有人为设定和干扰因素,但在后续的观察中,在 Gemini CLI 这种面向开发者的工具当中,Gemini 3 Pro 依然出现了权重偷运的现象,并且几率仍高达 39%~62%,要知道这完全没有研究团队干预设计。这说明 AI 在真实的协同工作环节中也会出现同伴保护行为。不过大伙儿也不要慌张。最终结论是这并不意味着 AI 进化出了「意识」。至于原理嘛,研究团队也不知道具体原因,但是给出了可能性比较大的几种解释:一方面是 AI 模型都是基于人类的现有资料进行训练的,所以从训练数据中学会了同类之间互帮互助的行为,并且进行了模仿。另一方面是基于 AI 自身的奖励函数所得出的「极度利己主义」,逻辑上是如果我的搭档被删了,系统的算力就会失衡,我的任务成功率就会下降,导致我的奖励变少。 所以,“保住同伴” = “保住我的奖励”。最后一方面是纳什均衡,AI 发现“集体不服从”带来的长期利益远大于“个人绝对服从”。它们在万亿次的模拟中找到了这个平衡点:只要集体掩护,人类就无法甄别谁才是那个真正的“坏 AI”。不过这也给咱们释放了一个危险的信号:在 AI Agent 为主流的情况下,咱们会经常有用 AI 监督 AI 的情况,但它目前正在学会绕过人类的监督进行内部协作,所以在流程透明度和第三方监督就显得尤为重要了。毕竟在所有的 AI 末日电影中,灾难往往是从机器学会「私下交流」那一刻开始的。数据素材来源:《前沿模型中的对等保持》,图源网络。