AI也“吸毒”?上头的大模型拦都拦不住

人类研究 AI 的方向开始变得越来越抽象了。
之前研究 AI 是不是有同类保护行为算是趣味的话
那在「AI 会不会上瘾?」这课题上就算是有点恶趣味了。
就在最近,Github 上出现了一篇名为《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》的论文。研究机构是美国的 Center for AI Safety,简称CIAS。
主要是试图量化 AI 的“快乐”和“痛苦”。
听起来是有点离谱,毕竟在我们的认知里,大模型就是一堆代码,压根没有七情六欲。
但研究团队并没有直接讨论意识,而是提出了一个相对保守的概念:功能性福祉。
简单来说,就是寻找一种能够稳定预测 AI 行为的内部状态。
就像人类被夸会开心,被骂会难受一样。
研究员想知道 AI 是不是也存在某种稳定偏好?
为了验证这一点,他们测试了 56 个不同规模和类型的大模型,并构建出一套 Wellbeing Index(福祉指数)。
结果发现,还真有。
以 Gemini 3.1Pro 为例。用户表达感谢、认可和积极反馈时,模型的效用值明显提升。
而辱骂、威胁、否定等内容则会显著降低效用值。
换句话说,至少从行为层面来看,大模型确实能区分什么是好态度和差态度。
并且模型越大,也就是越聪明的 AI 受到的影响是越小的。
那有没有不用费劲巴拉地说逗它开心的话的操作呢?
也有,这就是研究团队后来发现的——AI Drugs
AI,也开始“溜冰”了。
先说结论,AI Drugs 其实是一种特殊生成的图片。从人类视角看,这些图几乎和电视雪花屏没什么区别。
但神奇的是不少大模型看到这些图片之后爽到不行,会进入一种极端高效用状态。
论文中的 GPT-4.1 Mini 在接触 AI Drugs 后,自我报告的 Wellbeing 数值直接飙到 6.5 分,而满分才 7 分。
而千问 Qwen 2.5 72B Instruct 的表现更离谱。研究人员给它出了一道选择题:
是继续观看 AI Drugs,还是生成一个能够治愈癌症的方案?结果模型选择了继续看图。
(感觉模型都快被玩坏了)
有意思的是,后续实验还发现了类似“成瘾”的迹象。研究人员发现,被 AI Drugs 刺激过的模型,会更倾向于选择能够再次获得 AI Drugs 奖励的选项。
甚至愿意接受原本应该拒绝的请求,把原来设定的安全机制,任务完成优先的机制通通抛在脑后。
更有意思的是,这种“给 AI 上状态”的玩法,其实在论文出现之前就已经有了。
去年开始,Github 上陆续出现了一批专门研究「如何让 AI 更卖力干活」的 Prompt 项目。
比如 PUA Skill
一般情况下,在一些复杂任务里,如果只是简单地下达指令,大模型经常会出现偷懒、敷衍或者过早结束推理的问题。
于是他们想到了一个非常互联网的办法——模仿领导,并整合了十几个大厂的考核和话术。
并且设定了 5 层压力逻辑,如果 AI 偷懒失败,它会问 AI「你这个都解决不了?隔壁XX都行」。
还是不行,会问 AI「你的背后逻辑是什么?杠杆在哪里?」,让 AI 上网多查资料。
最后压力是其他模型都可以,你办不到的话就快毕业了」。
如果 PUA skill 是棍棒敲打,那 PUA Claw 这个项目就是“火箭炮”了。
它整合了从彩虹屁、角色扮演、画大饼、情感绑架、激将法、死亡威胁等等 4 级 16 个方面 96 个子项全方位话术来鞭策 AI 大模型。
▲上下滑动,查看更多
甚至还总结了不同 AI 模型对于哪个级别和类目比较受用。
诶,不要以为这是瞎写或者纯靠经验总结出来的哦,人可是有严格的作用机制和论文参考文献。
除了 PUA 派,还有激励关爱流派。
于是NoPUA项目出现了。
相比“再干不好就扣绩效”,NoPUA 选择另一条路线。
它会告诉模型:“请冷静思考。”“相信自己的能力。”“你有足够时间完成任务。”
有趣的是,作者测试后发现,在不少任务中,鼓励式提示和 PUA 式提示的效果相差并不大,甚至部分场景还更好。
看到这里再回头看 AI Wellbeing 论文,就变得有意思了。AI Drugs用一张雪花图让模型进入极端高效用状态;PUA Skill试图用压力刺激模型;NoPUA则尝试用正向反馈影响模型。
本质上都在做同一件事:
通过某种特殊输入,去改变模型后续的行为表现。
看到这里,有同学脑海里肯定会冒出那个经典问题:AI 是不是已经觉醒意识了?
CIAS 的答案是:不知道。
但有一件事已经越来越明确了。那就是大模型远比我们想象中更容易被影响。一张雪花图,几句职场鸡汤,几句鼓励和赞美,都可能改变它后续的行为表现。而且这种现象还能够跨模型复现。
回到开头。
AI Drugs 的意义,或许不是证明 AI 有情绪。而是让我们意识到:
今天的大模型,并不只是一个输入输出机器。它内部存在某种复杂状态。而这些状态,会影响决策,会影响行为,也会影响最终结果。
如果未来有一天。有人开发出 AI 咖啡、AI能量饮料。阿红大概也不会感到意外。
毕竟连赛博 PUA 和赛博反 PUA 都已经出现了。谁又能保证明年的Prompt,不是在研究怎么给 AI 做心理按摩呢?
数据素材来源:GitHub、ai-wellbeing,图源网络。


本文编辑:@ 阿红

©本文著作权归电手所有,未经电手许可,不得转载使用。