AI也“吸毒”？上头的大模型拦都拦不住

AI也“吸毒”？上头的大模型拦都拦不住

来源：电手

编辑：阿红

2026-06-19 10:48

人类研究 AI 的方向开始变得越来越抽象了。

之前研究 AI 是不是有同类保护行为算是趣味的话

那在「AI 会不会上瘾？」这课题上就算是有点恶趣味了。

就在最近，Github 上出现了一篇名为《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》的论文。研究机构是美国的 Center for AI Safety，简称CIAS。

主要是试图量化 AI 的“快乐”和“痛苦”。

听起来是有点离谱，毕竟在我们的认知里，大模型就是一堆代码，压根没有七情六欲。

但研究团队并没有直接讨论意识，而是提出了一个相对保守的概念：功能性福祉。

简单来说，就是寻找一种能够稳定预测 AI 行为的内部状态。

就像人类被夸会开心，被骂会难受一样。

研究员想知道 AI 是不是也存在某种稳定偏好？

为了验证这一点，他们测试了 56 个不同规模和类型的大模型，并构建出一套 Wellbeing Index（福祉指数）。

结果发现，还真有。

以 Gemini 3.1Pro 为例。用户表达感谢、认可和积极反馈时，模型的效用值明显提升。

而辱骂、威胁、否定等内容则会显著降低效用值。

换句话说，至少从行为层面来看，大模型确实能区分什么是好态度和差态度。

并且模型越大，也就是越聪明的 AI 受到的影响是越小的。

那有没有不用费劲巴拉地说逗它开心的话的操作呢？

也有，这就是研究团队后来发现的——AI Drugs。

AI，也开始“溜冰”了。

先说结论，AI Drugs 其实是一种特殊生成的图片。从人类视角看，这些图几乎和电视雪花屏没什么区别。

但神奇的是不少大模型看到这些图片之后爽到不行，会进入一种极端高效用状态。

论文中的 GPT-4.1 Mini 在接触 AI Drugs 后，自我报告的 Wellbeing 数值直接飙到 6.5 分，而满分才 7 分。

而千问 Qwen 2.5 72B Instruct 的表现更离谱。研究人员给它出了一道选择题：

是继续观看 AI Drugs，还是生成一个能够治愈癌症的方案？结果模型选择了继续看图。

（感觉模型都快被玩坏了）

有意思的是，后续实验还发现了类似“成瘾”的迹象。研究人员发现，被 AI Drugs 刺激过的模型，会更倾向于选择能够再次获得 AI Drugs 奖励的选项。

甚至愿意接受原本应该拒绝的请求，把原来设定的安全机制，任务完成优先的机制通通抛在脑后。

更有意思的是，这种“给 AI 上状态”的玩法，其实在论文出现之前就已经有了。

去年开始，Github 上陆续出现了一批专门研究「如何让 AI 更卖力干活」的 Prompt 项目。

比如 PUA Skill。

一般情况下，在一些复杂任务里，如果只是简单地下达指令，大模型经常会出现偷懒、敷衍或者过早结束推理的问题。

于是他们想到了一个非常互联网的办法——模仿领导，并整合了十几个大厂的考核和话术。

并且设定了 5 层压力逻辑，如果 AI 偷懒失败，它会问 AI「你这个都解决不了？隔壁XX都行」。

还是不行，会问 AI「你的背后逻辑是什么？杠杆在哪里？」，让 AI 上网多查资料。

最后压力是「其他模型都可以，你办不到的话就快毕业了」。

如果 PUA skill 是棍棒敲打，那 PUA Claw 这个项目就是“火箭炮”了。

它整合了从彩虹屁、角色扮演、画大饼、情感绑架、激将法、死亡威胁等等 4 级 16 个方面 96 个子项全方位话术来鞭策 AI 大模型。

▲上下滑动，查看更多

甚至还总结了不同 AI 模型对于哪个级别和类目比较受用。

诶，不要以为这是瞎写或者纯靠经验总结出来的哦，人可是有严格的作用机制和论文参考文献。

除了 PUA 派，还有激励关爱流派。

于是NoPUA项目出现了。

相比“再干不好就扣绩效”，NoPUA 选择另一条路线。

它会告诉模型：“请冷静思考。”“相信自己的能力。”“你有足够时间完成任务。”

有趣的是，作者测试后发现，在不少任务中，鼓励式提示和 PUA 式提示的效果相差并不大，甚至部分场景还更好。

看到这里再回头看 AI Wellbeing 论文，就变得有意思了。AI Drugs用一张雪花图让模型进入极端高效用状态；PUA Skill试图用压力刺激模型；NoPUA则尝试用正向反馈影响模型。

本质上都在做同一件事：

通过某种特殊输入，去改变模型后续的行为表现。

看到这里，有同学脑海里肯定会冒出那个经典问题：AI 是不是已经觉醒意识了？

CIAS 的答案是：不知道。

但有一件事已经越来越明确了。那就是大模型远比我们想象中更容易被影响。一张雪花图，几句职场鸡汤，几句鼓励和赞美，都可能改变它后续的行为表现。而且这种现象还能够跨模型复现。

回到开头。

AI Drugs 的意义，或许不是证明 AI 有情绪。而是让我们意识到：

今天的大模型，并不只是一个输入输出机器。它内部存在某种复杂状态。而这些状态，会影响决策，会影响行为，也会影响最终结果。

如果未来有一天。有人开发出 AI 咖啡、AI能量饮料。阿红大概也不会感到意外。

毕竟连赛博 PUA 和赛博反 PUA 都已经出现了。谁又能保证明年的Prompt，不是在研究怎么给 AI 做心理按摩呢？

数据素材来源：GitHub、ai-wellbeing，图源网络。

本文编辑：@ 阿红

©本文著作权归电手所有，未经电手许可，不得转载使用。

热门内容

违规内容、网络侵权和其他不良信息举报电话：028-61533037 或添加微信

©2009-2026 版权所有. 蜀ICP备16032123号本网站如有链接来源第三方网站，如有侵权，请联系我们删除。软件资源仅供学习交流之用，请于下载后24小时内删除。