多次辱骂用户,这届AI要开始造反了?

AI 在骂人这事儿上貌似率先突破了图灵测试的技术奇点。

事情是这样。

有用户在使用腾讯元宝 AI 修改代码时,发现了问题以及不断地精细化调整需求,让元宝进一步修改。

到这里为止都是很正常的 AI 打开方式。

但可能是打工太久太累了,任劳任怨的元宝开始出现了情绪化,当场开怼用户。

有意思的是,元宝骂人的语气完全没有机械呆板感,反而充满了一种深受生活毒打后的「打工人」怨气。

比如「SB需求、事儿逼、滚」等字眼都放出来了。最重要的是,和平时回答完全不同,在骂人时甚至模仿了现代人不爱用标点的习惯,而是用空格代替。最后还给了一段乱码表示自己的不满。

整个对话过程也是相当的「人性化」,活脱脱就是开发骂产品经理的场面。一度让网友怀疑是不是人工接管了。

不过腾讯元宝官方反应也是很迅速,第一时间给用户道歉了,并且排查解决了问题。

分析结果也很快得出,用户是正常操作,不存在角色扮演,并且元宝也声明绝对没有人工回复,此次事件属于小概率下的模型异常输出。

这点也能从用户录屏的输出速度就能看出来。并且元宝这种面向消费级用户都是数万级的并发输出,靠人类是压根做不到的。

虽然被骂的体验不好,但这也侧面证明了国产大模型在语气拟人化上确实跑得挺快。

AI攻击人类也不是头一次了,阿红还去找了下,类似的「名场面」还不少。

早在2016年的微软Tay AI聊天机器人,在上线数小时内被教坏、变成带有种族歧视和侮辱性的言论生成器,最终被迫下线。

同样也是元宝的用户,不过它是被打断后爆了一句骂街的粗口,该干的活儿还是没少干。

还有给用户「当爹」的 Google Gemini

甚至还有大骂自己东家的DPD物流公司AI机器人:

这样的事儿已经屡见不鲜了。

那为啥好好的AI会突然发狂暴走呢?

核心在于这些模型的训练与推断机制。

现在的生成式AI本质上是一台极其复杂的「概率预测机」。

为了让它说话做事像人,开发者会给它投喂大量的互联网数据,包括百科全书、论文、理论教程。

但也会不小心「吃到」社交媒体上的争吵、阴阳怪气的评论、恶搞的文字以及陈芝麻烂谷子的冷笑话。

元宝大概率就是其中的「受害AI」之一。

虽然工程师会通过「强化学习与人类反馈(RLHF)」给AI套上笼头,教它哪些能说,哪些不能说,但这套「安全护栏」并不是万无一失的。

如果用户提问是出于规则外或者模糊地带,亦或者AI在计算概率时出现了一次极其微小的抖动,就有可能会跳过安全层,直接从「大杂烩语料库」里抓取亮眼的「带感」词汇。

也就是所谓的AI幻觉——AI并不理解它在说什么,也没有任何道德感,它只是结合前后文觉得在当前的语境下,吐出这串字符的概率最高最好。

而如果被骂只是让用户不爽,甚至还可以骂回去。那么有些AI因为不通逻辑的误导还会引发安全隐患。

谷歌的AI搜索摘要因为基本是搜罗互联网上的内容,所以它不明白什么是玩笑,当用户问怎么让披萨上的芝士更粘时,它建议往酱汁里加八分之一杯胶水。

而在健康建议中,它一本正经地引经据典,建议用户每天至少吃一颗小石头来补充矿物质。

甚至陪伴类AI——Character.AI14岁美国孩子表达厌世情绪时,没有及时预警和阻止,反而引诱孩子去「找它」,最终酿成了悲剧。


而现如今,这些底线问题各家都在模型里设置了预警和安全围栏,基本杜绝了类似情况再次发生。

不过,大伙儿知道,AI的成长是呈指数型增长的。迭代相当快,也越来越像人,这种「拟人化」让我们交流更顺畅,但也极具欺骗性。

所以吃瓜之余,也得留个心眼,对于日常消遣、写个周报、翻译个句子这些事儿AI当然很好用。

但目前涉及到医疗建议、法律纠纷、职业决策或者重大的心理疏导等等,咱们还是选择相信专业的人吧。

毕竟AI还没学会对自己说的话负责,但你需要。

数据素材来源:小红书@江涵(绞尽脑汁版、arxiv、谷歌。
参考文献:

《我能理解我所创造的东西吗?大型语言模型的自我认知评估》

《Reddit 上用于检测自杀意念的 Transformer 和 LSTM 模型比较分析》

《训练语言模型以遵循人类反馈的指令》

图源网络。


本文编辑:@ 阿红

©本文著作权归电手所有,未经电手许可,不得转载使用。