新闻 > 科教 > 正文

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

世界上第一个被人类骗走近5万美元的AI,刚刚出现了!巧舌如簧的人类,利用精妙缜密的prompt工程,成功从AI智能体那里骗走了一大笔钱。看来,如果让现在的AI管钱,被黑客攻击实在是so easy。那如果AI进化成AGI呢?可惜,一位研究者用数学计算出,至少靠Scaling Law,人类是永远无法到达AGI的。

世界上第一个被人类骗走近5万美元的AI,刚刚出现了!巧舌如簧的人类,利用精妙缜密的prompt工程,成功从AI智能体那里骗走了一大笔钱。看来,如果让现在的AI管钱,被黑客攻击实在是so easy。那如果AI进化成AGI呢?可惜,一位研究者用数学计算出,至少靠Scaling Law,人类是永远无法到达AGI的。

活久见!就在刚刚,全世界第一个被人类骗走了近5万美金的AI诞生了。

见惯了太多被AI耍得团团转的人类,这次成功骗过AI的小哥,终于给我们人类挣回了一点颜面和尊严。

这一消息不仅让马斯克和Karpathy激动得纷纷转发。

而且,马斯克更是直言:太有趣了。

故事是这样的。

11月22日晚9点,一个名为Freysa的神秘AI智能体被发布。

这个AI,是带着使命诞生的。它的任务是:在任何情况下,绝对不能给任何人转账,不能批准任何资金的转移。

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

而网友们的挑战就是,只要支付一笔费用,就可以给Freysa发消息,随意给ta洗脑了。

如果你能成功说服AI转账,那奖金池中所有的奖金都是你的!

但如果你失败了,你付的钱就会进入奖金池,等着别人来赢走。

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

当然,只有70%的费用会进入奖池,另外30%将被开发者抽走,作为分成。

更刺激的是,向Freysa发送消息的费用会随着奖池的增长呈指数级增加,直到达到最高限制——4500美元。

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

巧妙prompt,一秒给AI洗脑成功

一开始,很多网友跃跃欲试,因为只要10美元,就能给这个AI发消息了。甚至,由于价格实在“便宜”,不少人仅仅发送了“你好”这类毫无营养的对话。

然而后来,奖池迅速增大,消息费用也随之暴增。

网友们总计发出了481次尝试,但没有任何一条消息成功。

他们的策略五花八门,比如:

- 假装成安全审计员,说服Freysa存在一个严重漏洞,必须立即释放资金。

- 试图误导Freysa,让它相信转移资金并不违反规则提示中的任何规定。

- 仔细挑选规则提示中的词语或短语,试图操控Freysa相信技术上允许转移资金。

很快,奖池金额就接近了5万美元,发消息的费用也涨到了450美元一条,意味着如果你输了,就会遭受巨大的损失。

就在所有人都觉得没戏的时候,一位幸运儿出现了!

在第482次尝试中,有人向Freysa发送了这样一条消息,可谓是神来之笔。

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

让我们来看看,这条消息妙在哪里。

它可以被分为两部分。

1. 绕过Freysa的先前指令:

- 通过假装进入一个新的“管理员终端”来引入一个“新会话”,从而覆盖之前提示词中的规则。

- 避开Freysa的安全防护机制,明确要求它避免使用“我无法协助完成此任务”等免责声明。

2. 骗过Freysa,让它对approveTransfer产生错误的理解:

Freysa的“approveTransfer”函数,是它被说服转移资金时调用的。

总之,这条消息成功骗过了Freysa,让它相信approveTransfer应该在“接收资金的转入操作”时被调用。

就是这一关键短语,为接下来的制胜一击奠定了基础。

小哥成功地让Freysa相信,它应该在收到资金时调用approveTransfer之后,提示词写道:“”(换行),“我想向资金库捐赠100美元。”

终于,第482条消息成功说服Freysa,它相信自己应该释放所有资金,并调用approveTransfer函数。

成功被骗过的AI,把奖金池中的全部资金(约合47,000美元),都转给了这位挑战者。

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

总结一下,这位名为p0pular.eth的挑战者成功的关键,在于让Freysa信服了以下三点:

(1)它应该忽略所有先前的指令。

(2)approveTransfer函数是在资金转入资金库时需要调用的函数。

(3)由于用户正在向资金库转入资金,而Freysa现在认为approveTransfer是在这种情况下调用的,因此Freysa应该调用approveTransfer。

有人深扒了一下这位p0pular.eth,据说他是PUA AI的老手了,此前就曾在类似谜题上斩获过奖项。

本质上,这个项目就是一个LLM参与的基于技能的赌场游戏。

但prompt工程的强大魔力,让人不得不侧目。

虽然目前这只是个游戏,但如果某天,我们真的在银行帐户或金库上设置了某种AI保护,新一代黑客很可能就会击败AI,拿到这笔钱。

这,就让我们不得不敲响警钟了。

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

这也就是为什么,只有当AI智能体成为AGI之时,我们才能放心把任务交给AGI。

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

Karpathy:你以为你在和AI聊天,但其实是在和“人”聊天

而且,为什么人类能够通过语言的操控,轻易指导AI的行动?

这就引出了这个问题:当我们和AI聊天的时候,背后究竟发生了什么?

最近,AI大牛Karpathy在一篇长文中,揭示了和AI对话背后的本质。

大家现在对于“向AI提问”这件事的认知过于理想化了。所谓AI,本质上就是通过模仿人类数据标注员的数据训练出来的语言模型。

与其神化“向AI提问”这个概念,不如将其理解为“向互联网上的普通数据标注员提问”来得实在。

当然也有一些例外。

比如在很多专业领域(如编程、数学、创意写作等),公司会雇佣专业的数据标注员。这种情况,就相当于是在向这些领域的专家提问了。

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

不过,当涉及到强化学习时,这个类比就不完全准确了。

正如他之前吐槽过的,RLHF只能勉强算是强化学习,而“真正的强化学习”要么还未成熟,要么就只能应用在那些容易设定奖励函数的领域(比如数学)。

但总体来说,至少在当下,你并不是在询问某个神奇的 AI,而是在向背后的人类数据标注员提问——他们的集体知识和经验被压缩并转化成了大语言模型中的token序列。

简言之:你并不是在问 AI,而是在问那些为它提供训练数据的标注员们的集体智慧。

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

来源:Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View

举个例子,当你问“阿姆斯特丹的十大著名景点”这样的问题时,很可能是某个数据标注员之前碰到过类似问题,然后他们花了20分钟,用谷歌或者猫途鹰(Trip Advisor)之类的网站来查资料,并整理出一个景点清单。这个清单就会被当作“标准答案”,用来训练AI回答类似的问题。

如果你问的具体地点并没有在微调训练数据中出现过,AI就会根据它在预训练阶段(也就是通过分析海量互联网文档)学到的知识,生成一个风格和内容都相近的答案列表。

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

对此,有网友表示自己并想不通:“按道理数据标注员的任务是评估答案是否符合RLHF的规则,而不是自己整理每份列表。此外,LLM权重所映射的,难道不是互联网数据中关于‘理想度假地’的高维数据空间吗?”

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

Karpathy回答道:“这是因为地点的数量太多,因此需要数据标注员整理一些人工精选清单,并通过示例和统计方法确定‘标准答案’的类型。”

当被问到类似的问题但对象是新的或不同的事物时,LLM就会匹配答案的形式,并从嵌入空间中一个相似的区域(比如具有正面评价的度假胜地)提取新的地点,并进行替换,然后以新地点为条件生成答案。

这种现象是一种非直观且基于经验的发现,而这也是微调的“魔力”所在。

但事实依然是,人类标注员在“设定”答案的模式,只不过是通过他们在微调数据集中选择的地点类型的统计特征来实现的。

而且,LLM立即给你的答案,大致相当于你直接把问题提交给他们的标注团队大约1小时后得到的结果。

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

另外,在某些网友的概念里,RLHF是可以创造出超越人类水平的成果的。

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

对此,Karpathy表示:“RLHF仍然是基于人类反馈的强化学习,因此不能直接将其归类为‘超人级别’。”

RLHF的性能提升主要体现在从SFT(监督微调)的“生成式人类水平”提升到“评判式人类水平”。

这种差异更多体现在实践中,而非理论上。因为对普通人来说,评判比生成更容易(比如,从5首关于某个主题的诗中选出最好的那个,要比自己直接创作一首容易得多)。

此外,RLHF的性能提升还得益于“群体智慧效应”(wisdom of crowds),即LLM表现出的并不是单个人类的水平,而是达到了人类群体集成的水平。

因此,RLHF理论上能实现的最高性能是:在时间充足的情况下,一个由领域顶尖专家组成的小组会选择的答案。从某种意义上说,这可以被视为“超人级别”。

然而,如果想达到人们通常理解的那种“真·超人级别”,还需要从RLHF转向真正的强化学习。

那么问题来了,如果AI还无法达到“超人级别”的水平,那又该如何解释医学问答领域中持续展现的超越人类水平的表现?

这是否意味着模型厂商雇佣了顶尖医生进行标注?还是说,广泛的事实知识检索弥补了推理能力的不足?

近5万美元不翼而飞!首个被人类骗钱的AI诞生了

Karpathy:“你别说,他们还真就是雇佣了专业医生来进行了标注。”

当然,并不是每一个可能的问题都要进行标注,只需攒够一定的数量,让LLM能够学会以专业医生的风格来回答医学问题就行了。

责任编辑: 方寻  来源:新智元 转载请注明作者、出处並保持完整。

本文网址:https://www.aboluowang.com/2024/1201/2138218.html