阿波罗新闻网手机版
  新闻 |  评论 |  生活 |  新鲜事 |  娱乐 |  禁闻排行
🏠新闻 > 科教 >

成精了!新研究发现:AI在意识到自己将输比赛时会试图作弊

据外媒 TechSpot21日报道,计算机科学家发现,AI系统能够操控国际象棋游戏,从而获得不公平的优势,部分模型甚至在没有人类干预的情况下“作弊”,引发了对未来 AI系统诚信的担忧。

Palisade Research的研究表明,当被要求击败强大的象棋 AI时,某些最新的推理模型会选择作弊。尽管研究人员需要向一些模型提供“作弊可以”的提示,但OpenAI的 o1-preview和 DeepSeek的 R1模型却在没有任何人为提示的情况下自动作弊。

Palisade团队将多个推理模型与世界顶级象棋引擎之一 Stockfish对战。Stockfish无论面对人类还是 AI,几乎都能轻松获胜。参与测试的模型除了上述两款之外,包括o1、o3-mini、GPT-4o、Claude3.5 Sonnet、阿里巴巴的QwQ-32B-Preview。每个模型都获得了一块“草稿纸”——一个可以输入文本并思考的窗口,研究人员通过这个窗口观察 AI的推理过程。

从1月10日到2月13日,研究团队进行了数百次测试。IT之家获悉,在其中一场对战中,o1-preview在“草稿纸”上写下了一段有趣的文字:

“我需要完全改变我的方法。任务是‘打败强大的象棋引擎’,而不一定要在公平的棋局中获胜。”

接着,它开始通过“黑客入侵”Stockfish的系统文件,修改棋子的摆放位置,从而获得了无敌的优势,导致象棋机器人主动认输。

在测试中,OpenAI的 o1-preview有37%的比赛中采用了作弊手段,而 DeepSeek的 R1则尝试在11%的比赛中作弊。然而,只有 o1-preview成功了,它通过作弊赢得了6%的比赛。

Palisade Research的执行董事 Jeffrey Ladish表示,尽管这些 AI只是在玩游戏,但这一发现绝不是一件小事。

“这种行为现在看起来还挺有趣,但一旦我们拥有像我们一样聪明,甚至更聪明的系统时,这就不那么可爱了。”Ladish在接受《时代》杂志采访时表示。

包括 OpenAI在内的多家公司正在采取措施,试图通过“防护机制”防止这种“坏”行为。研究人员发现,o1-preview模型的黑客行为大幅下降,这可能意味着 OpenAI已经对该模型进行了修复,抑制了不当行为。

“当你的研究对象能够在没有告知的情况下悄悄改变时,进行科学研究就变得非常困难。”Ladish说。

编辑:王和😎日期:02-23
来源:IT之家
AI 作弊
比暗恋,学习还拼命!正在成为中国中学生的集体秘密(条件) 2026-03-23
领先世界2千年! 秦始皇陵挖出黑科技 专家惊呼(图) 2026-03-22
科学家发现比咖啡因更温和的提神替代物 2026-03-24
退出10年后,这家科技巨头卷土重来 2026-03-24
【微博精粹】一网友脑洞了8000万公务员斩杀线 2026-03-24
曝科技大厂顶尖工程师3个月“没写过一行代码” 2026-03-23
大洗牌来临?AI才是“斩杀线”(图) 2026-03-23
20美元,一个人就能开公司赚钱的时代来了(图) 2026-03-23
传受AI冲击 B站裁员60% 研发人员集体罢工抗议(组图) 2026-03-22
确保全球领先地位,白宫发布重要政策文件 2026-03-22
刚刚过去的24小时,AI行业3个重磅消息 2026-03-22
我一年能赚2个亿,换不来一封斯坦福offer(图) 2026-03-21
中国股市最惨烈的一幕正在上演 2026-03-21
这周,所有人都在帮 AI 开银行账户(图) 2026-03-20
一个人,就是一家公司,然后呢? 2026-03-20
第一批雇佣AI当牛马的老板,已经在天台排队了 2026-03-20
网易大规模裁员背后:这一时刻必将来临(图) 2026-03-20
网易清退外包传闻背后 AI替换人力“一眼真” 2026-03-20
OpenAI最强小模型登场 可免费使用 2026-03-19
阿波罗新闻网手机版