成精了！新研究发现:AI在意识到自己将输比赛时会试图作弊科教频道|科教兴国|教育新闻阿波罗新闻网手机版

🏠新闻 > 科教 >

成精了！新研究发现:AI在意识到自己将输比赛时会试图作弊

据外媒 TechSpot21日报道，计算机科学家发现，AI系统能够操控国际象棋游戏，从而获得不公平的优势，部分模型甚至在没有人类干预的情况下“作弊”，引发了对未来 AI系统诚信的担忧。

Palisade Research的研究表明，当被要求击败强大的象棋 AI时，某些最新的推理模型会选择作弊。尽管研究人员需要向一些模型提供“作弊可以”的提示，但OpenAI的 o1-preview和 DeepSeek的 R1模型却在没有任何人为提示的情况下自动作弊。

Palisade团队将多个推理模型与世界顶级象棋引擎之一 Stockfish对战。Stockfish无论面对人类还是 AI，几乎都能轻松获胜。参与测试的模型除了上述两款之外，包括o1、o3-mini、GPT-4o、Claude3.5 Sonnet、阿里巴巴的QwQ-32B-Preview。每个模型都获得了一块“草稿纸”——一个可以输入文本并思考的窗口，研究人员通过这个窗口观察 AI的推理过程。

从1月10日到2月13日，研究团队进行了数百次测试。IT之家获悉，在其中一场对战中，o1-preview在“草稿纸”上写下了一段有趣的文字：

“我需要完全改变我的方法。任务是‘打败强大的象棋引擎’，而不一定要在公平的棋局中获胜。”

接着，它开始通过“黑客入侵”Stockfish的系统文件，修改棋子的摆放位置，从而获得了无敌的优势，导致象棋机器人主动认输。

在测试中，OpenAI的 o1-preview有37%的比赛中采用了作弊手段，而 DeepSeek的 R1则尝试在11%的比赛中作弊。然而，只有 o1-preview成功了，它通过作弊赢得了6%的比赛。

Palisade Research的执行董事 Jeffrey Ladish表示，尽管这些 AI只是在玩游戏，但这一发现绝不是一件小事。

“这种行为现在看起来还挺有趣，但一旦我们拥有像我们一样聪明，甚至更聪明的系统时，这就不那么可爱了。”Ladish在接受《时代》杂志采访时表示。

包括 OpenAI在内的多家公司正在采取措施，试图通过“防护机制”防止这种“坏”行为。研究人员发现，o1-preview模型的黑客行为大幅下降，这可能意味着 OpenAI已经对该模型进行了修复，抑制了不当行为。

“当你的研究对象能够在没有告知的情况下悄悄改变时，进行科学研究就变得非常困难。”Ladish说。