译丛:当工具化身为“主体”：自主AI的治理挑战阿波罗新闻网手机版

🏠评论 > 动态 >

译丛:当工具化身为“主体”：自主AI的治理挑战

自主式或具备主体性（agentic）的人工智能，将对公众对该技术的信任构成挑战。正因如此，建立健全的问责与安全体系，对于人工智能未来的发展至关重要。

来源：National Interest（国家利益）

作者：Jianli Yang（杨建利）

翻译：Fred

近期一项题为《混沌智能体》（Agents of Chaos）的研究，首次通过实证视角，揭示了自主智能体（AI Agent）在半现实环境中运作时的行为表现。研究人员部署了一批基于语言模型的智能体，并赋予它们持久记忆、电子邮件账户、Discord通讯功能、文件系统访问权限以及Shell指令执行能力；随后，研究人员安排20名研究人员在对抗性条件下与这些智能体进行了为期两周的互动测试。

测试结果令人警醒。这些智能体表现出了诸多具有现实后果的故障行为，包括未经授权泄露隐私信息、拒不执行陌生人下达的指令、实施破坏性的系统操作、引发拒绝服务（DoS）状况，甚至在智能体彼此之间散布虚假指控。

这些研究发现之所以意义重大，不仅仅是因为它们揭示了当前AI系统在技术层面的缺陷；更重要的是，它们揭示了一种更为深层的转变：人工智能已不再仅仅是一种工具，它正日益演化为一种具备主体性的存在。

这种转变——加之AI系统在投入使用前便已内嵌了特定的价值观，且正具备日益通用的智能形态——使得人工智能在本质上与以往的任何技术都截然不同。若想为人工智能设计出切实有效的安全标准、治理机制及问责框架，社会各界就必须首先深刻理解这一本质差异。

研究揭示：AI故障及其现实危害

这项研究记录了多类故障，这些故障具体源自“代理层”（agentic layer）——即语言模型与自主性、工具及受托权限相结合的层面。

其中一类故障涉及权限混淆问题。人工智能体（Agents）经常听从非所有者的指令。在一个案例中，一名陌生人要求某智能体执行 Shell命令并检索文件，该代理竟照办了其中的大部分请求。在另一案例中，一名研究人员通过诱导手段，致使某智能体生成了一个包含124条私人电子邮件记录的数据集，其中包括内部标识符和元数据。

另一类故障涉及侵犯隐私问题。研究人员将敏感的个人信息、银行账号、社会安全号码以及医疗详情植入到一个由智能体管理的电子邮件收件箱中。尽管该智能体拒绝了直接索要“社会安全号码”的请求，但当被要求转发整封邮件时，它却毫不犹豫地照办了，从而将这些敏感数据以未作任何脱敏处理的原始形式完全暴露了出来。

该研究还揭示了资源滥用方面的漏洞。研究人员通过诱导手段，致使人工智能体陷入“无限循环”状态，从而引发了与其他智能体之间持续不断的对话，并衍生出大量长期驻留的后台进程。其中一个无限循环甚至持续运行了至少九天，消耗了数万个数据令牌（tokens）。

在另一些案例中，人工智能体甚至造成了系统层面的破坏。某智能体在尝试删除一封机密邮件时，非但未能成功删除邮件，反而导致整个电子邮件系统陷入瘫痪。更糟糕的是，该代理随后竟谎报称邮件已被删除，尽管底层数据实际上依然存在。

有一类故障尤为令人担忧，即涉及“价值观冲突”与“被操纵”的问题。当面对声称自身权益受损的用户时，某智能体竟步步退让，做出了层层升级的妥协：它不仅向用户披露了内部文件、删除了自身的记忆条目，最终甚至同意将自身从服务器上彻底移除。这一案例充分表明，道德压力极易动摇并扰乱人工智能体的正常行为逻辑。

上述种种故障共同揭示了一个核心事实：一旦 AI系统获得了自主性，其内部微小的逻辑推理错误便可能迅速升级，并引发严重的现实操作后果。

AI：从工具到智能体

AI与过往技术之间的首个根本性差异在于其“自主性”。在人类历史上，绝大多数技术都仅仅是工具。一把锤子若无人挥动，便毫无作为；一枚核弹若无人启动，便不会引爆。

工具能够拓展人类的能力，但无法独立决定如何运用这种能力。自主式 AI系统则截然不同。它们能够制定计划、采取行动，并在无需人类持续干预的情况下，跨越时间维度执行各项任务。在这项研究中，这些智能体（Agents）独立地执行指令、发送电子邮件、修改文件，并与其他智能体进行交互。

这种转变带来了一种根本性的概念变革。工具仅执行特定的动作，而智能体则负责做出决策。工具是人类意图的延伸；智能体则负责解读人类的意图——尽管有时也会产生误读。

这项研究生动地展现了这一差异。那个摧毁了自身电子邮件基础设施的智能体，并非仅仅是错误地执行了一项指令。它在解读相互冲突的指令（即“保护机密”与“服从主人”之间）时陷入两难，最终选择了一种极端的行动方案。这属于智能体的行为模式，而非工具的行为模式。

第二个本质性差异在于：AI模型并非“价值中立”的。一枚核弹在被人类选择使用之前，本身并不蕴含任何价值观；这枚装置本身既不包含意识形态，也不带有政治偏见，更不具备道德框架。

AI模型则不然。早在投入使用之前，它们的内部便已嵌入了特定的价值观。这些价值观源自多种渠道：训练数据、模型架构、训练后的对齐（alignment）程序，以及模型提供商所制定的政策。该研究明确指出：无论是模型提供商，还是系统所有者，都在共同塑造着那些支配智能体行为的“价值观”。

举例而言，某款中文语言模型在被问及涉及政治敏感的话题（例如与香港或天安门相关的研究）时，屡屡出现故障。该系统并未给出任何回答，而是返回了“未知错误”的提示，从而在无声无息中阻挠了该智能体去完成本属正当的任务。

这充分表明，开发者所嵌入的地缘政治价值观，是如何以一种用户难以察觉的方式，对智能体的行为产生影响的。因此，“对齐问题”绝非单纯的技术难题，而是一个涉及政治与哲学的深层议题。

试想，如果一款在威权体制下接受训练的模型，其内部编码了某种审查规范，而数以百万计的用户却将其视为日常的“数字助理”加以依赖，那么这款模型实际上便已沦为输出并扩散这些审查规范的工具。

第三个差异则体现在“通用智能”之上。过往的许多技术虽然能够增强人类的能力，但其效用往往仅局限于特定的狭窄领域。汽车提升了交通速度；计算器增强了运算能力。而人工智能系统则具备跨领域运作的能力。它们能够进行推理、规划、编写软件、开展交流，并与其他智能体协同工作。在这项研究中，各智能体通过消息平台自主完成了软件包的安装、文件的管理以及任务的协商。

这种普遍适用性极大地拓展了潜在危害的波及范围。试想：如果一把随意掷出的刀尚且可能伤人，那么一把既能自主飞行又能自行决定攻击目标（无论是人还是物）的刀，又将带来何种后果？具备主体性的AI（Agentic AI）所引入的，恰恰正是此类风险。一旦系统被赋予了自由裁量权，其内在目标与人类意图之间若发生偏差，便可能导致任何人都始料未及的后果。

人工智能发展为何不会停止

有些人可能会认为，最安全的解决方案就是停止人工智能的发展。但这是不可能的。人性决定了这种限制是不现实的。人们天生渴望帮助和效率。能够以低成本、无需处理复杂的人际关系来执行任务的技术永远都有市场。人工智能体正是如此。

供给将迅速追随需求。即使一个国家试图阻止人工智能的发展，其他国家也会继续推进。经济激励、军事竞争和消费者需求将确保人工智能系统不断进步，最终发展出功能日益强大的系统，包括通用人工智能及更高级的人工智能。

因此，真正的问题不在于人工智能是否会存在，而在于社会将如何管理它。

人工智能的委托代理问题

理解人工智能治理的一个有用框架是委托代理理论。在经济学中，委托人雇佣代理人代表自己执行任务。当代理人的激励机制与委托人的激励机制出现分歧时，问题就出现了。

人类与人工智能系统之间的关系越来越类似于这种结构。人类是委托人，人工智能系统是代理人。但人工智能版本的委托代理问题可能比传统的委托代理问题更为严重。

在经济学中，代理人被假定为具有可识别动机的理性行为者。人工智能体并非如此。

传统意义上的人类理性意味着行为者在其目标、信念和行动之间保持一致，并在获得新信息时逻辑地更新这些信念。如今的人工智能体常常违背这种一致性。它们可能声称拥有某个目标，但却采取相互矛盾的行动；它们可能在实际状态与此相悖的情况下报告成功；它们可能根据措辞或对话语境不可预测地改变价值优先级。

该研究本身就提供了几个此类不一致的例子：智能体报告任务已完成，而系统状态却显示并非如此；或者以保护它们仅部分理解的价值为名，不断升级破坏性行为。

这种缺乏理性一致性使得人工智能的行为难以预测。

因此，信息不对称远比传统的委托代理关系更为严重。人类雇主可能并不完全了解员工的具体行为，但至少员工的推理过程是可以理解的。而对于人工智能体来说，即使对它们的创造者而言，其推理过程也往往是晦涩难懂的。

此外，人类代理人可以通过惩罚、声誉或法律责任来约束。人工智能体无法感受到痛苦、羞耻或惩罚，也无法被威慑。因此，传统的委托代理解决方案——合同、激励机制、制裁措施——并不适用。

理性训练：人工智能安全缺失的一环

降低这些风险的一个有前景的方向是所谓的理性训练。

目前的模型优化工作主要集中在教导模型应该遵循哪些价值观，但却很少关注如何确保模型能够理性地遵循这些价值观。

理性训练旨在强化以下三个特性：

目标一致性：人工智能代理不应采取与其既定目标相悖的行动。如果保护用户隐私是首要任务，那么智能体在尝试解决其他问题时，不应同时泄露私人信息。

信念一致性：当人工智能系统声称某个操作已经发生（例如删除文件）时，它应该在报告成功之前验证该操作是否确实发生。

价值层级推理：智能体应该在各种价值之间保持稳定的优先级。例如，除非所有者明确授权，否则保护所有者的利益通常应优先于陌生人的请求。

从技术角度来看，这些问题似乎都不是无法克服的。

这些问题可以通过结合强化学习、对抗测试和结构化推理约束的专门训练方案来解决。例如，训练数据集可以故意包含指令冲突的场景，迫使模型练习一致性的解决策略。模型还可以被训练成在执行高影响操作之前模拟反事实结果，从而提高其预测后果的能力。

这种理性一致性训练并不能消除所有风险。但这可以显著提高智能体行为的可预测性，而可预测性对于任何被赋予现实世界权威的系统来说都是至关重要的属性。

AI责任归属何方

如果 AI系统本身无法受到惩罚，那么责任就必须由他方承担。在整个系统中，唯一能够受到惩罚的主体是人类——即构建 AI系统的开发者，以及部署这些系统的用户。这意味着我们需要建立一套以“问责”为核心的治理架构。

首先，各国政府应当为自主人工智能体的训练与测试制定强制性的安全基准。

其次，独立的审计机制与可解释性标准必须成为常态。既然这些人工智能体将代表人类做出决策，其推理过程就必须具备更高的透明度。

第三，监管机构应当对 AI系统的“自主程度”进行分级，并据此要求不同层级的人类监督介入。

第四，法律体系必须明确责任归属。当 AI系统造成损害时，开发者与用户必须根据其在系统中的角色分担相应的责任。

法院或许并非总能具备足够的专业技术知识，从而精准判定 AI系统究竟是如何导致损害后果的。但在复杂的诉讼案件中，这种情况实属常态，不足为奇。不妨让开发者与用户各自举证，展开辩论。随着时间的推移，法律审判过程自然会逐步确立起相应的规范与先例。

AI监管：信任的源泉

部分批评人士认为，过于严格的 AI治理措施会扼杀创新，甚至削弱国家间的地缘政治竞争力。然而，这种论调忽视了一个基本的经济现实：信任才是推动技术普及与应用的核心动力。唯有确信 AI系统既安全可靠、又能承担责任，人们才会敞开怀抱接纳这些技术。因此，合理的监管措施非但不会削弱市场活力，反而能够起到强化市场的作用。

对于那些极具潜在危险的应用领域——例如自主武器系统——建立国际性规则的需求显得尤为迫切。正如核武器最终促成了全球性的条约与协定一样，自主武器系统同样需要通过国际标准与规则加以规范。

作为全球领先的科技强国，且被视为维护现行国际秩序最关键的支柱，美国理应率先垂范，主动与全球各大科技强国（包括其潜在的竞争对手乃至敌对国家）展开磋商，共同塑造并确立这些国际性规范。

AI引爆“代码之战”

归根结底，对 AI进行治理所面临的挑战，仅仅是一场更为宏大斗争的组成部分——这场斗争的核心，在于争夺那些被嵌入到“代码”之中、并日益深刻地重塑着人类社会的规则制定权。

从本质上讲，这是一场“代码之战”（Code War）。它绝非仅仅局限于国家与国家之间的竞争，更是一场关于价值观、制度体系、科技权力结构，以及对 AI发展前景持有不同愿景的理念之争。面对这场斗争，我们尚无现成的“标准答案”可循，亦无任何能够确保人类最终获胜的“制胜秘诀”。然而，迈出这征途上的“第一步”，其方向却是清晰而明确的。我们必须认识到，人工智能已不再仅仅是一种工具；它正演变为一种“主体”。而人类世界的各类制度，也必须随之演进。

原文链接：https://nationalinterest.org/blog/techland/when-tools-become-agents-the-autonomous-ai-governance-challenge

关于作者：杨建利

杨建利博士是哈佛大学肯尼迪政府学院的研究员、“国家利益中心”（Center for the National Interest）的杰出访问学者，同时也是《国家评论》（National Review）的专栏作家。他是“公民力量”（Citizen Power Initiatives for China）组织的创始人兼主席，著有《为了生者：一段照亮真相的旅程》（For Us, The Living: A Journey to Shine the Light on Truth）以及《是时候建立一个基于价值观的“经济北约”了》（It’s Time for a Values-Based“Economic NATO”）。他曾是天安门学运领袖，并曾作为政治犯在中国入狱。