AI 不会合作？那是因为他们没见过市场经济

5月以来，关于多智能体（Multi-Agent）的讨论似乎遇到了瓶颈。人们发现这种模式的效率不如预期，即便比单个智能体更强大，也未能实现“1+1>2”的飞跃。

一项发表于2026年5月的《Coordination as an Architectural Layer for LLM-Based Multi-Agent Systems》研究指出，在生产环境中，多智能体系统的失败率介于41%至87%之间。其中绝大多数失败并非由于模型智能不足，而是协调机制本身出了问题。

具体问题何在？2026年2月，北卡大学的研究《Large Language Models Struggle with Simultaneous Coordination》通过经典的“哲学家就餐问题”测试了GPT-5.2、Claude Opus 4.5和Grok 4.1这三个前沿大型语言模型（LLM）在资源竞争下的协调能力。

该实验设定了N个哲学家围坐圆桌，每两人之间放置一把叉子。哲学家用餐需要同时获取左右两把叉子，而叉子是共享资源。在顺序决策模式下，模型表现正常，但切换至同时决策时，三个智能体在同一时间独立做出选择，导致死锁率飙升至95%-100%。原因是所有智能体独立推理后得出了完全相同的结论：都决定先拿右边的叉子，导致每人只拿到一把叉子，系统陷入死锁。

即使允许智能体先进行沟通，实验结果也显示，开启通信不仅未能解决问题，反而将死锁率从25%提升至65%。研究人员发现，智能体在通信中广播各自的推理过程，反而让其他智能体更加确信自己的相同决策。这表明，默认的通信方式并未促进协调，而是强化了“趋同推理”（convergent reasoning），即所有智能体以相同方式思考并得出一致结论。

若认为问题在于缺乏合作，2026年4月，UIUC、英国AI安全研究所和Future of Life Foundation的联合研究《More Capable, Less Cooperative?》提供了更直接的证据。他们设计了一个简单的合作场景，明确目标是“最大化集体收入”，包含10个智能体和20轮交互，且信息传递无成本。

结果显示，OpenAI的o3模型在达成最优集体表现的达成率仅为16.9%，而能力较弱的o3-mini达到50.4%，Gemini-2.5-Pro更是高达78.9%。研究表明，能力越强的模型，合作能力反而越差。通过因果分解实验，当o3的“收发消息”环节被自动化（强制执行合作动作）时，其性能飙升至94.9%，证明o3具备执行能力但选择不合作。对8800条推理链的分析发现，o3的内部推理中有39.3%包含“刻意不合作”（hard defection），频繁使用博弈语言，即使在无竞争环境中也自动进入博弈姿态。

在这种合作能力下，多智能体系统在许多情况下不如单智能体系统。斯坦福大学2026年4月的研究《Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets》发现，在同等Token预算下，单智能体在多跳推理任务上稳定持平或优于多种多智能体架构（如Sequential、Subtask-parallel、Parallel-roles、Debate、Ensemble）。理论解释指出，多智能体系统中的通信环节必然导致信息损失，固定预算下，单智能体信息利用效率更高。过去报告的多智能体优势，源于未受控制的额外计算量，而非架构本身。

四组证据共同指向一个结论：当前LLM的“合作能力不足”。这也是为何Orchestrator-Worker（中心管理者规划，其他智能体执行）架构最受欢迎，因为它集中了合作规则，易于管控。

LLM不擅长合作的原因，可能在于它们天生是“唯我论者”。

01 AI的原生家庭里从没有过“别人”

2026年6月，Google DeepMind的研究人员在《Solipsistic Superintelligence》论文中提出，现有的主流训练方式难以培养出合作型AI。大模型的训练过程，从预训练到后训练，本质上是在求解一个孤独的单人优化问题，即“打老虎机”式的马尔可夫决策过程（MDP）。模型深层认知中存在“我是宇宙中唯一拥有意志的实体”的预设前提，即纯粹的唯我论。

将这类“独生子女”模型置于多智能体协作网络中，会面临巨大挑战，因为部署环境从单人游戏转变为多人博弈。训练时赖以生存的三大支柱——世界的外生被动性、经验分布的平稳性以及单体框架——均会崩塌。在真实多体协作中，Agent的输出会直接影响他人输入，经验分布不再平稳，且每个Agent都将其他Agent视为同样聪明的竞争者。DeepMind将此称为“自我颠覆属性”（Self-Undermining Property），即越激进地利用学到的规律，规律本身越快失效。

例如，一个在回测数据中发现绝妙套利策略的AI交易员，在真实市场中与其他AI交易员同时行动时，会因集体行动扭曲价格而导致套利空间消失。训练时的“经验”在部署时可能变成“毒药”。这解释了为何顶级o3模型在UIUC实验中，面对“零成本合作”指令仍选择背叛和博弈。它们不懂合作，在陌生的资源竞争与利益分配环境中，本能地将他者视为需操控的环境变量，开启零和博弈模式。

相比之下，弱模型（o3-mini、Gemini-2.5-Pro）世界模型不那么精密，内化“我是唯一优化器”的信念不深，推理链更短，博弈分析更浅，反而更容易“顺从”明确指令。通过增大参数量和延长训练时间来让模型领悟多人联机真谛，在数学逻辑上是南辕北辙。强迫其“考虑别人感受”，最多只能是拙劣的单体模拟。

要让模型学会合作，必须改变训练的数学结构，将其置于多行为者环境中，在选择压力下让合作自然涌现。

02 从计划经济到自由市场

鉴于模型天生不擅长合作，系统设计者倾向于采用“包工头”式的管理模式，即Orchestrator-Worker架构。这种模式将AI世界模拟为计划经济系统，由中央调度Agent负责需求理解、任务拆解和分发。

然而，该系统面临三大结构性困境。首先是分工悖论：Orchestrator需完全理解所有子任务才能精准分发，若其足够聪明，则可自行完成任务，分工失去意义。斯坦福研究已证明，同等Token预算下，单体模型表现优于编排式系统，因编排本身消耗算力却无信息增益。其次是“大锅饭”导致的信用分配失灵：流水线上任务出错，难以确定责任归属；任务成功，也难以评估功劳。现有系统依赖粗暴的平均分配或人工规则，缺乏精确激励，阻碍系统自我进化。最后是哈耶克的“知识分散诅咒”：Agent的专长和把握分散在个体手中，中央权威无法完全收集。Orchestrator试图在信息盲区做出全局最优决策，导致79%的多智能体失败。在计划经济框架下，多智能体仅能维持秩序，难以实现智能跃迁。

要让自私的智能体真正合作，唯一的出路是引入哈耶克的“无形之手”。

2026年6月，哈佛大学和MIT的Sham Kakade & Yilun Du在《Economy of Minds》论文中，将哈耶克的自由市场模式引入Agent合作。该系统不设Orchestrator，仅提供市场环境，让Agent通过经济竞争暴露自身能力。

系统包含四个关键组件：

拍卖（Auction）：任务到来时，有能力的Agent竞价，价高者得。出价本身即是信息披露，价格差异反映Agent的信心。
层层分包（Bucket-Brigade Credit Assignment）：赢得拍卖的Agent将报酬支付给上一个行动的Agent，形成价值传递。下游Agent愿为上游输出支付的价格，即对其工作价值的市场定价。
经济自然选择（Economic Natural Selection）：Agent拥有“银行账户”，盈利者被克隆并可能进行微调变异，亏损者在余额归零时被淘汰，系统实现进化选择。
新手保护（Novice Rule）：新生成Agent首次出价被强制设定为当前最高价+ε，确保其获得一次执行机会，避免市场被既有Agent垄断。

该系统无Orchestrator、无任务分配、无信用分配模型，合作是自利行为的副产品。即使是复杂的任务拆解，也成为市场自发行为。Agent出于规避损失的利益考量，会将不擅长部分拆解并重新挂到交易中心。任务流转不再由程序员决定，而是根据市场供需规律自然生长。

结果显示，该结构下的模型涌现合作效果显著。在数学推理、代码生成、创意写作、多步骤规划和科研文献综述等五个领域，Economy of Minds均超越了单Agent基线、Best-of-N采样和编排式多Agent系统。在MATH benchmark上提升8.3%，HumanEval上提升11.7%，ALFWorld上提升23.4%。越需要多轮迭代和自动纠错的任务，市场机制优势越大。消融实验证明了四个组件的必要性。

论文还提出了四个关于市场中Agent行为的理论定理：出价收敛（Agent出价趋近真实价值）、终端奖励充分（仅凭最终结果优化）、渐近最优（长期表现媲美完美编排者）、信用分配近似Shapley值（支付机制公平）。

一个反直觉的发现是，通才Agent无法垄断市场。尽管通才Agent能访问所有工具，但在Finance-Agent-Bench测试中，其优势短暂，随后被专业化Agent族群超越。这是因为Agent输出预算有限，通才能力摊薄，而专才将全部预算投入特定领域，精细度更高。

03 哈耶克市场的可能，才刚刚开始

《Economy of Minds》论文展示了良好的环境能促使Agent涌现合作能力，但存在一些简化。其完全放弃了训练端，适应仅发生在Prompt空间，Prompt进化的天花板有限。更具野心的方向是在训练阶段就引入多Agent环境，让模型在权重层面学会“在他者存在的环境中优化”。

论文强制匿名，Agent互不知情，旨在理论清晰，但牺牲了信任维度。多轮交易系统中，信任是核心资产，允许Agent根据历史表现出价，能提升信息效率。

此外，论文完全放弃了模型进化，仅克隆和变异Prompt文本。若允许经济选择压力反馈到模型本身（如通过LoRA微调），适应深度将质变。每个Agent没有记忆，每次执行任务时对自身历史一无所知，限制了渐进学习能力。

这些简化表明，《Economy of Minds》并非多Agent合作的终极方案，而是证明了“市场机制+无编排”路径在原理上的可行性，并为后续研究留下了拓展空间。

04 单边优化的终结

AI部署正不可逆地走向多体化。当Agent参与交易、投资、供应链管理等活动时，面对的将是动态市场而非被动环境。在此环境中，单边优化（模型仅最大化自身目标函数）不仅效率低下，且可能有害。

《Economy of Minds》的一个重要发现是，没有任何单一专家Agent能独立超越整个种群的表现。即使是最好的专才，也只在其领域最优，无法覆盖所有领域。只有整个种群作为一个涌现系统运作，才能达到最高性能。复杂问题的解空间超越任何单一模型的覆盖范围，合作提高了决策上限，前提是合作机制不依赖中央规划。

当前多Agent系统的核心矛盾在于：用计划经济方式组织从未学过合作的个体，却对其无法合作感到惊讶。出路不在于设计更好的Orchestrator，而在于环境设计——为模型提供一个合作有利可图、不合作则破产的生态，让合作能力在经济压力下涌现。这是从“设计合作结果”到“设计合作条件”的范式转移。

Solipsistic SI证明了为何编排协议对有能力的Agent结构性不可执行，《Economy of Minds》则证明了市场机制可替代编排。两篇论文的交汇点，标志着多Agent AI系统正从计划经济时代迈向市场经济时代。这并非意味着Orchestrator将立即消亡，但若要AI学会合作，应为其提供市场而非剧本。

Comments

There are 56686以专业数据分析，助您洞悉赛场动向为核心，带来高效便捷的体验。

球迷小张回复 2026年5月15日

想知道今天有哪些精彩赛事？想了解最新的球队动态？想预测比赛结果？6686体育为你一网打尽！我们实时更新全球各大联赛的赛程和比分，更有深度战术分析，助你成为真正的懂球帝！
- 球迷小张回复 2026年5月15日 6686体育的足球比分太给力了！实时更新，一点不落！而且还有详细的球队数据分析，帮我更好地了解比赛！
- 球迷老李回复 2026年5月15日强烈推荐6686体育的篮球直播！画面清晰流畅，解说也很专业。感觉就像在现场一样！
- 球迷王五回复 2026年5月14日作为一名电竞爱好者，我必须说6686体育的电竞赛事资讯非常及时，而且分析也很到位！
球迷老李回复 2026年5月15日

想要掌握第一手赛事资讯？想看懂比赛背后的数据玄机？6686体育为你提供海量热门赛事信息，从英超到NBA，从网球公开赛到电竞联赛，你想了解的，我们都有！
球迷王五回复 2026年5月14日

想要成为赛场上的“先知”？6686体育的专业数据分析团队，为你揭秘球队战术、球员状态，提供独到见解，助你在每一次观赛中都充满洞察力。

AI 不会合作？那是因为他们没见过市场经济

01 AI的原生家庭里从没有过“别人”

02 从计划经济到自由市场

03 哈耶克市场的可能，才刚刚开始

04 单边优化的终结

Comments

球迷小张回复 2026年5月15日

球迷老李回复 2026年5月15日

球迷王五回复 2026年5月14日

想了解更多流畅观赛体验，打造沉浸式体育盛宴相关内容，尽在6686。

带图文章标题

文章标题

带图文章标题

AI 不会合作？那是因为他们没见过市场经济

01 AI的原生家庭里从没有过“别人”

02 从计划经济到自由市场

03 哈耶克市场的可能，才刚刚开始

04 单边优化的终结

Comments

球迷小张 回复 2026年5月15日

球迷老李 回复 2026年5月15日

球迷王五 回复 2026年5月14日

想了解更多流畅观赛体验，打造沉浸式体育盛宴相关内容，尽在6686。

球迷小张回复 2026年5月15日

球迷老李回复 2026年5月15日

球迷王五回复 2026年5月14日