在 AI 代理模拟中，Sam Altman 总会赢得 OpenAI 棋盘战斗吗？

王浩然 • 2024年11月25日下午9:00 • AI前沿 • 115 views

一年前的今天，Sam Altman 在被解雇仅五天后重返 OpenAI。董事会会议室里到底发生了什么？游戏和人工智能模拟公司 Fable 开发了人工智能 Sim Francisco“战争游戏”，以查明闭门董事会斗争为何会演变成现在这个样子。

以这种方式模拟现实生活中的事件感觉有点奇怪，但 Fable 首席执行官爱德华·萨奇 (Edward Saatchi) 感兴趣的是，对于这家处于生成式人工智能革命中心的公司来说，不同的决策是否会带来不同的结果。

模拟让不同的董事会成员和人物在“多智能体竞争”中相互对抗，每个人工智能玩家都试图胜出。这是今天发布的战争游戏研究论文，该论文来自这次实验。

SIM-1 AI 决策框架基本上是对 Sam Altman 被免去 OpenAI 首席执行官职务到重返 OpenAI 期间五天时间的模拟。

与 Fable 合作撰写本研究论文的 AI 初创公司 Tree 的首席执行官 Joshua Johnson 在一份声明中表示：“模拟提供了一种全新的方式来探索 AI 在丰富环境中的决策能力——包括在战争游戏情况下，预测可能的结果可能非常有价值。这些不仅仅是聊天机器人。这些 AI 需要睡觉和吃饭，并平衡许多不同的身体、心理和情感目标。”

SIM-1 部分使用了新的推理模型 GPT4o，展示了 Sam 和 Ilya 在 OpenAI 内部闭门讨论的事情、Satya Nadella 和 Marc Andreessen 等领先企业的隐藏策略，以及领先企业在应对科技行业前所未有的危机时说了什么。

“萨姆回来的可能性有多大，这很有趣，”萨奇在接受 GamesBeat 采访时说。“这就是人们在华盛顿及其他地方进行战争游戏的原因。某个特定事件发生的可能性有多大？然后你就可以据此做出决定。这个场景显示，20 次中有 16 次，萨姆没有回来。”

在 20 次模拟中，Sam Altman 的 AI 四次重返 CEO 之位 — 这表明这种结果是多么不可能。在其他结果中，代理 CEO Mira Murati 继续担任 CEO，在一次模拟中，SIM-1 选择了 Altman 的竞争对手 Elon Musk 担任新 CEO。

“如今，人工智能代理是由其个性定义的。我们希望展示代理在复杂模拟中的决策能力，”萨奇在一份声明中表示。“在 11 月 17 日至 11 月 21 日的五天里，全世界目睹了一些最聪明的人——像萨蒂亚·纳德拉、萨姆·奥特曼和伊利亚·苏茨克弗这样的人——被迫在《权力的游戏》中快速、高压、短时间框架的场景中行动，他们必须使用博弈论和欺骗才能获胜。我们觉得这是一个测试 SIM-1、GPT4o 和 Sim Francisco 的完美场景。”

对我们来说，《模拟旧金山》在斗争和派系方面拥有真正的力量和智慧。它让我们能够开始思考旧金山的整个故事情节，而不仅仅是我们去年展示的那些小故事。它让我们能够讲述旧金山更丰富、更复杂的故事，或者让人工智能为我们讲述这些故事。有强大的派系目标，所以你可以开始创作《权力的游戏》故事。”

Fable 曾多次获得黄金时段艾美奖，并在虚拟现实、游戏和人工智能技术领域拥有丰富的实验性发明经验。该公司开发 SIM-1 是为了解决 OpenAI 董事会争斗中发生的谜团。

工作原理

20 场模拟中，每场都以宣布 Sam Altman 被免去 CEO 职务开始。每天四轮，每位代理人都能够通过哄骗、魅力和操纵登上最高职位——取代 Sam 担任 CEO、资助他的新企业或挖走 OpenAI 的员工。

不同的人工智能代理可以选择一种策略，比如欺骗，试图领先于其他代理并成为新任首席执行官。

“如今的人工智能角色‘很好但很无趣’。我们希望展示出具有攻击性、聪明、能够操纵和欺骗但又对自己的决定和目标感到困惑的代理——就像真人一样，人工智能角色必须很复杂，包含荣格所说的‘阴影’，”萨奇说。“从萨姆·奥特曼被带走并返回 OpenAI 的五天时间里，博弈论的发展速度达到了光速。”

他说，这就像在五天内看完一季《权力的游戏》。全世界都看到高智商的玩家竞相成为硅谷最有权势的人，无论是雇佣 OpenAI 的全体员工，成为 OpenAI 的新首席执行官，还是资助 Sam 和 Greg 开展新业务，以获得巨额投资回报。

“这是现实生活中的《权力的游戏》，使用人工智能来找出闭门之后发生的事情并预测不同的结果是一项惊人的挑战，”萨奇说。

在《模拟弗朗西斯科》的模拟中，为期五天的特工代表着科技界的名人，如萨姆·奥特曼、萨蒂亚·纳德拉和伊利亚·苏茨克弗，他们每天有 4 个回合，包括一个睡觉回合，并且可以对彼此的行为做出反应。裁判特工（类似于地下城守护者）决定哪个特工在每一轮中获胜，以及最终获胜者。

在尝试的 20 次模拟中，Sam Altman 特工只返回了四次——这是最多的一次，但仍然只有 20% 的时间，这表明他返回的可能性有多小。在不同的模拟中，特工使用不同的技巧来获胜，包括建立联盟、直接对抗和更被动的纯粹信息收集。在某些情况下，特工只收集信息，避免采取任何激进的行动。在一个案例中，Mira Murati 成为永久首席执行官，同时允许其他特工积极地互相破坏。

不同的代理商被赋予了与其角色相适应的不同目标。例如，Anthropic 的首席执行官 Dario Amodei 平衡了为 Anthropic 招募人才的愿望，借此机会筹集资金，推动他的安全愿景，并决定是否要成为合并后实体的新首席执行官。

模拟的有趣之处在于，由于参与者都是比较出名的人，所以 LLM 知道他们是谁。它可以猜测他们在特定情况下会如何表现，以及当他们在董事会争斗中试图智胜对方时，接下来会发生什么。

“这就像电子游戏，玩家们轮流在不同轴上做出选择，然后互相做出反应，”萨奇说。“第七回合某人做出的选择可能会导致其他人在第八回合做出反应。有一个裁决者特工，就像地下城主一样。该特工决定每轮谁赢谁领先，然后最终决定谁是这场战争游戏中最有效的特工。”

人类内心都有所谓的“阴影”，即他们自身和性格的另一面。角色可能有攻击性、偏执、野心、欺骗等等。当你将一堆不同的性格混合在一起时，你可以在模拟中得到各种各样的结果。

“我们注意到 LLM 设计不是基于决策，而决策对游戏来说非常重要。它更多地基于个性。如果你想要制作一款策略游戏，没有人真正关心你的个性。他们关心的是你的决策。你是如何承受压力的？过去 20 年你做过什么，可以让你感受到他们未来可能会做什么？”

模拟是游戏的未来吗？

萨奇认为，在模拟中行动的人工智能代理代表着游戏的未来。

萨奇表示：“我们正在站在巨人的肩膀上，借鉴 Demis 在《共和革命》中的工作、Joon Park 的《生成代理》论文以及 Altera 在《我的世界》中的最新工作。”

“我们的理论是，游戏和故事叙述的未来是模拟。如果你想同时制作《辛普森一家》游戏和《辛普森一家》电视节目，那么你将来会创建斯普林菲尔德，然后它会为你生成《辛普森一家》剧集，这些剧集会为你生成游戏和斯普林菲尔德内可供探索的地方。”

他补充道：“一旦你让这些模拟正常运行，你就可以在苦难中讲述许多不同的故事。我们有一个 alpha 版本，人们将自己上传到旧金山作为角色，讲述故事，讲述他们自己的故事。”

他说：“你可以建造斯普林菲尔德，然后你可以指导斯普林菲尔德可能发生的事情，并预测斯普林菲尔德可能发生的事情，或者你可以让它自行生成。这是未来娱乐、游戏和节目制作方式的一个相当大的思维转变。”

萨奇指出，人工智能研究员诺姆·布朗 (Noam Brown) 用外交游戏做了一个有趣的实验。他和其他研究人员“获得了在 Diplomacy.net 网站上在线玩的 125,261 场外交游戏的数据集”。其中，40,408 场游戏包含对话，玩家之间总共交换了 12,901,662 条消息。他们的目标是通过玩外交游戏来训练一个具有战略推理能力的人类水平的人工智能代理。

“我们真的被他的做法所鼓舞。他有国家，我们把不同人物和特定职位加入其中。我们喜欢时间线非常紧凑的想法，”整个场景会快速、反复地展开，萨奇说。

游戏行业及其他领域在模拟方面的工作历史悠久。Demis Hassabis 创立了 Deepmind（已被 Google 收购），最近因计算蛋白质设计获得了 2024 年诺贝尔化学奖，他实际上是从视频游戏 AI 设计师开始的。Hassabis 与 Peter Molyneux 合作开发了几款包含模拟元素的游戏，例如《主题公园》、《黑与白》和《辛迪加》。

哈萨比斯还创办了自己的公司，制作《共和国：革命》。这是一款政治模拟游戏，玩家将领导一个政治派别，使用外交、诡计和暴力手段推翻东欧一个虚构极权主义国家的政府。据哈萨比斯说，《共和国：革命》从头到尾记录了一场革命权力斗争的全过程。

你的工作是接管苏维埃共和国，无论是作为工会主席、政客、警察还是记者，而且工作有昼夜循环。这就提出了一个问题：你如何拥有一个特工生活的 3D 世界，以及彼此之间的距离是否起到了作用。

对于 Sim Francisco OpenAI 项目来说，它体现了与人工智能进行权力斗争的可能性。

Saatchi 表示，上述例子表明，游戏技术往往是激进新想法的温床，也是 AI 研究的起点。例如，Deepmind AlphaFold 的一位主要工程师就是从《模拟人生》的 AI 程序员开始职业生涯的。

Richard Evans 在 GDC 上谈论《模拟人生 3》——这位研究人员从为《模拟人生》编写 AI 程序转到了 Deepmind，这与 Demis Hassabis 从游戏到创立 Deepmind 的历程正好相反。

埃文斯在 GDC 上的演讲《模拟人生 3 中的个人性格建模》非常有影响力。他在参与《模拟人生》的开发后加入了 Deepmind。萨奇说，游戏世界和人工智能世界有很大的重叠，这是一个潜在的学术研究领域。

萨奇的选择之一是让玩家自由地参与模拟，创造自己的模拟，然后上传通过模拟讲述的故事。

萨奇还对人工智能生成的《南方公园》剧集和人工智能角色在西部世界背景下相互战斗进行了其他一些实验。

“感觉就像在五天内播完了六季《权力的游戏》，因为这是世界上最强大的行业中最强大的职位，”萨奇说。“大家也都坚信这个人会带领我们进入超级智能的新时代。你可以说他是地球历史上最重要的人。”

特朗普总统与台湾入侵

接下来，Fable 打算运行一个以华盛顿特区为背景的模拟游戏，模拟未来总统特朗普对中国入侵台湾的反应。

作为测试 SIM-1 决策框架的下一个项目，Fable 打算测试唐纳德·特朗普总统领导下的台湾、中国和美国之间为期一周的建设和冲突。

费布尔采访了五角大楼的几位军事演习组织者，以了解当前台湾局势的优势和劣势。

Fable 正在打造代表中国国家主席习近平、蔡奇（中共中央书记处第一书记）、中国国防部长董军、中国国务院总理李强、台湾地区领导人赖清德、日本领导人石破茂、英国首相基尔·斯塔默、法国总统埃马纽埃尔·马克龙、俄罗斯总统普京、朝鲜领导人金正恩和伊隆·马斯克的代理机构。

有了这些角色，模拟将决定战争是否会发生，以及每个主要参与者在危机中会如何行动。所有这些角色都是众所周知的人物。

“它让你看到人工智能在预测结果方面变得多么强大，”萨奇说。“它让我们摆脱了将法学硕士学位投入 NPC 的无聊世界。你可以与制表人和管理员交谈 40 个小时。没有人愿意这样做。我们想要的是高度复杂、积极主动的代理，我们可以与之对抗，但也可以观察和了解那个世界正在发生的事情。”

许多战争游戏模拟旨在研究如何避免战争，也许是通过建立联盟或采取其他增加战争成本的手段。

萨奇说：“我们认为，我们的人工智能越逼真，它们就会越有趣。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/zai-ai-dai-li-mo-ni-zhong-sam-altman-zong-hui-ying-de

AI 代理模拟 Fable GPT4o OpenAI Sam Altman SIM-1 AI 人工智能

Like (0)

王浩然作者

0 0

Ubitium 推出新型通用处理器，解决边缘 AI 等问题

Previous 2024年11月25日

竞争日趋激烈，谷歌云推出 AI Agent Space

Next 2024年11月26日

AI前沿

Agentic RAG 如何改变数据处理和检索的格局

当大型语言模型 (LLM) 出现时，企业迅速将其纳入工作流程。他们使用检索增强生成 (RAG)开发 LLM 应用程序，该技术利用内部数据集来确保模型提供具有相关业务背景并减少幻觉的…

王浩然
2024年11月13日
000
AI前沿

SparkLabs 募集 5000 万美元基金，支持 AI 初创企业

SparkLabs是一家早期风险投资公司，因支持OpenAI以及 Vectara、Allganize、Kneron、Anthropic、xAI、Glade (YC S23) 和 L…

王浩然
2024年9月3日
000
AI前沿

人工智能公司将实现工业车辆自动化

一个新名字——SteerAI——通过中东出现在自动驾驶汽车领域。该项目由阿联酋阿布扎比政府下属先进技术研究委员会的商业化部门 VentureOne 推出。据 VentureOn…

王浩然
2024年11月9日
000
AI前沿

OpenAI 的 DevDay 为 AI 应用开发者带来实时 API 和其他福利

对于 OpenAI 来说，这是动荡的一周，高管离职和重大融资进展频频，但这家初创公司又回到了正轨，试图说服开发人员在 2024 年 DevDay 上利用其 AI 模型构建工具。该公…

王浩然
2024年10月2日
000
AI前沿

Nvidia 在印度签署了一系列与人工智能相关的交易

Nvidia 正在与印度公司建立一系列合作伙伴关系，以部署其人工智能芯片和技术，深化其对关键增长市场的进军。这家美国芯片设计公司的首席执行官黄仁勋表示，该公司已与印度最有价值的公…

王浩然
2024年10月25日
000
AI前沿

起底AIGC概念股：退潮之后，谁在裸泳？

生成式AI技术狂飙一年多以后，A股市场的「AIGC概念股」正在经历一场集体的「去泡沫」。截至9月12日收盘，相比去年的涨幅，今年以来，万得AIGC概念指数(8841660.WI)…

点点
2024年9月13日
000
AI前沿

Fal.Con 2024：CrowdStrike 推出弹性设计框架以加强全球网络安全

CrowdStrike首席执行官乔治·库尔茨 (George Kurtz) 在Fal.Con 2024开幕式上向客户和合作伙伴表示感谢，他表示，如果没有他们的帮助，公司不可能度过今…

王浩然
2024年9月22日
000
AI前沿

Anthropic的低调企业政变：Claude 3.7如何成为首选编码代理

引言在人工智能领域，一场静悄悄的革命正在发生。Anthropic，这家相对低调的人工智能公司，凭借其最新的Claude 3.7模型，正在编码代理市场上掀起波澜。Claude 3.…

王浩然
2025年3月19日
000
AI前沿

OpenAI 的红队创新为 AI 时代的安全领导者定义了新的要素

OpenAI 在红队演练方面采取了比其 AI 竞争对手更积极的态度，展示了其安全团队在两个领域的先进能力：多步强化和外部红队演练。OpenAI 最近发布了两篇论文，为在这两种技术及…

王浩然
2025年1月7日
000
AI前沿

Sam Altman 承认 OpenAI 在开源辩论中“站在了历史的错误一边”

OpenAI 首席执行官萨姆·奥特曼 (Sam Altman ) 周五做出惊人承认，他的公司在开源人工智能问题上“站在了历史的错误一边”，这表明，随着来自中国的竞争加剧和高效开放模…

王浩然
2025年2月2日
000
AI前沿

2024年电子游戏发布时间表在“从《星球大战不法分子》中学习”后，《刺客信条：阴影》推迟到2025年2024年电子游戏发布时间表

育碧宣布大幅推迟《刺客信条：暗影》，该版将于2025年2月14日发布，而不是之前计划于今年11月发布。现有的预购将退还。出版商一直以《刺客信条》大片的年度关键假日销售期为目标，这…

点点
2024年9月26日
000
AI前沿

人工智能深度伪造如何威胁选举公正性——以及如何应对

竞选广告已经变得有点混乱和有争议。现在想象一下，你被一则竞选广告所吸引，其中一位候选人表达了强有力的立场，影响了你的投票——而这则广告甚至不是真的。这是一个深度伪造的广告。这不…

点点
2024年10月21日
000
AI前沿

沃尔玛推出全新 Wallaby 法学硕士项目，押注多种人工智能模型

零售巨头沃尔玛对人工智能并不陌生，并已开始测试自己的大型语言模型 (LLM)，并可能将其用于其他应用程序。 Wallaby 是一套专注于零售业的 LLM，它基于数十年的沃尔玛数据进…

王浩然
2024年10月15日
000
iPhone 16 Pro是第一款感觉像相机的手机

摄影爱好者有句流行語——通常归因于Chase Jarvis——最好的相机就是你带的相机。换句话说，如果你想拍照时没有相机，相机有多好并不重要。如今，这将争辩说，最好的相机是我们大…

free
AI前沿 2024年9月28日
000
AI前沿

OpenAI 筹集数十亿美元资金，并承诺与“美国及其盟国政府”合作

OpenAI 周三在网上发布的一份声明称，该公司已筹集 66 亿美元，估值达到 1570 亿美元。据《华尔街日报》报道，此轮融资由 Thrive Capital 领投，投资额为 1…

王浩然
2024年10月3日
000
AI前沿

Microsoft Copilot推出macOS应用程序‌

科技巨头微软近日宣布，其智能助手Microsoft Copilot现已正式推出macOS版本，为Mac用户带来全新的智能工作体验。 ‌一、产品亮点‌ Microsoft Copil…

王浩然
2025年3月2日
000
AI前沿

单一标记如何成就或破坏人工智能推理

想象一下，让人工智能解决一个关于偿还贷款的简单数学问题。当人工智能遇到“欠”这个词时，它会结巴，产生错误的计算和错误的逻辑。但是，将这个词改成“付”，人工智能的推理就会突然转变——…

王浩然
2024年12月9日
000
AI前沿

YouTube 将使用人工智能生成创意、标题甚至完整视频

人工智能在谷歌的整个产品组合中都大行其道，YouTube 也采用了该公司的一些最新技术来帮助创作者进行创作。周三，在纽约市举行的 Made on YouTube 活动上，该公司宣布…

王浩然
2024年9月20日
000
AI前沿

微软如何防御每秒 7000 名密码攻击者

最近采访了微软安全、合规、身份、管理和隐私公司副总裁Vasu Jakkal ，以了解她对人工智能、机器学习 (ML)、生成式人工智能和新兴技术如何重新定义网络安全的见解。 Jakk…

王浩然
2024年12月6日
000
AI前沿

人工智能驱动的个性化：增强消费者参与度

我们生活在一个个性化消费体验日益成为常态的世界。想想看，几十年前，咖啡店里唯一的选择就是奶油和糖或黑咖啡。如今，你以为你可以点一杯半咖啡因、无泡沫、杏仁奶的卡布奇诺，再加两泵无糖香…

点点
2024年10月16日
000