一年前的今天,Sam Altman 在被解雇仅五天后重返 OpenAI。董事会会议室里到底发生了什么?游戏和人工智能模拟公司 Fable 开发了人工智能 Sim Francisco“战争游戏”,以查明闭门董事会斗争为何会演变成现在这个样子。
以这种方式模拟现实生活中的事件感觉有点奇怪,但 Fable 首席执行官爱德华·萨奇 (Edward Saatchi) 感兴趣的是,对于这家处于生成式人工智能革命中心的公司来说,不同的决策是否会带来不同的结果。
模拟让不同的董事会成员和人物在“多智能体竞争”中相互对抗,每个人工智能玩家都试图胜出。这是今天发布的战争游戏研究论文,该论文来自这次实验。
SIM-1 AI 决策框架基本上是对 Sam Altman 被免去 OpenAI 首席执行官职务到重返 OpenAI 期间五天时间的模拟。
与 Fable 合作撰写本研究论文的 AI 初创公司 Tree 的首席执行官 Joshua Johnson 在一份声明中表示:“模拟提供了一种全新的方式来探索 AI 在丰富环境中的决策能力——包括在战争游戏情况下,预测可能的结果可能非常有价值。这些不仅仅是聊天机器人。这些 AI 需要睡觉和吃饭,并平衡许多不同的身体、心理和情感目标。”
SIM-1 部分使用了新的推理模型 GPT4o,展示了 Sam 和 Ilya 在 OpenAI 内部闭门讨论的事情、Satya Nadella 和 Marc Andreessen 等领先企业的隐藏策略,以及领先企业在应对科技行业前所未有的危机时说了什么。
“萨姆回来的可能性有多大,这很有趣,”萨奇在接受 GamesBeat 采访时说。“这就是人们在华盛顿及其他地方进行战争游戏的原因。某个特定事件发生的可能性有多大?然后你就可以据此做出决定。这个场景显示,20 次中有 16 次,萨姆没有回来。”
在 20 次模拟中,Sam Altman 的 AI 四次重返 CEO 之位 — 这表明这种结果是多么不可能。在其他结果中,代理 CEO Mira Murati 继续担任 CEO,在一次模拟中,SIM-1 选择了 Altman 的竞争对手 Elon Musk 担任新 CEO。
“如今,人工智能代理是由其个性定义的。我们希望展示代理在复杂模拟中的决策能力,”萨奇在一份声明中表示。“在 11 月 17 日至 11 月 21 日的五天里,全世界目睹了一些最聪明的人——像萨蒂亚·纳德拉、萨姆·奥特曼和伊利亚·苏茨克弗这样的人——被迫在《权力的游戏》中快速、高压、短时间框架的场景中行动,他们必须使用博弈论和欺骗才能获胜。我们觉得这是一个测试 SIM-1、GPT4o 和 Sim Francisco 的完美场景。”
对我们来说,《模拟旧金山》在斗争和派系方面拥有真正的力量和智慧。它让我们能够开始思考旧金山的整个故事情节,而不仅仅是我们去年展示的那些小故事。它让我们能够讲述旧金山更丰富、更复杂的故事,或者让人工智能为我们讲述这些故事。有强大的派系目标,所以你可以开始创作《权力的游戏》故事。”
Fable 曾多次获得黄金时段艾美奖,并在虚拟现实、游戏和人工智能技术领域拥有丰富的实验性发明经验。该公司开发 SIM-1 是为了解决 OpenAI 董事会争斗中发生的谜团。
工作原理
20 场模拟中,每场都以宣布 Sam Altman 被免去 CEO 职务开始。每天四轮,每位代理人都能够通过哄骗、魅力和操纵登上最高职位——取代 Sam 担任 CEO、资助他的新企业或挖走 OpenAI 的员工。
不同的人工智能代理可以选择一种策略,比如欺骗,试图领先于其他代理并成为新任首席执行官。
“如今的人工智能角色‘很好但很无趣’。我们希望展示出具有攻击性、聪明、能够操纵和欺骗但又对自己的决定和目标感到困惑的代理——就像真人一样,人工智能角色必须很复杂 ,包含荣格所说的‘阴影’,”萨奇说。“从萨姆·奥特曼被带走并返回 OpenAI 的五天时间里,博弈论的发展速度达到了光速。”
他说,这就像在五天内看完一季《权力的游戏》。全世界都看到高智商的玩家竞相成为硅谷最有权势的人,无论是雇佣 OpenAI 的全体员工,成为 OpenAI 的新首席执行官,还是资助 Sam 和 Greg 开展新业务,以获得巨额投资回报。
“这是现实生活中的《权力的游戏》,使用人工智能来找出闭门之后发生的事情并预测不同的结果是一项惊人的挑战,”萨奇说。
在《模拟弗朗西斯科》的模拟中,为期五天的特工代表着科技界的名人,如萨姆·奥特曼、萨蒂亚·纳德拉和伊利亚·苏茨克弗,他们每天有 4 个回合,包括一个睡觉回合,并且可以对彼此的行为做出反应。裁判特工(类似于地下城守护者)决定哪个特工在每一轮中获胜,以及最终获胜者。
在尝试的 20 次模拟中,Sam Altman 特工只返回了四次——这是最多的一次,但仍然只有 20% 的时间,这表明他返回的可能性有多小。在不同的模拟中,特工使用不同的技巧来获胜,包括建立联盟、直接对抗和更被动的纯粹信息收集。在某些情况下,特工只收集信息,避免采取任何激进的行动。在一个案例中,Mira Murati 成为永久首席执行官,同时允许其他特工积极地互相破坏。
不同的代理商被赋予了与其角色相适应的不同目标。例如,Anthropic 的首席执行官 Dario Amodei 平衡了为 Anthropic 招募人才的愿望,借此机会筹集资金,推动他的安全愿景,并决定是否要成为合并后实体的新首席执行官。
模拟的有趣之处在于,由于参与者都是比较出名的人,所以 LLM 知道他们是谁。它可以猜测他们在特定情况下会如何表现,以及当他们在董事会争斗中试图智胜对方时,接下来会发生什么。
“这就像电子游戏,玩家们轮流在不同轴上做出选择,然后互相做出反应,”萨奇说。“第七回合某人做出的选择可能会导致其他人在第八回合做出反应。有一个裁决者特工,就像地下城主一样。该特工决定每轮谁赢谁领先,然后最终决定谁是这场战争游戏中最有效的特工。”
人类内心都有所谓的“阴影”,即他们自身和性格的另一面。角色可能有攻击性、偏执、野心、欺骗等等。当你将一堆不同的性格混合在一起时,你可以在模拟中得到各种各样的结果。
“我们注意到 LLM 设计不是基于决策,而决策对游戏来说非常重要。它更多地基于个性。如果你想要制作一款策略游戏,没有人真正关心你的个性。他们关心的是你的决策。你是如何承受压力的?过去 20 年你做过什么,可以让你感受到他们未来可能会做什么?”
模拟是游戏的未来吗?
萨奇认为,在模拟中行动的人工智能代理代表着游戏的未来。
萨奇表示:“我们正在站在巨人的肩膀上,借鉴 Demis 在《共和革命》中的工作、Joon Park 的《生成代理》论文以及 Altera 在《我的世界》中的最新工作。”
“我们的理论是,游戏和故事叙述的未来是模拟。如果你想同时制作《辛普森一家》游戏和《辛普森一家》电视节目,那么你将来会创建斯普林菲尔德,然后它会为你生成《辛普森一家》剧集,这些剧集会为你生成游戏和斯普林菲尔德内可供探索的地方。”
他补充道:“一旦你让这些模拟正常运行,你就可以在苦难中讲述许多不同的故事。我们有一个 alpha 版本,人们将自己上传到旧金山作为角色,讲述故事,讲述他们自己的故事。”
他说:“你可以建造斯普林菲尔德,然后你可以指导斯普林菲尔德可能发生的事情,并预测斯普林菲尔德可能发生的事情,或者你可以让它自行生成。这是未来娱乐、游戏和节目制作方式的一个相当大的思维转变。”
萨奇指出,人工智能研究员诺姆·布朗 (Noam Brown) 用外交游戏做了一个有趣的实验。他和其他研究人员“获得了在 Diplomacy.net 网站上在线玩的 125,261 场外交游戏的数据集”。其中,40,408 场游戏包含对话,玩家之间总共交换了 12,901,662 条消息。他们的目标是通过玩外交游戏来训练一个具有战略推理能力的人类水平的人工智能代理。
“我们真的被他的做法所鼓舞。他有国家,我们把不同人物和特定职位加入其中。我们喜欢时间线非常紧凑的想法,”整个场景会快速、反复地展开,萨奇说。
游戏行业及其他领域在模拟方面的工作历史悠久。Demis Hassabis 创立了 Deepmind(已被 Google 收购),最近因计算蛋白质设计获得了 2024 年诺贝尔化学奖,他实际上是从视频游戏 AI 设计师开始的。Hassabis 与 Peter Molyneux 合作开发了几款包含模拟元素的游戏,例如《主题公园》、《黑与白》和《辛迪加》。
哈萨比斯还创办了自己的公司,制作《共和国:革命》。这是一款政治模拟游戏,玩家将领导一个政治派别,使用外交、诡计和暴力手段推翻东欧一个虚构极权主义国家的政府。据哈萨比斯说,《共和国:革命》从头到尾记录了一场革命权力斗争的全过程。
你的工作是接管苏维埃共和国,无论是作为工会主席、政客、警察还是记者,而且工作有昼夜循环。这就提出了一个问题:你如何拥有一个特工生活的 3D 世界,以及彼此之间的距离是否起到了作用。
对于 Sim Francisco OpenAI 项目来说,它体现了与人工智能进行权力斗争的可能性。
Saatchi 表示,上述例子表明,游戏技术往往是激进新想法的温床,也是 AI 研究的起点。例如,Deepmind AlphaFold 的一位主要工程师就是从《模拟人生》的 AI 程序员开始职业生涯的。
Richard Evans 在 GDC 上谈论《模拟人生 3》——这位研究人员从为《模拟人生》编写 AI 程序转到了 Deepmind,这与 Demis Hassabis 从游戏到创立 Deepmind 的历程正好相反。
埃文斯在 GDC 上的演讲《模拟人生 3 中的个人性格建模》非常有影响力。他在参与《模拟人生》的开发后加入了 Deepmind。萨奇说,游戏世界和人工智能世界有很大的重叠,这是一个潜在的学术研究领域。
萨奇的选择之一是让玩家自由地参与模拟,创造自己的模拟,然后上传通过模拟讲述的故事。
萨奇还对人工智能生成的《南方公园》剧集和人工智能角色在西部世界背景下相互战斗进行了其他一些实验。
“感觉就像在五天内播完了六季《权力的游戏》,因为这是世界上最强大的行业中最强大的职位,”萨奇说。“大家也都坚信这个人会带领我们进入超级智能的新时代。你可以说他是地球历史上最重要的人。”
特朗普总统与台湾入侵
接下来,Fable 打算运行一个以华盛顿特区为背景的模拟游戏,模拟未来总统特朗普对中国入侵台湾的反应。
作为测试 SIM-1 决策框架的下一个项目,Fable 打算测试唐纳德·特朗普总统领导下的台湾、中国和美国之间为期一周的建设和冲突。
费布尔采访了五角大楼的几位军事演习组织者,以了解当前台湾局势的优势和劣势。
Fable 正在打造代表中国国家主席习近平、蔡奇(中共中央书记处第一书记)、中国国防部长董军、中国国务院总理李强、台湾地区领导人赖清德、日本领导人石破茂、英国首相基尔·斯塔默、法国总统埃马纽埃尔·马克龙、俄罗斯总统普京、朝鲜领导人金正恩和伊隆·马斯克的代理机构。
有了这些角色,模拟将决定战争是否会发生,以及每个主要参与者在危机中会如何行动。所有这些角色都是众所周知的人物。
“它让你看到人工智能在预测结果方面变得多么强大,”萨奇说。“它让我们摆脱了将法学硕士学位投入 NPC 的无聊世界。你可以与制表人和管理员交谈 40 个小时。没有人愿意这样做。我们想要的是高度复杂、积极主动的代理,我们可以与之对抗,但也可以观察和了解那个世界正在发生的事情。”
许多战争游戏模拟旨在研究如何避免战争,也许是通过建立联盟或采取其他增加战争成本的手段。
萨奇说:“我们认为,我们的人工智能越逼真,它们就会越有趣。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/zai-ai-dai-li-mo-ni-zhong-sam-altman-zong-hui-ying-de