斯坦福大学扩展智能实验室的研究人员介绍了一种新的推理框架,可以帮助大型语言模型 (LLM) 更快地处理潜在的响应。
该框架 Archon 使用推理时间架构搜索 (ITAS) 算法来提高 LLM 性能,而无需额外训练。它与模型无关,开源,并且设计为大型和小型模型的即插即用。
你准备好迎接人工智能代理了吗?
Archon 理想情况下可以帮助开发人员使用多种推理时间技术设计 AI 模型系统,以减少确定响应所需的模型数量。Scaling Intelligence Lab 表示,像 Archon 这样的技术将有助于降低与构建模型和推理相关的成本。随着 LLM 开发转向更大的参数或更高级的推理,尽管像 OpenAI 这样的公司 预计价格会更实惠,但成本可能会增加。
据研究人员介绍,Archon 可以自动设计架构来改善任务泛化能力,使模型能够执行最初训练任务以外的任务。
研究人员在论文中表示:“我们的 Archon 框架和 ITAS 算法分别从神经架构和神经架构搜索中汲取灵感。Archon由多层 LLM 构成,其中同一层中的模型并行运行,但每个模型随后按顺序运行。”
这些层执行不同的推理时间技术,“要么通过生成和融合来转换候选响应的数量(如线性变换),要么减少候选响应的数量以提高质量(如非线性)”。
Archon在 MT-Bench、Arena-Hard-Auto、Alpaca-2.0 Eval、MixEval、MixEval Hard、MATH、CodeContests 等基准测试中,比GPT-4o和Claude 3.5 Sonnet高出 15.1 个百分点;在开源 LLM 中,Archon 的表现比它们高出 11.2 个百分点。
Archon 组件
ITAS 算法由几个 LLM 组件组成,可以执行推理时间技术。
第一个组件是生成器,它为模型创建可能的答案。第二个组件 Guser 将获取这些响应并将它们组合成一个。例如,如果向模型提出的问题是想知道法国的首都,融合器将获取生成的响应“法国首都是巴黎”,“法国在欧洲”,并将其转换为“法国的首都是巴黎,法国是欧洲国家。”
接下来,Archon 转到 Ranker 组件,该组件对最佳答案进行排名。Critic 组件评估排名后的答案,以确定它们是好是坏。Verifier 检查逻辑性和正确性,然后转到 Unit Test Generator 和 Evaluator,后者进行小测试以查看响应是否有效并检查测试结果。
研究人员表示,通过以这种方式构建 Archon,该框架可以更快地提高 LLM 的响应质量,而无需进行额外的微调。
Archon 的局限性
到目前为止,Archon 框架最适合用于具有 70B 参数的 LLM,或者更像Meta 的 Code Llama 70B,因此目前很难指出大多数 LLM。研究人员表示,大部分挑战来自于较小的模型由于上下文窗口较小而遵循指令的能力有限。
论文指出:“当我们使用仅有70 亿个开源模型的Archon 架构时,性能显著下降了 16%。”
使用 Archon 框架的小型模型比单圈模型落后 15.7%。
斯坦福实验室还表示,Archon“不适合那些喜欢单个 LLM 调用延迟的任务”,比如聊天机器人。由于该框架执行不同的操作,因此它会进行多次 LLM 调用,因此单个问答查询不会从其功能中受益。Archon 可能更适合涉及复杂指令的任务,例如解方程、编程,甚至是复杂的客户服务问题。
尽管存在局限性,Archon 背后的研究人员表示,他们希望它可以加速高性能模型的开发,而不需要更多的推理和训练资本。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/tui-li-kuang-jia-archon-you-wang-jia-kuai-llm-jin-cheng-qie