Arcee AI今天推出了SuperNova,这是一个专为企业部署而设计的 700 亿参数语言模型,具有先进的指令跟踪功能和完整的自定义选项。该模型旨在为 OpenAI 和 Anthropic 的基于 API 的服务提供强大且可拥有的替代方案,解决围绕数据隐私、模型稳定性和自定义的关键问题。
在以云端 API 为主导的 AI 领域,Arcee AI 采用了 SuperNova 这一不同的方法。大型语言模型 (LLM) 可以在企业自己的基础设施中部署和定制。SuperNova 今天发布,它基于 Meta 的 Llama-3.1-70B-Instruct 架构构建,并采用了一种新颖的后训练流程,Arcee 声称该流程可实现出色的指令遵循性和对特定业务需求的适应性。
技术创新
SuperNova 的开发涉及多方面的后期训练方法,正如该项目首席工程师 Lucas Atkins 所解释的那样:
“我们同时训练了三个模型。一个是从 Llama 405B 中提炼出来的。另一个是用我们用 EvolKit 存储库生成的数据集进行训练的。第三个是在当前的 Llama 3 指令之上进行相当详尽的 DPO。最后,我们使用一种新的合并技术将这三个模型结合起来,保留了每个模型的优势。”
Arcee 认为这一过程是专有的,它带来了他们声称的非常先进的指令遵循能力。从 405B 参数模型中提炼出来的结果尤其值得注意,因为它表明 SuperNova 可能捕捉到一些更大模型的功能,同时仍然可以在更适中的硬件上部署。
“作为一个整天都在摆弄这些模型的人,无论是闭源模型还是开源模型,这个模型确实给我留下了深刻的印象,”阿特金斯补充道。“这里最重要的是遵循指令,这使得它非常非常符合用户或组织的需求。”
Arcee 的合成数据生成管道 EvolKit 的使用是其方法的另一个关键组成部分。该工具将是开源的,允许创建复杂的问答对,可用于针对特定任务或领域微调模型。这对于希望根据其独特用例调整模型的企业来说可能特别有价值。
企业部署与定制
SuperNova 旨在部署在企业自己的云环境中,首先在 AWS Marketplace 上可用。Arcee 还致力于在 Google 和 Azure 市场上提供该服务。Arcee AI 联合创始人 Mark McQuade 重点介绍了部署过程:
“该模型会部署到您的 AWS VPC 中,但它也会启动一个 Web 服务器、一个聊天界面和一个数据库来存储您的聊天记录。您组织中的每个人都可以与其交互。”
这种部署模型解决了企业在数据隐私和模型稳定性方面的关键问题。与可能在未经通知的情况下弃用或更改的基于 API 的服务不同,SuperNova 为企业提供了对其 AI 资产的完全控制权。正如 McQuade 指出的那样,鉴于 AI 行业最近发生的事件,这一点尤其重要:
“OpenAI 刚刚弃用了 3.5……许多公司围绕 3.5 的 API 建立了业务。因此,API 发生变化,您的应用程序就会消失。在我们的世界中,除非您更改它,否则一切都不会改变,因为它是您的模型,是您运行它的方式。”
在公司自己的虚拟私有云 (VPC) 中部署 SuperNova 的能力可确保敏感数据永远不会脱离组织的控制。这对于受监管行业或处理机密信息的公司来说非常重要。
定制和持续改进
SuperNova 的一个关键特性是它能够在企业环境中进行微调和再训练。Atkins 解释了这一过程及其优势:
“随着时间的推移,我们可以在您自己的环境中完全重新训练模型,以更好地适应您的偏好。当我们保存这些聊天记录时,如果您希望模型全面改进,以适应您作为企业的独特偏好,我们有能力做到这一点,而无需让这些数据离开您的系统。”
此功能允许技术团队随着时间的推移调整模型以适应特定领域的知识或公司特定的要求。与基于云的 API 服务相比,这是一个显著的优势,因为后者通常不允许这种级别的定制。
持续改进方面尤其值得注意。当模型与组织内的用户交互时,它可以从这些交互中学习并提高其在公司特定任务上的表现。这形成了一个良性循环,模型使用得越多,它对组织的价值就越大。
开源组件
虽然完整的 70B 模型不是开源的,但 Arcee 正在向开发者社区发布几个组件:
- 用于测试和评估的免费 API:这使开发人员无需进行完整部署即可试验 SuperNova。
- SuperNova-Lite:该模型的 8B 参数开源版本。这个较小的模型对于在资源受限的环境中工作的开发人员或那些想要在部署完整模型之前了解架构的人很有用。
- EvolKit:用于创建复杂 QA 对的数据集生成管道。对于希望为其特定用例创建自定义训练数据的组织来说,此工具可能很有价值。
通过开源这些组件,Arcee 为更广泛的 AI 社区做出了贡献,同时也为潜在客户提供了评估和定制其产品的工具。Arcee SuperNova 也可在AWS Marketplace上购买。
绩效声明和基准
Arcee 声称 SuperNova 在各个领域都表现出色,尤其擅长数学推理。“这款产品在数学基准测试中表现相当出色,”Atkins 指出。不过,该公司鼓励第三方评估来验证其说法。
“我们将提供 API 供人们使用。如果有第三方想要运行可靠的基准测试来亲自评估,我们可以安排为他们提供权重访问权限。我们希望这个模型完全透明,”Atkins 说道。
这种对第三方评估的开放态度值得称赞,因为它允许对 Arcee 的说法进行独立验证。与 OpenAI、Anthropic 和其他领先 AI 公司的模型相比,SuperNova 在标准基准上的表现如何,这将特别有趣。
值得注意的是,它强调数学推理,因为这对于许多语言模型来说都是一个具有挑战性的领域。如果 SuperNova 确实在这个领域表现出色,那么它将对金融、工程和科学研究等行业特别有价值。
对企业 AI 战略的影响
SuperNova 的发布正值许多企业重新评估其 AI 战略之际。尽管基于云的 API 服务占据了主导地位,但人们对可部署、可定制的模型的兴趣日益浓厚,因为这些模型可以提供更多的控制和灵活性。
SuperNova 的方法解决了几个关键问题:
- 数据隐私:通过在公司自己的基础设施内部署,SuperNova 确保敏感数据永远不会脱离组织的控制。
- 模型稳定性:与可能未经通知而更改或弃用的 API 服务不同,SuperNova 提供了一个稳定的基础,仅在组织选择更新时才会发生变化。
- 定制:根据公司特定数据对模型进行微调和重新训练的能力可以实现大多数 API 服务无法实现的深度定制。
- 成本控制:虽然初始部署可能需要大量资源,但运行 SuperNova 的长期成本可能低于大规模 API 调用的费用。
- 竞争优势:定制的、持续改进的人工智能模型可以在人工智能驱动的洞察力至关重要的行业中提供显著的竞争优势。
人工智能主权困境
随着企业在快速发展的 AI 领域中探索,SuperNova 的发布揭示了行业中日益加剧的紧张局势:基于云的 AI 服务的便利性和强大功能与可部署模型提供的控制和定制之间的权衡。这种矛盾提出了我们所谓的“AI 主权困境”。
一方面,GPT-4 和 Claude 等基于云的 API 服务提供了最先进的性能和持续更新,但代价是数据隐私问题和有限的定制。另一方面,SuperNova 等模型承诺完全控制和定制,但需要大量内部专业知识来部署和维护。
Arcee 的 SuperNova 方案试图弥补这一差距,提供一种可以在本地部署的模型,同时仍提供旨在与领先的基于云的服务相媲美的功能。这种混合方法对于监管要求严格的行业或处理高度敏感数据的行业尤其有吸引力。
然而,该模式的成功取决于几个因素:
- 性能均等:像 SuperNova 这样的模型真的可以匹配不断更新的云模型的功能吗?
- 部署的简易性:企业是否发现部署和维护过程易于管理?
- 定制优势:根据专有数据对模型进行微调的能力是否能带来显著的竞争优势?
- 成本效益:随着时间的推移,SuperNova 等模型的总体拥有成本是否会低于大规模使用基于云的 API?
SuperNova 的发布标志着企业 AI 格局的潜在转变。它挑战了最先进的 AI 功能只能通过云 API 访问的观念,并阻止了 AI 权力集中在少数科技巨头手中。
SuperNova 和类似模型代表了企业 AI 故事的新篇章。它们提供了一种更可控、可定制且更符合特定业务需求的 AI 愿景。这一愿景是否会取代或补充当前以云为主导的范式还有待观察,但有一点是明确的:企业 AI 未来的争夺战正在加剧,而 SuperNova 等模型正处于这场革命的最前沿。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/arcee-ai-tui-chu-supernova-yi-zhong-ke-ding-zhi-fu-he-zhi