超过 40% 的营销、销售和客户服务组织已采用生成式人工智能,仅次于 IT 和网络安全。在所有生成式人工智能技术中,对话式人工智能将在这些领域迅速普及,因为它能够弥合企业与客户之间当前的沟通鸿沟。
然而,我采访过的许多营销业务领导者都陷入了如何开始实施该技术的十字路口。他们不知道该选择哪种可用的大型语言模型(LLM),也不知道是选择开源还是闭源。他们担心在一项新的、未知的技术上投入太多资金。
公司当然可以购买现成的对话式 AI 工具,但如果它们要成为业务的核心部分,他们就可以内部构建自己的工具。
为了帮助那些选择构建的人降低恐惧因素,我想分享我和我的团队在寻找构建对话式人工智能的最佳法学硕士时进行的一些内部研究。我们花了一些时间研究不同的法学硕士提供商,以及根据固有成本和你对目标受众的使用类型的预期,你应该为每个提供商支付多少费用。
我们选择比较GPT-4o (OpenAI) 和 Llama 3 (Meta)。这是大多数企业会相互比较的两个主要 LLM,我们认为它们是目前质量最高的模型。它们还允许我们比较闭源 ( GPT ) 和开源 (Llama) LLM。
如何计算对话式人工智能的法学硕士 (LLM) 成本?
选择法学硕士 (LLM) 时的两个主要财务考虑因素是设置成本和最终处理成本。
设置成本涵盖了启动 LLM 并实现最终目标所需的一切费用,包括开发和运营费用。处理成本是工具上线后每次对话的实际成本。
在设置方面,成本价值比将取决于您使用 LLM 的目的和使用频率。如果您需要尽快部署产品, 那么您可能会乐意为几乎无需设置的型号(如 GPT-4o)支付额外费用。设置 Llama 3 可能需要数周时间,在此期间您可能已经对 GPT 产品进行了微调以适应市场。
然而,如果您要管理大量客户,或者想要对您的 LLM 有更多的控制权,您可能希望尽早承担更大的设置成本,以便在未来获得更大的利益。
在对话处理成本方面,我们将研究 token 的使用情况,因为这可以进行最直接的比较。GPT-4o 和 Llama 3 等 LLM 使用一种称为“token”的基本度量标准,即这些模型可以作为输入和输出处理的文本单位。不同 LLM 之间没有统一的 token 定义标准。有些 LLM 按单词、子单词、字符或其他变体计算 token。
由于所有这些因素,很难对 LLM 进行同类比较,但我们通过尽可能简化每个模型的固有成本来近似比较。
我们发现,虽然 GPT-4o 的前期成本较低,但随着时间的推移,Llama 3 的成本效益呈指数级增长。让我们从设置考虑开始,了解一下原因。
每个法学硕士 (LLM) 的基础费用是多少?
在深入了解每个法学硕士学位每次对话的费用之前,我们需要了解实现这一目标需要花费多少钱。
GPT-4o 是由 OpenAI 托管的闭源模型。因此,您只需设置工具,通过简单的 API 调用即可 ping GPT 的基础架构和数据库。设置工作量极小。
另一方面,Llama 3 是一个开源模型,必须托管在您自己的私人服务器或云基础设施提供商上。您的企业可以免费下载模型组件 — 然后由您来寻找主机。
托管成本是这里要考虑的一个因素。除非您购买自己的服务器(这种情况相对少见),否则您必须向云提供商支付使用其基础设施的费用——而且每个不同的提供商可能都有不同的定价结构调整方式。
大多数托管服务提供商会“出租”一个实例给您,并按小时或秒向您收取计算容量费用。例如,AWS 的 ml.g5.12xlarge 实例按服务器时间收费。其他提供商可能会将使用捆绑在不同套餐中,并根据不同因素(例如您的存储需求)向您收取年度或每月固定费用。
然而,提供商 Amazon Bedrock 根据处理的令牌数量来计算成本,这意味着即使您的使用量较低,它也可能被证明是一种经济高效的企业解决方案。Bedrock 是 AWS 托管的无服务器平台,它还通过处理底层基础设施来简化LLM 的部署。
除了直接成本之外,要让您的对话式 AI 在 Llama 3 上运行,您还需要为运营投入更多的时间和金钱,包括最初选择和设置服务器或无服务器选项以及运行维护。您还需要在开发错误日志记录工具和系统警报等方面投入更多资金,以应对 LLM 服务器可能出现的任何问题。
计算基础成本价值比时要考虑的主要因素包括部署时间、产品使用水平(如果您每月要处理数百万次对话,则设置成本将很快被最终节省的费用所抵消);以及您对产品和数据所需的控制级别(开源模型在这里最适合)。
主要法学硕士 (LLM) 每次对话的费用是多少?
现在我们可以探索每个对话单元的基本成本。
对于我们的建模,我们使用了启发式方法:1,000 个单词 = 7,515 个字符 = 1,870 个标记。
我们假设平均消费者对话在人工智能和人类之间总共包含 16 条消息。这相当于输入 29,920 个令牌,输出 470 个令牌 — 因此总共 30,390 个令牌。(由于提示规则和逻辑,输入要高得多)。
在 GPT-4o 上,每 1,000 个输入代币的价格为 0.005 美元,每 1,000 个输出代币的价格为 0.015 美元,这导致“基准”对话的成本约为 0.16 美元。
GPT-4o 输入/输出 | 代币数量 | 每 1,000 个代币的价格 | 成本 |
输入标记 | 29,920 | 0.00500 美元 | 0.14960 美元 |
输出标记 | 470 | 0.01500 美元 | 0.00705美元 |
每次对话的总费用 | 0.15665 美元 |
对于 AWS Bedrock 上的 Llama 3-70B,每 1,000 个输入代币的价格为 0.00265 美元,每 1,000 个输出代币的价格为 0.00350 美元,这导致“基准”对话成本约为 0.08 美元。
Llama 3-70B 输入/输出 | 代币数量 | 每 1,000 个代币的价格 | 成本 |
输入标记 | 29,920 | 0.00265美元 | 0.07929美元 |
输出标记 | 470 | 0.00350 美元 | 0.00165美元 |
每次对话的总费用 | 0.08093美元 |
总之,一旦这两个模型完全建立起来,在 Llama 3 上运行对话的成本将比在 GPT-4o 上运行的同等对话成本低近 50%。然而,任何服务器成本都必须添加到 Llama 3 的计算中。
请记住,这只是每个 LLM 全部费用的快照。当您根据自己的独特需求构建产品时,许多其他变量也会发挥作用,例如您是使用多提示方法还是单提示方法。
对于计划将对话式人工智能作为核心服务、而不是品牌基本要素的公司来说,与现成产品所能获得的质量相比,内部构建人工智能的投资可能根本不值得花费时间和精力。
无论你选择哪条路,集成对话式人工智能都非常有用。只需确保始终以适合公司环境和客户需求的方式为指导即可。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/gou-jian-yi-ge-dui-hua-shi-ren-gong-zhi-neng-xu-yao-hua-fei