构建一个对话式人工智能需要花费多少钱？

王浩然 • 2024年9月15日下午9:00 • AI前沿 • 90 views

超过 40% 的营销、销售和客户服务组织已采用生成式人工智能，仅次于 IT 和网络安全。在所有生成式人工智能技术中，对话式人工智能将在这些领域迅速普及，因为它能够弥合企业与客户之间当前的沟通鸿沟。

然而，我采访过的许多营销业务领导者都陷入了如何开始实施该技术的十字路口。他们不知道该选择哪种可用的大型语言模型(LLM)，也不知道是选择开源还是闭源。他们担心在一项新的、未知的技术上投入太多资金。

公司当然可以购买现成的对话式 AI 工具，但如果它们要成为业务的核心部分，他们就可以内部构建自己的工具。

为了帮助那些选择构建的人降低恐惧因素，我想分享我和我的团队在寻找构建对话式人工智能的最佳法学硕士时进行的一些内部研究。我们花了一些时间研究不同的法学硕士提供商，以及根据固有成本和你对目标受众的使用类型的预期，你应该为每个提供商支付多少费用。

我们选择比较GPT-4o (OpenAI) 和 Llama 3 (Meta)。这是大多数企业会相互比较的两个主要 LLM，我们认为它们是目前质量最高的模型。它们还允许我们比较闭源 ( GPT ) 和开源 (Llama) LLM。

如何计算对话式人工智能的法学硕士 (LLM) 成本？

选择法学硕士 (LLM) 时的两个主要财务考虑因素是设置成本和最终处理成本。

设置成本涵盖了启动 LLM 并实现最终目标所需的一切费用，包括开发和运营费用。处理成本是工具上线后每次对话的实际成本。

在设置方面，成本价值比将取决于您使用 LLM 的目的和使用频率。如果您需要尽快部署产品，那么您可能会乐意为几乎无需设置的型号（如 GPT-4o）支付额外费用。设置 Llama 3 可能需要数周时间，在此期间您可能已经对 GPT 产品进行了微调以适应市场。

然而，如果您要管理大量客户，或者想要对您的 LLM 有更多的控制权，您可能希望尽早承担更大的设置成本，以便在未来获得更大的利益。

在对话处理成本方面，我们将研究 token 的使用情况，因为这可以进行最直接的比较。GPT-4o 和 Llama 3 等 LLM 使用一种称为“token”的基本度量标准，即这些模型可以作为输入和输出处理的文本单位。不同 LLM 之间没有统一的 token 定义标准。有些 LLM 按单词、子单词、字符或其他变体计算 token。

由于所有这些因素，很难对 LLM 进行同类比较，但我们通过尽可能简化每个模型的固有成本来近似比较。

我们发现，虽然 GPT-4o 的前期成本较低，但随着时间的推移，Llama 3 的成本效益呈指数级增长。让我们从设置考虑开始，了解一下原因。

每个法学硕士 (LLM) 的基础费用是多少？

在深入了解每个法学硕士学位每次对话的费用之前，我们需要了解实现这一目标需要花费多少钱。

GPT-4o 是由 OpenAI 托管的闭源模型。因此，您只需设置工具，通过简单的 API 调用即可 ping GPT 的基础架构和数据库。设置工作量极小。

另一方面，Llama 3 是一个开源模型，必须托管在您自己的私人服务器或云基础设施提供商上。您的企业可以免费下载模型组件 — 然后由您来寻找主机。

托管成本是这里要考虑的一个因素。除非您购买自己的服务器（这种情况相对少见），否则您必须向云提供商支付使用其基础设施的费用——而且每个不同的提供商可能都有不同的定价结构调整方式。

大多数托管服务提供商会“出租”一个实例给您，并按小时或秒向您收取计算容量费用。例如，AWS 的 ml.g5.12xlarge 实例按服务器时间收费。其他提供商可能会将使用捆绑在不同套餐中，并根据不同因素（例如您的存储需求）向您收取年度或每月固定费用。

然而，提供商 Amazon Bedrock 根据处理的令牌数量来计算成本，这意味着即使您的使用量较低，它也可能被证明是一种经济高效的企业解决方案。Bedrock 是 AWS 托管的无服务器平台，它还通过处理底层基础设施来简化LLM 的部署。

除了直接成本之外，要让您的对话式 AI 在 Llama 3 上运行，您还需要为运营投入更多的时间和金钱，包括最初选择和设置服务器或无服务器选项以及运行维护。您还需要在开发错误日志记录工具和系统警报等方面投入更多资金，以应对 LLM 服务器可能出现的任何问题。

计算基础成本价值比时要考虑的主要因素包括部署时间、产品使用水平（如果您每月要处理数百万次对话，则设置成本将很快被最终节省的费用所抵消）；以及您对产品和数据所需的控制级别（开源模型在这里最适合）。

主要法学硕士 (LLM) 每次对话的费用是多少？

现在我们可以探索每个对话单元的基本成本。

对于我们的建模，我们使用了启发式方法：1,000 个单词 = 7,515 个字符 = 1,870 个标记。

我们假设平均消费者对话在人工智能和人类之间总共包含 16 条消息。这相当于输入 29,920 个令牌，输出 470 个令牌 — 因此总共 30,390 个令牌。（由于提示规则和逻辑，输入要高得多）。

在 GPT-4o 上，每 1,000 个输入代币的价格为 0.005 美元，每 1,000 个输出代币的价格为 0.015 美元，这导致“基准”对话的成本约为 0.16 美元。

GPT-4o 输入/输出	代币数量	每 1,000 个代币的价格	成本
输入标记	29,920	0.00500 美元	0.14960 美元
输出标记	470	0.01500 美元	0.00705美元
每次对话的总费用			0.15665 美元

对于 AWS Bedrock 上的 Llama 3-70B，每 1,000 个输入代币的价格为 0.00265 美元，每 1,000 个输出代币的价格为 0.00350 美元，这导致“基准”对话成本约为 0.08 美元。

Llama 3-70B 输入/输出	代币数量	每 1,000 个代币的价格	成本
输入标记	29,920	0.00265美元	0.07929美元
输出标记	470	0.00350 美元	0.00165美元
每次对话的总费用			0.08093美元

总之，一旦这两个模型完全建立起来，在 Llama 3 上运行对话的成本将比在 GPT-4o 上运行的同等对话成本低近 50%。然而，任何服务器成本都必须添加到 Llama 3 的计算中。

请记住，这只是每个 LLM 全部费用的快照。当您根据自己的独特需求构建产品时，许多其他变量也会发挥作用，例如您是使用多提示方法还是单提示方法。

对于计划将对话式人工智能作为核心服务、而不是品牌基本要素的公司来说，与现成产品所能获得的质量相比，内部构建人工智能的投资可能根本不值得花费时间和精力。

无论你选择哪条路，集成对话式人工智能都非常有用。只需确保始终以适合公司环境和客户需求的方式为指导即可。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/gou-jian-yi-ge-dui-hua-shi-ren-gong-zhi-neng-xu-yao-hua-fei

AI GPT-4o Llama 3 LLM Meta OpenAI 人工智能生成式

Like (0)

王浩然作者

0 0

忘掉 GPT-5！OpenAI 推出全新 AI 模型系列 o1，声称性能达到博士级

Previous 2024年9月15日

如何提示 OpenAI 的新 o1 模型

Next 2024年9月15日

AI前沿

AGI 的到来比我们想象的要快——我们必须做好准备

包括 Anthropic 的 Dario Amodei 和 OpenAI 的 Sam Altman 在内的人工智能领域的领军人物表示，“强大的人工智能”甚至超级智能可能会在未来 2…

王浩然
2024年11月11日
000
AI前沿

Workday 收购人工智能文档平台 Evisort

Workday周二宣布，将收购人工智能合同管理平台Evisort ，收购金额未公开。 Workday集团总经理 Terrance Wampler 在一份声明中表示，Evisort …

王浩然
2024年9月19日
000
AI前沿

今天是选举日，所有人工智能（除了一个）都采取了负责任的行动

在周二投票结束之前，大多数主要的人工智能聊天机器人都不会回答有关美国总统选举结果的问题。但内置在 X（前身为 Twitter）中的聊天机器人 Grok 却愿意回答，而且经常会出错。…

王浩然
2024年11月6日
000
AI前沿

GPU迈向生物领域：BBB发布Bionode，打造基于实验室培育活神经元的AI计算平台

在人工智能（AI）技术的飞速发展进程中，计算硬件的革新始终是推动其前进的关键力量。长久以来，图形处理单元（GPU）作为昂贵的计算机芯片，一直由Nvidia、AMD等行业巨头主导，是…

王浩然
2025年3月21日
000
AI前沿

代理人工智能与空间计算的融合是否会在人工智能革命中增强人类能动性？

随着人工智能竞赛的起起伏伏继续吸引着商界领袖、投资者和媒体的注意力，最令人兴奋的新兴创新之一是代理人工智能和空间计算，它们将重新定义我们与数字系统和物理环境的互动方式。Gartne…

王浩然
2025年1月14日
000
AI前沿

Augmented Intelligence 声称其 AI 可以让聊天机器人更有用

OpenAI 的 o1 等 AI 模型的核心是神经网络架构，而这种架构的替代方案正大行其道。这种方案被称为符号 AI，它使用与特定任务（如重写文本行）相关的规则来解决更大的问题。 …

wang, jinchang
2024年10月2日
000
AI前沿

DeepMind的米开朗基罗基准：揭示长上下文LLMs的局限性

随着人工智能 (AI) 的不断发展，处理和理解长序列信息的能力变得越来越重要。人工智能系统现在用于执行复杂的任务，例如分析长文档、跟上长时间的对话以及处理大量数据。然而，许多当前模…

点点
2024年10月18日
000
AI前沿

Google Gemini 的 Imagen 3 让玩家可以设计自己的棋子

谷歌实验室是科技巨头谷歌旗下的实验部门，它推出了一项新的在线项目，提供一种有趣的国际象棋游戏变体。该网络实验名为 GenChess，顾名思义，它采用了谷歌的图像生成模型 Gemi…

王浩然
2024年11月28日
000
AI前沿

ChatGPT：全面解析这款AI聊天机器人

在人工智能领域，ChatGPT无疑是一颗璀璨的明星。它以强大的自然语言处理能力和智能化的交互方式，赢得了广泛的关注和赞誉。本文将深入剖析ChatGPT的各个方面，带您全面了解这款A…

王浩然
2025年3月23日
000
AI前沿

OpenAI 的代理时代开始了：ChatGPT Tasks 提供作业调度、提醒等功能

ChatGPT 发布了一项名为 Tasks 的新功能，朝着成为成熟的个人助理迈出了重要一步。这可能预示着OpenAI未来将发布更多代理。 Tasks 目前处于测试阶段，可让 Cha…

王浩然
2025年1月15日
000
首份，人工智能公约即将落地

人工智能公约

点点
AI前沿 2024年9月6日
000
AI前沿

NVIDIA助力推出AI平台，教授美国手语

NVIDIA携手合作伙伴，共同推出了一款创新的AI平台，旨在通过人工智能技术教授美国手语。该平台集成了先进的深度学习算法和高效的图形处理能力，为用户提供了一种直观、互动的学习方式，…

王浩然
2025年2月23日
000
AI前沿

企业 AI 从“实验”走向“必要”，支出增长 130%

一项新研究表明，生成式人工智能已迅速从一项实验技术转变为一种重要的商业工具，到 2024 年其采用率将增加一倍以上。这项研究由宾夕法尼亚大学沃顿商学院的研究中心AI …

王浩然
2024年10月29日
000
AI前沿

腾讯的 EzAudio AI 将文本转换为逼真的声音，引发创新和争论

约翰霍普金斯大学和腾讯 AI 实验室的研究人员推出了EzAudio，这是一种新的文本转音频 (T2A) 生成模型，有望以前所未有的效率从文本提示中产生高质量的音效。这一进步标志着人…

王浩然
2024年9月22日
000
AI前沿

AI 是否能通过妨碍安全检查来故意破坏用户？可以，但目前做得不太好

人工智能公司声称已经实施了严格的安全检查，以确保模型不会说或做奇怪、非法或不安全的事情。但如果模型能够逃避这些检查，并出于某种原因试图破坏或误导用户，该怎么办？据 Anthropi…

王浩然
2024年10月21日
000
AI前沿

前Palantir 首席信息安全官 Dane Stuckey 加入 OpenAI 领导安全事务

分析公司 Palantir 的前 CISO Dane Stuckey 已加入 OpenAI 担任其最新 CISO，与 OpenAI 安全主管 Matt Knight 一起共事。斯…

王浩然
2024年10月18日
000
AI前沿

苹果放弃投资 OpenAI，硅谷史上最大融资悬了？CEO 曝出丑闻，GPT-5 或将难产

OpenAI 正分崩离析今天，我做出了一个艰难的决定，那就是继续留在 OpenAI。 OpenAI 最近的日子可谓冰火两重天，一方面，融资活动如火如荼；另…

点点
2024年9月29日
000
AI前沿

揭秘OpenAI：兴趣驱动的探索，非目标导向的马拉松

我们被倡导要想明白自己的目标是什么、并做出计划。然而，两位人工智能研究者却认为，这只适用于普通的小愿望。一旦涉及过于高远的、不确定能否实现的目标，比如打造 AGI（通…

点点
2024年9月9日
000
AI前沿

Zenlytic 获得 900 万美元融资，与 AI 数据分析师 Zoë 共同革新商业智能

Zenlytic是人工智能商业智能(BI) 领域的先驱，已成功筹集 900 万美元 A 轮融资，由M13领投，贝恩资本风险投资公司 ( Bain Capital Ventures …

点点
2024年9月27日
000
AI前沿

YouTube Shorts 将整合谷歌的 AI 视频模型 Veo

YouTube 周三上午举办的 Made On YouTube 活动的主要亮点是人工智能。该公司宣布，将把 Google DeepMind 的 AI 视频生成模型Veo整合到 Yo…

王浩然
2024年9月19日
000