IBM 今天发布了新的 Granite 3.1 系列,从而巩固了其在开源 AI 排行榜上的领先地位。
Granite 3.1大型语言模型(LLM) 为企业用户提供了 128K 标记的扩展上下文长度、新的嵌入模型、集成的幻觉检测和改进的性能。据 IBM 称,新的 Granite 8B Instruct 模型超越了同规模的开源竞争对手,包括 Meta Llama 3.1、Qwen 2.5 和 Google Gemma 2。IBM 在 OpenLLM 排行榜中包含的一系列学术基准中对其模型进行了排名。
新模型是 IBM Granite开源模型加速发布节奏的一部分。Granite 3.0刚刚于 10 月发布。当时,IBM 声称其与生成 AI 相关的业务账簿价值 20 亿美元。通过 Granite 3.1 更新,IBM 专注于将更多功能打包到较小的模型中。基本思想是较小的模型更易于企业运行,并且运营成本更低。
IBM 研究部 AI 模型副总裁 David Cox 说:“我们还提高了所有数字——几乎所有方面的表现都得到了提升。”“我们将 Granite 用于许多不同的用例,我们在 IBM 内部将其用于我们的产品,我们将其用于咨询,我们将其提供给客户,并将其作为开源发布,所以我们必须在所有方面都表现出色。”
为什么性能和更小的模型对企业 AI 很重要
企业可以使用多种方法来根据基准评估 LLM 的绩效。
IBM 采取的方向是让模型通过一系列学术和现实世界的测试。Cox 强调,IBM 测试并训练了其模型,以针对企业用例进行优化。性能不仅仅是某种抽象的速度衡量标准;相反,它是一种更细致入微的效率衡量标准。
IBM 致力于推动的效率的一个方面是帮助用户花费更少的时间获得期望的结果。
“你应该少花点时间在提示上,”考克斯说。“所以,某个领域的模型越强大,你花在设计提示上的时间就越少。”
效率还与模型大小有关。模型越大,通常需要的计算和 GPU 资源就越多,这也意味着成本更高。
“当人们进行最小可行原型工作时,他们通常会跳到非常大的模型,因此您可能会使用 700 亿参数模型或 4050 亿参数模型来构建原型,”考克斯说。“但现实情况是,其中许多都不经济,因此我们一直在尝试做的另一件事是将尽可能多的容量放入尽可能小的封装中。”
背景对于企业代理 AI 至关重要
除了承诺提高性能和效率之外,IBM 还大大扩展了 Granite 的上下文长度。
在最初的 Granite 3.0 版本中,上下文长度被限制为 4k。在 Granite 3.1 中,IBM 将其扩展到 128k,从而可以处理更长的文档。对于企业 AI 用户来说,扩展上下文是一项重大升级,无论是对于检索增强生成 (RAG) 还是对于代理 AI 而言都是如此。
代理型 AI 系统和 AI 代理通常需要处理和推理较长的信息序列,例如较大的文档、日志跟踪或扩展对话。增加的 128k 上下文长度使这些代理型 AI 系统能够访问更多的上下文信息,从而使它们能够更好地理解和响应复杂的查询或任务。
IBM 还发布了一系列嵌入模型,以帮助加速将数据转换为向量的过程。Granite-Embedding-30M-English 模型可以实现每查询 0.16 秒的性能,IBM 声称这比包括Snowflake 的 Arctic 在内的竞争对手更快。
IBM 如何改进 Granite 3.1 以满足企业 AI 需求
那么 IBM 是如何提高 Granite 3.1 性能的呢?Cox 解释道,这并不是某一个具体的事情,而是一系列的流程和技术创新。
他说,IBM 已经开发出越来越先进的多阶段训练管道。这使得该公司能够从模型中提取出更多的性能。此外,任何 LLM 培训的关键部分都是数据。IBM 不仅专注于增加训练数据的数量,还非常重视提高用于训练 Granite 模型的数据质量。
“这不是一个数量游戏,”考克斯说。“我们不可能出去获取 10 倍以上的数据,然后奇迹般地让模型变得更好。”
直接在模型中减少幻觉
降低 LLM 中出现幻觉和错误输出风险的常用方法是使用护栏。这些通常作为 LLM 的外部功能部署。
借助 Granite 3.1,IBM 将幻觉保护功能直接集成到模型中。Granite Guardian 3.1 8B 和 2B 型号现在包含函数调用幻觉检测功能。
考克斯说:“该模型可以自行设置护栏,这可以为开发人员提供不同的机会来捕捉事物。”
他解释说,在模型本身中进行幻觉检测可以优化整个流程。内部检测意味着更少的推理调用,从而使模型更高效、更准确。
企业目前如何使用 Granite 3.1,以及下一步该怎么做
新的 Granite 模型现在全部以开源形式免费提供给企业用户。这些模型也可通过 IBM 的 Watsonx 企业 AI 服务获取,并将集成到 IBM 的商业产品中。
该公司计划保持积极的步伐来更新 Granite 模型。展望未来,Granite 3.2 计划添加多模式功能,该功能将于 2025 年初首次亮相。
考克斯表示:“您将在接下来的几个版本中看到我们添加更多此类不同差异化的功能,这些功能将在明年的 IBM Think 大会上发布。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ibm-xi-wang-ping-jie-qi-xin-de-kai-yuan-granite-3-1-mo-xing