小型 AI 模型需求激增,阿联酋猎鹰 3 号向开源领导者发起挑战

小型 AI 模型需求激增,阿联酋猎鹰 3 号向开源领导者发起挑战

阿联酋政府支持的技术创新研究所(TII) 宣布推出 Falcon 3,这是一系列开源小型语言模型 (SLM),旨在在轻量级、基于单 GPU 的基础设施上高效运行。

Falcon 3 有四种模型尺寸——1B、3B、7B 和 10B,包括基础和指令变体,有望让开发人员、研究人员和企业能够民主化地使用高级 AI 功能。根据 Hugging Face 排行榜,这些模型的表现已经超越或接近同尺寸级别的热门开源模型,包括 Meta 的 Llama 和类别领导者 Qwen-2.5。

这一发展正值对 SLM 的需求迅速增长之际。SLM具有比 LLM 更少的参数和更简单的设计,因为它们效率高、价格低廉,并且能够部署在资源有限的设备上。它们适用于客户服务、医疗保健、移动应用和物联网等行业的一系列应用,而典型的 LLM 在这些行业中可能计算成本过高,无法有效运行。根据Valuates Reports 的数据,这些模型的市场预计将增长,未来五年的复合年增长率接近 18%。

Falcon 3 带来了什么?

Falcon 3 系列使用 14 万亿个 token 进行训练(数量是其前身 Falcon 2 的两倍多),采用仅解码器架构,并采用分组查询注意机制,以共享参数并在推理过程中最大限度地减少键值 (KV) 缓存的内存使用量。这在处理各种基于文本的任务时可以实现更快、更高效的操作。

从本质上讲,这些模型支持四种主要语言——英语、法语、西班牙语和葡萄牙语,并配备 32K 上下文窗口,使它们能够处理长输入,例如措辞繁重的文档。

TII 在其网站上指出:“Falcon 3 用途广泛,既可用于通用任务,也可用于专业任务,为用户提供了极大的灵活性。其基础模型非常适合生成应用程序,而指令变体则在客户服务或虚拟助手等对话任务方面表现出色。

根据Hugging Face 上的排行榜,虽然四款 Falcon 3 型号的表现都相当出色,但 10B 和 7B 版本才是亮点,在推理、语言理解、指令遵循、代码和数学任务上取得了最先进的成绩。 

在 13B 参数规模的模型中,Falcon 3 的 10B 和 7B 版本的表现优于竞争对手,包括谷歌Gemma 2-9B、Meta 的 Llama 3.1-8B、Mistral-7B和 Yi 1.5-9B。它们甚至在大多数基准测试中超越了阿里巴巴的类别领导者 Qwen 2.5-7B,例如 MUSR、MATH、GPQA 和 IFEval,但 MMLU 除外,MMLU 是用于评估语言模型对人类语言的理解和处理能力的测试。

小型 AI 模型需求激增,阿联酋猎鹰 3 号向开源领导者发起挑战

跨行业部署

随着 Falcon 3 模型现已在Hugging Face上推出,TII 旨在为广泛的用户提供服务,实现经济高效的 AI 部署,而不会出现计算瓶颈。这些模型能够快速处理特定领域的任务,可以为边缘和隐私敏感环境中的各种应用提供支持,包括客户服务聊天机器人、个性化推荐系统、数据分析、欺诈检测、医疗诊断、供应链优化和教育。

该研究所还计划通过推出具有多式联运功能的机型来进一步扩大 Falcon 系列。这些机型预计将于 2025 年 1 月左右推出。

值得注意的是,所有模型均根据 TII Falcon License 2.0 发布,这是一个基于 Apache 2.0 的宽松许可证,具有可接受的使用政策,鼓励负责任的 AI 开发和部署。为了帮助用户入门,TII 还推出了 Falcon Playground,这是一个测试环境,研究人员和开发人员可以在将 Falcon 3 模型集成到他们的应用程序中之前试用它们。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/xiao-xing-ai-mo-xing-xu-qiu-ji-zeng-a-lian-qiu-lie-ying-3

Like (0)
王 浩然的头像王 浩然作者
Previous 4天前
Next 4天前

相关推荐

发表回复

Please Login to Comment