麻省理工学院衍生公司 Liquid 首次推出非变压器 AI 模型,它们已经是最先进的

麻省理工学院衍生公司 Liquid 首次推出非变压器 AI 模型,它们已经是最先进的

Liquid AI是一家由麻省理工学院 (MIT) 计算机科学与人工智能实验室 (CSAIL) 前研究人员共同创立的初创公司,该公司宣布推出其首批多模式 AI 模型:“液体基础模型 (LFM)”。与当前生成式人工智能浪潮中的大多数其他模型不同,这些模型并非基于2017 年开创性论文“注意力就是你所需要的”中概述的变压器架构。

相反,Liquid 表示其目标“是探索构建生成式预训练变压器 (GPT) 之外的基础模型的方法”,并使用新的 LFM,特别是从“第一原理……就像工程师制造发动机、汽车和飞机一样”构建。

看来他们已经做到了这一点——因为新的 LFM 模型已经比其他同等尺寸的基于变压器的模型拥有更优异的性能,例如 Meta 的 Llama 3.1-8B 和微软的 Phi-3.5 3.8B。

Liquid 的 LFM 目前有三种不同的尺寸和型号:

  • LFM 1.3B(最小)
  • 低频调速 3B
  • LFM 40B MoE(最大的,“混合专家”模型,类似于 Mistral 的 Mixtral)

其名称中的“B”代表十亿,指的是控制模型信息处理、分析和输出生成的参数(或设置)的数量。通常,参数数量越多的模型在更广泛的任务中就越有能力。

麻省理工学院衍生公司 Liquid 首次推出非变压器 AI 模型,它们已经是最先进的

Liquid AI 已经表示,LFM 1.3B 版本在许多领先的第三方基准测试中均优于Meta 的新 Llama 3.2-1.2B和微软的 Phi-1.5,其中包括流行的大规模多任务语言理解 (MMLU),其中包含 57 个涉及科学、技术、工程和数学 (STEM) 领域的问题,“这是非 GPT 架构首次显著优于基于 Transformer 的模型。”

这三款产品都旨在提供最先进的性能,同时优化内存效率,Liquid 的 LFM-3B 仅需要 16 GB 内存,而 Meta 的 Llama-3.2-3B 型号则需要超过 48 GB 内存(如上图所示)。

麻省理工学院衍生公司 Liquid 首次推出非变压器 AI 模型,它们已经是最先进的

Liquid AI 后期训练主管 Maxime Labonne在 X 上表示, LFM 是“我职业生涯中最自豪的版本 :)”,并澄清了 LFM 的核心优势:它们能够超越基于 Transformer 的模型,同时占用更少的内存。

这些模型不仅在原始性能基准方面具有竞争力,而且在运营效率方面也具有竞争力,使其成为各种用例的理想选择,从金融服务、生物技术和消费电子领域的企业级应用程序到边缘设备上的部署。

然而,对于潜在用户和客户来说,重要的是,这些模型不是开源的。相反,用户需要通过Liquid 的推理游乐场、Lambda Chat或Perplexity AI来访问它们。

Liquid 如何“超越”生成式预训练转换器 (GPT)

在这种情况下,Liquid 表示它使用了“深深植根于动态系统、信号处理和数值线性代数理论的计算单元”的混合,结果是“可用于建模任何类型序列数据的通用 AI 模型,包括视频、音频、文本、时间序列和信号”来训练其新的 LFM。

去年报道了 Liquid训练后变换器 AI 模型的方法,当时指出它正在使用 Liquid 神经网络 (LNN),这是 CSAIL 的架构开发商,旨在使用于转换数据的人工“神经元”或节点更加高效和适应性更强。

与需要数千个神经元来执行复杂任务的传统深度学习模型不同,LNN 证明,结合创新的数学公式,更少的神经元就可以实现相同的结果。

Liquid AI 的新模型保留了这种适应性的核心优势,允许在推理过程中进行实时调整,而无需与传统模型相关的计算开销,高效处理多达 100 万个标记,同时将内存使用量降至最低。

Liquid 博客中的一张图表显示,LFM-3B 模型在推理内存占用方面优于谷歌的 Gemma-2、微软的 Phi-3 和 Meta 的 Llama-3.2 等流行模型,尤其是在标记长度扩展方面。

麻省理工学院衍生公司 Liquid 首次推出非变压器 AI 模型,它们已经是最先进的

虽然其他模型在长上下文处理中内存使用量急剧增加,但 LFM-3B 的占用空间却明显较小,因此非常适合需要大量顺序数据处理的应用程序,例如文档分析或聊天机器人。

Liquid AI 已经建立了其基础模型,可以灵活地处理多种数据模式,包括音频、视频和文本。

凭借这种多模式能力,Liquid 旨在解决从金融服务到生物技术和消费电子产品等广泛的行业特定挑战。

接受发布会邀请并着眼于未来的改进

Liquid AI 表示正在优化其模型,以便部署在 NVIDIA、AMD、Apple、Qualcomm 和 Cerebras 的硬件上。

虽然模型仍处于预览阶段,但 Liquid AI 邀请早期采用者和开发人员测试模型并提供反馈。

Labonne 指出,虽然事情“并不完美”,但在此阶段收到的反馈将有助于团队改进他们的产品,为 2024 年 10 月 23 日在马萨诸塞州剑桥市麻省理工学院克雷斯基礼堂举行的全面发布会做准备。该公司将在此处接受现场出席该活动的人员的回复。

作为对透明度和科学进步的承诺的一部分,Liquid 表示将在产品发布会前发布一系列技术博客文章。

该公司还计划开展红队行动,鼓励用户测试其模型的极限,以改进未来的迭代。

随着 Liquid Foundation 模型的推出,Liquid AI 将自己定位为基础模型领域的关键参与者。通过将最先进的性能与前所未有的内存效率相结合,LFM 为传统的基于 Transformer 的模型提供了引人注目的替代方案。

原创文章,作者:wang, jinchang,如若转载,请注明出处:https://www.dian8dian.com/ma-sheng-li-gong-xue-yuan-yan-sheng-gong-si-liquid-shou-ci

Like (0)
wang, jinchang的头像wang, jinchang作者
Previous 2024年10月3日 下午12:00
Next 2024年10月3日 下午2:00

相关推荐

发表回复

Please Login to Comment