随着有关顶级人工智能公司在开发更新、更强大的大型语言模型 (LLM) 方面面临困难的谣言和报道不断流传,人们的注意力越来越多地转向“Transformer”的替代架构——这是支撑当前生成式人工智能热潮的大部分技术,由谷歌研究人员在 2017 年的开创性论文“注意力就是你所需要的一切”中提出。
正如该论文及后续文章所描述的,Transformer 是一种处理序列数据(例如文本或时间序列信息)的深度学习神经网络架构。
现在,麻省理工学院诞生的初创公司 Liquid AI推出了 STAR(定制架构合成),这是一个旨在自动生成和优化 AI 模型架构的创新框架。
STAR 框架利用进化算法和数字编码系统来解决深度学习模型中平衡质量和效率的复杂挑战。
根据 Liquid AI 的研究团队(包括 Armin W. Thomas、Rom Parnichkun、Alexander Amini、Stefano Massaroli 和 Michael Poli)的说法,STAR 的方法代表着传统建筑设计方法的转变。
STAR 不依赖于手动调整或预定义模板,而是使用分层编码技术(称为“STAR 基因组”)来探索潜在架构的广阔设计空间。
这些基因组支持重组和突变等迭代优化过程,使得 STAR 能够合成和改进针对特定指标和硬件要求的架构。
与传统 ML Transformers 相比,缓存大小减少了 90%
Liquid AI 对 STAR 的最初关注点是自回归语言建模,而传统的 Transformer 架构长期以来一直占据主导地位。
在研究期间进行的测试中,Liquid AI 研究团队展示了 STAR 生成架构的能力,其性能始终优于高度优化的 Transformer++ 和混合模型。
例如,在优化质量和缓存大小时,STAR 演化架构与混合模型相比实现了高达 37% 的缓存大小减少,与 Transformers 相比则减少了 90%。尽管效率有所提高,但 STAR 生成的模型仍保持甚至超过了同类模型的预测性能。
类似地,在优化模型质量和大小时,STAR 将参数数量减少了多达 13%,同时仍提高了标准基准测试的性能。
该研究还强调了 STAR 扩展其设计的能力。STAR 演化模型的参数从 1.25 亿扩展到 10 亿,其结果与现有的 Transformer++ 和混合模型相当甚至更优,同时显著降低了推理缓存要求。
重新构建人工智能模型架构
Liquid AI 表示,STAR 植根于一种融合了动力系统、信号处理和数值线性代数原理的设计理论。
这种基础方法使团队能够为计算单元开发一个多功能的搜索空间,涵盖注意力机制、递归和卷积等组件。
STAR 的一大特色是其模块化,允许框架跨多个层次对架构进行编码和优化。此功能可深入了解重复出现的设计主题,并使研究人员能够确定架构组件的有效组合。
STAR 的下一步计划是什么?
STAR 能够合成高效、高性能的架构,其潜在应用范围远超语言建模。Liquid AI 设想利用该框架应对各个领域的挑战,在这些领域中,质量和计算效率之间的权衡至关重要。
虽然 Liquid AI 尚未公布具体的商业部署或定价计划,但研究结果标志着自动化架构设计领域的重大进步。对于希望优化 AI 系统的研究人员和开发人员来说,STAR 可能是一个强大的工具,可以突破模型性能和效率的界限。
Liquid AI 以其开放的研究方法,在同行评审的论文中发表了 STAR 的全部细节,鼓励合作和进一步创新。随着人工智能领域的不断发展,像 STAR 这样的框架将在塑造下一代智能系统中发挥关键作用。STAR 甚至可能预示着新的后 Transformer 架构热潮的诞生——这对机器学习和人工智能研究界来说是一个受欢迎的冬季节日礼物。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/liquid-ai-de-xin-star-mo-xing-jia-gou-bi-transformer-xiao