随着企业继续在各种应用中采用大型语言模型 (LLM),他们面临的关键挑战之一是提高模型的事实知识并减少幻觉。在一篇新论文中,Meta AI的研究人员提出了“可扩展的内存层”,这可能是解决此问题的几种可能解决方案之一。
可扩展内存层为 LLM 添加更多参数,以增加其学习能力,而无需额外的计算资源。该架构适用于可以为事实知识留出额外内存但又希望获得更灵活模型的推理速度的应用程序。
密集层和记忆层
传统语言模型使用“密集层”将大量信息编码到其参数中。在密集层中,所有参数都得到充分利用,并且在推理过程中大部分同时激活。密集层可以学习复杂的函数,而增加这些函数需要额外的计算和能源资源。
相比之下,对于简单的事实知识,具有联想记忆架构的更简单的层将更高效且更易于解释。这就是记忆层的作用。它们使用简单的稀疏激活和键值查找机制来编码和检索知识。稀疏层比密集层占用更多内存,但一次只使用一小部分参数,这使得它们的计算效率更高。
内存层已存在多年,但在现代深度学习架构中很少使用。它们并未针对当前的硬件加速器进行优化。
当前前沿的 LLM 通常使用某种形式的“专家混合”(MoE)架构,该架构使用一种与记忆层略微相似的机制。MoE 模型由许多专门从事特定任务的较小专家组件组成。在推理时,路由机制根据输入序列确定哪个专家被激活。PEER是Google DeepMind 最近开发的一种架构,它将 MoE 扩展到数百万位专家,从而对推理过程中被激活的参数提供更精细的控制。
升级内存层
内存层计算量小但内存量大,这对当前的硬件和软件框架提出了特定挑战。Meta 研究人员在论文中提出了几项修改方案,以解决这些挑战并使其能够大规模使用。
首先,研究人员将内存层配置为并行化,将它们分布在多个 GPU 上,以存储数百万个键值对,而无需更改模型中的其他层。他们还实现了一个特殊的 CUDA 内核来处理高内存带宽操作。此外,他们开发了一种参数共享机制,支持模型中多个内存层之间的一组内存参数。这意味着用于查找的键和值是跨层共享的。
这些修改使得在 LLM 中实现内存层成为可能,而不会减慢模型速度。
研究人员写道:“具有稀疏激活的记忆层很好地补充了密集网络,在计算量较少的情况下提高了知识获取能力。它们可以高效扩展,并为从业者提供了一个有吸引力的新方向,即在内存和计算之间进行权衡。”
Meta 的内存层实际作用
为了测试记忆层,研究人员修改了Llama 模型,用共享记忆层替换了一个或多个密集层。他们在多项任务上比较了记忆增强模型与密集 LLM 以及 MoE 和 PEER 模型,包括事实问题回答、科学和常识世界知识以及编码。
他们的发现表明,记忆模型在密集基线上有显著改进,可以与使用 2 至 4 倍计算量的模型相媲美。它们的性能也与具有相同计算预算和参数数量的 MoE 模型相当。该模型的性能在需要事实知识的任务上尤其突出。例如,在事实问答方面,具有 13 亿个参数的记忆模型的性能接近 Llama-2-7B,后者的训练令牌数量是 Llama-2-7B 的两倍,计算量是 Llama-2-7B 的 10 倍。
此外,研究人员发现,当实验从 1.34 亿个参数扩大到 80 亿个参数时,记忆模型的优势与模型大小保持一致。
“鉴于这些发现,我们强烈主张将记忆层集成到所有下一代人工智能架构中,”研究人员写道,同时补充说还有很大的改进空间。“特别是,我们希望能够开发新的学习方法,进一步提高这些层的有效性,减少遗忘、减少幻觉,并实现持续学习。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/meta-ti-chu-xin-de-ke-kuo-zhan-ji-yi-ceng-ke-ti-gao-zhi-shi