量化是提高人工智能模型效率的最广泛使用的技术之一,但它也存在局限性,而业界可能很快就会接近这些局限性。
在人工智能的背景下,量化是指降低表示信息所需的位数(计算机可以处理的最小单位)。考虑一下这个类比:当有人问时间时,你可能会说“中午”——而不是“哦,一千二百一秒四毫秒”。这就是量化;两个答案都是正确的,但其中一个稍微精确一些。你实际需要多少精度取决于具体情况。
AI 模型由几个可以量化的组件组成,特别是参数,即模型用于进行预测或决策的内部变量。考虑到模型在运行时要执行数百万次计算,这很方便。量化模型用较少的位来表示其参数,在数学上要求较低,因此在计算上要求也较低。(需要明确的是,这是一个不同于“提炼”的过程,后者是一种更复杂、更有选择性的参数修剪。)
但量化可能有比以前假设的更多的权衡。
不断缩小的模型
根据哈佛大学、斯坦福大学、麻省理工学院、Databricks 和卡内基梅隆大学的研究人员的一项研究,如果对原始的未量化模型版本进行长时间的大量数据训练,量化模型的表现会更差。换句话说,在某个时候,训练一个较小的模型可能比精简一个大模型更好。
对于那些训练极大模型(已知可以提高答案质量)并对其进行量化以降低服务成本的人工智能公司来说,这可能是个坏消息。
其影响已经显现。几个月前,开发人员和学者报告称,与其他模型相比,量化 Meta 的Llama 3模型往往“更具危害性”,这可能是由于其训练方式所致。
哈佛大学数学系学生、论文第一作者 Tanishq Kumar 向 TechCrunch 表示:“在我看来,人工智能领域每个人面临的最大成本现在是、将来也将继续是推理,而我们的工作表明,降低推理成本的一个重要方法不会永远有效。”
与普遍看法相反,人工智能模型推理(运行模型,例如ChatGPT回答问题时)通常比模型训练成本更高。例如,谷歌花费约1.91 亿美元来训练其旗舰Gemini模型之一——这无疑是一笔巨款。但如果该公司使用模型为一半的谷歌搜索查询生成 50 字答案,每年将花费约60 亿美元。
主要的人工智能实验室都采用了基于海量数据集的训练模型,认为“扩大规模”——增加训练中使用的数据量和计算量——将使人工智能的能力越来越强。
例如,Meta 用 15 万亿个 token 训练了 Llama 3。(Token代表原始数据位;100 万个 token 相当于约 75 万个单词。)上一代 Llama 2 仅用 2 万亿个 token 进行训练。12 月初,Meta 发布了一款新型号 Llama 3.3 70B,该公司称其“以显著降低的成本提高了核心性能”。
有证据表明,规模扩大最终会带来收益递减;据报道, Anthropic 和 Google最近训练了庞大的模型,但这些模型未能达到内部基准预期。但几乎没有迹象表明,该行业已准备好真正摆脱这些根深蒂固的规模化方法。
那么到底有多精确呢?
那么,如果实验室不愿意在较小的数据集上训练模型,有没有办法让模型更不容易退化呢?有可能。Kumar 说,他和合著者发现,以“低精度”训练模型可以使它们更加稳健。请耐心等待片刻,我们将深入探讨一下。
这里的“精度”是指数值数据类型可以准确表示的位数。数据类型是数据值的集合,通常由一组可能的值和允许的操作指定;例如,数据类型 FP8 仅使用 8 位来表示浮点数。
目前,大多数模型都是以 16 位或“半精度”进行训练,并在“训练后量化”为 8 位精度。某些模型组件(例如其参数)会转换为较低精度格式,但会牺牲一些精度。这就像将数学运算精确到小数点后几位,然后四舍五入到最接近的 10 位,这通常会让您兼得两全其美。
Nvidia 等硬件供应商正在推动量化模型推理的低精度化。该公司的新款 Blackwell 芯片支持 4 位精度,具体来说是一种称为 FP4 的数据类型;Nvidia 将其视为内存和功率受限的数据中心的福音。
但极低的量化精度可能并不理想。Kumar 表示,除非原始模型的参数数量非常大,否则低于 7 位或 8 位的精度可能会明显降低质量。
如果这一切看起来有点技术性,别担心——确实如此。但关键在于,人工智能模型尚未完全被理解,已知的捷径在多种计算中都行不通。如果有人问他们什么时候开始 100 米短跑,你不会说“中午”,对吧?当然,这并不那么明显,但想法是一样的:
“我们工作的关键点在于,有些限制是无法轻易绕过的,”Kumar 总结道。“我们希望我们的工作能够为经常寻求越来越低的训练和推理精度默认值的讨论增添一些细节。”
Kumar 承认,他和同事的研究规模相对较小——他们计划在未来用更多模型进行测试。但他相信至少有一个观点是成立的:在降低推理成本方面,没有免费的午餐。
“比特精度很重要,而且不是免费的,”他说。“你不能永远降低它,否则模型就会受到影响。模型的容量是有限的,所以我认为,与其试图将千万亿个标记放入一个小模型中,不如将更多的精力投入到细致的数据管理和过滤中,这样只有最高质量的数据才能放入较小的模型中。我乐观地认为,旨在使低精度训练稳定的新架构在未来将发挥重要作用。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/yi-zhong-ti-gao-ren-gong-zhi-neng-xiao-lyu-de-liu-xing-ji