随着对大型语言模型 (LLM) 的需求不断增长,确保快速、高效且可扩展的推理变得比以往任何时候都更加重要。NVIDIA 的TensorRT-LLM通过提供一套专为 LLM 推理设计的强大工具和优化来解决这一挑战。TensorRT-LLM 提供了一系列令人印象深刻的性能改进,例如量化、内核融合、动态批处理和多 GPU 支持。这些进步使得推理速度比传统的基于 CPU 的方法快 8 倍,从而改变了我们在生产中部署 LLM 的方式。
本综合指南将探索 TensorRT-LLM 的各个方面,从其架构和主要功能到部署模型的实际示例。无论您是 AI 工程师、软件开发人员还是研究人员,本指南都将为您提供利用 TensorRT-LLM 优化 NVIDIA GPU 上的 LLM 推理的知识。
使用 TensorRT-LLM 加速 LLM 推理
TensorRT-LLM 显著提升了 LLM 推理性能。根据 NVIDIA 的测试,基于 TensorRT 的应用程序的推理速度比仅使用 CPU 的平台快 8 倍。这对于需要快速响应的实时应用程序(例如聊天机器人、推荐系统和自主系统)来说是一项至关重要的进步。
工作原理
TensorRT-LLM 通过在部署期间使用以下技术优化神经网络来加快推理速度:
- 量化:降低权重和激活的精度,缩小模型尺寸并提高推理速度。
- 层和张量融合:将激活函数和矩阵乘法等操作合并为单个操作。
- 内核调整:为 GPU 计算选择最佳的 CUDA 内核,从而减少执行时间。
这些优化可确保您的 LLM 模型在各种部署平台(从超大规模数据中心到嵌入式系统)上高效运行。
使用 TensorRT 优化推理性能
TensorRT 基于 NVIDIA 的 CUDA 并行编程模型构建,为 NVIDIA GPU 上的推理提供高度专业化的优化。通过简化量化、内核调整和张量运算融合等流程,TensorRT 可确保 LLM 能够以最小的延迟运行。
一些最有效的技术包括:
- 量化:在保持较高准确度的同时降低模型参数的数值精度,有效加快推理速度。
- 张量融合:通过将多个操作融合到单个 CUDA 内核中,TensorRT 最大限度地减少了内存开销并提高了吞吐量。
- 内核自动调整:TensorRT 为每个操作自动选择最佳内核,针对给定的 GPU 优化推理。
这些技术使 TensorRT-LLM 能够优化深度学习任务(例如自然语言处理、推荐引擎和实时视频分析)的推理性能。
使用 TensorRT 加速 AI 工作负载
TensorRT 通过整合INT8和FP16等精度优化来加速深度学习工作负载。这些精度较低的格式可以在保持准确性的同时显著加快推理速度。这在低延迟是关键要求的实时应用中尤其有价值。
INT8和FP16优化在以下方面特别有效:
- 视频流:这些优化可减少处理帧所需的时间,从而使基于人工智能的视频处理任务(例如物体检测)受益。
- 推荐系统:通过加速处理大量用户数据的模型的推理,TensorRT 实现大规模实时个性化。
- 自然语言处理 (NLP):TensorRT 提高了文本生成、翻译和摘要等 NLP 任务的速度,使其适用于实时应用。
使用 NVIDIA Triton 进行部署、运行和扩展
使用 TensorRT-LLM 优化模型后,您可以使用NVIDIA Triton 推理服务器轻松部署、运行和扩展模型。Triton 是一款支持动态批处理、模型集成和高吞吐量的开源软件。它为大规模管理 AI 模型提供了灵活的环境。
一些主要功能包括:
- 并发模型执行:同时运行多个模型,最大限度地提高 GPU 利用率。
- 动态批处理:将多个推理请求合并为一个批次,从而减少延迟并提高吞吐量。
- 流音频/视频输入:支持实时应用程序中的输入流,例如实时视频分析或语音转文本服务。
这使得 Triton 成为在生产环境中部署 TensorRT-LLM 优化模型的宝贵工具,确保高可扩展性和效率。
TensorRT-LLM 用于 LLM 推理的核心功能
开源 Python API
TensorRT-LLM 提供高度模块化和开源的 Python API,简化了定义、优化和执行 LLM 的过程。该 API 使开发人员能够创建自定义 LLM 或修改预构建的 LLM 以满足他们的需求,而无需深入了解 CUDA 或深度学习框架。
飞行批处理和分页注意力机制
TensorRT-LLM 的突出功能之一是In-Flight Batching,它通过同时处理多个请求来优化文本生成。此功能通过动态批处理序列最大限度地减少了等待时间并提高了 GPU 利用率。
此外,分页注意力机制可确保即使在处理较长的输入序列时,内存使用率也能保持在较低水平。分页注意力机制不会为所有 token 分配连续的内存,而是将内存划分为可动态重用的“页面”,从而防止内存碎片化并提高效率。
多 GPU 和多节点推理
对于更大的模型或更复杂的工作负载,TensorRT-LLM 支持多 GPU和多节点推理。此功能允许将模型计算分布在多个 GPU 或节点上,从而提高吞吐量并减少总体推理时间。
FP8 支持
随着FP8 (8 位浮点)的出现,TensorRT-LLM 利用 NVIDIA 的 H100 GPU 将模型权重转换为这种格式,以优化推理。FP8 可以减少内存消耗并加快计算速度,这在大规模部署中尤其有用。
TensorRT-LLM 架构和组件
了解 TensorRT-LLM 的架构将有助于您更好地利用其 LLM 推理功能。让我们分解一下关键组件:
模型定义
TensorRT-LLM 允许您使用简单的 Python API 定义 LLM。该 API 构建模型的图形表示,从而更轻松地管理 GPT 或 BERT 等 LLM 架构中涉及的复杂层。
重量绑定
在编译模型之前,必须将权重(或参数)绑定到网络。此步骤可确保权重嵌入 TensorRT 引擎中,从而实现快速高效的推理。TensorRT-LLM 还允许在编译后更新权重,为需要频繁更新的模型增加了灵活性。
模式匹配与融合
运算融合是 TensorRT-LLM 的另一个强大功能。通过将多个运算(例如,矩阵乘法与激活函数)融合到单个 CUDA 内核中,TensorRT 可最大限度地减少与多个内核启动相关的开销。这减少了内存传输并加快了推理速度。
插件
为了扩展 TensorRT 的功能,开发人员可以编写插件——执行特定任务(如优化多头注意力模块)的自定义内核。例如,Flash-Attention插件可显著提高 LLM 注意力层的性能。
基准测试:TensorRT-LLM 性能提升
TensorRT-LLM 在各种 GPU 上都表现出了显著的 LLM 推理性能提升。以下是使用 TensorRT-LLM 在不同的 NVIDIA GPU 上进行的推理速度(以每秒令牌数为单位)的比较:
模型 | 精确 | 输入/输出长度 | H100(80GB) | A100(80GB) | L40S FP8 |
---|---|---|---|---|---|
通用动力6B | 第八框架 | 128/128 | 34,955 | 11,206 | 6,998 |
通用动力6B | 第八框架 | 2048/128 | 2,800 | 1,354 | 747 |
美洲豹 v2 7B | 第八框架 | 128/128 | 16,985 | 10,725 | 6,121 |
法拉玛 v3 8B | 第八框架 | 128/128 | 16,708 | 12,085 | 8,273 |
这些基准测试表明,TensorRT-LLM 在性能上取得了显著的进步,特别是对于较长的序列。
实践:安装和构建 TensorRT-LLM
步骤 1:创建容器环境
为了方便使用,TensorRT-LLM 提供了 Docker 镜像来创建构建和运行模型的受控环境。
docker build --pull
--target devel
--file docker/Dockerfile.multi
--tag tensorrt_llm/devel:latest .
步骤 2:运行容器
运行可以访问 NVIDIA GPU 的开发容器:
docker run --rm -it
--ipc=host --ulimit memlock=-1 --ulimit stack=67108864 --gpus=all
--volume ${PWD}:/code/tensorrt_llm
--workdir /code/tensorrt_llm
tensorrt_llm/devel:latest
步骤 3:从源代码构建 TensorRT-LLM
在容器内,使用以下命令编译 TensorRT-LLM:
python3 ./scripts/build_wheel.py --trt_root /usr/local/tensorrt
pip install ./build/tensorrt_llm*.whl
当您想要避免与 Python 依赖项相关的兼容性问题或专注于生产系统中的 C++ 集成时,此选项特别有用。构建完成后,您将在目录中找到 C++ 运行时的已编译库cpp/build/tensorrt_llm
,可将其与您的 C++ 应用程序集成。
步骤 4:链接 TensorRT-LLM C++ 运行时
将 TensorRT-LLM 集成到 C++ 项目中时,请确保项目的包含路径指向该cpp/include
目录。其中包含稳定、受支持的 API 标头。TensorRT-LLM 库作为 C++ 编译过程的一部分进行链接。
例如,您的项目的 CMake 配置可能包括:
include_directories(${TENSORRT_LLM_PATH}/cpp/include)
link_directories(${TENSORRT_LLM_PATH}/cpp/build/tensorrt_llm)
target_link_libraries(your_project tensorrt_llm)
通过这种集成,您可以在自定义 C++ 项目中利用 TensorRT-LLM 优化,确保即使在低级或高性能环境中也能进行高效推理。
TensorRT-LLM 的高级功能
TensorRT-LLM 不仅仅是一个优化库;它包含几个有助于解决大规模 LLM 部署的高级功能。下面,我们将详细探讨其中一些功能:
1.飞行中配料
传统批处理需要等到批次完全收集后才能进行处理,这可能会导致延迟。动态批处理通过动态启动对批次内已完成请求的推理来改变这种情况,同时仍收集其他请求。这通过最大限度地减少空闲时间和提高 GPU 利用率来提高整体吞吐量。
此功能在实时应用程序中尤其有价值,例如聊天机器人或语音助手,因为响应时间至关重要。
2.分页注意力
分页注意力是一种用于处理大型输入序列的内存优化技术。分页注意力不需要为序列中的所有标记分配连续的内存(这可能会导致内存碎片化),而是允许模型将键值缓存数据拆分为“内存页面”。这些页面会根据需要动态分配和释放,从而优化内存使用率。
分页注意力对于处理大序列长度和减少内存开销至关重要,特别是在 GPT 和 LLaMA 等生成模型中。
3.自定义插件
TensorRT-LLM 允许您使用自定义插件扩展其功能。插件是用户定义的内核,可实现标准 TensorRT 库未涵盖的特定优化或操作。
例如,Flash-Attention插件是一个著名的自定义内核,可优化基于 Transformer 的模型中的多头注意力层。通过使用此插件,开发人员可以大幅加快注意力计算的速度,而注意力计算是 LLM 中最耗费资源的组件之一。
要将自定义插件集成到 TensorRT-LLM 模型中,您可以编写自定义 CUDA 内核并将其注册到 TensorRT。该插件将在模型执行期间调用,提供量身定制的性能改进。
4.NVIDIA H100 上的 FP8 精度
凭借FP8 精度,TensorRT-LLM 充分利用了 NVIDIA 在H100 Hopper 架构中的最新硬件创新。FP8 通过以 8 位浮点格式存储权重和激活来减少 LLM 的内存占用,从而在不牺牲太多精度的情况下实现更快的计算速度。TensorRT-LLM 自动编译模型以利用优化的 FP8 内核,进一步加快推理时间。
这使得 TensorRT-LLM 成为需要顶级性能和能源效率的大规模部署的理想选择。
示例:使用 Triton 推理服务器部署 TensorRT-LLM
对于生产部署,NVIDIA 的Triton 推理服务器提供了一个强大的平台来管理大规模模型。在此示例中,我们将演示如何使用 Triton 部署 TensorRT-LLM 优化模型。
步骤 1:设置模型存储库
为 Triton 创建一个模型存储库,它将存储您的 TensorRT-LLM 模型文件。例如,如果您编译了 GPT2 模型,您的目录结构可能如下所示:
mkdir -p model_repository/gpt2/1
cp ./trt_engine/gpt2_fp16.engine model_repository/gpt2/1/
步骤2:创建Triton配置文件
在同一model_repository/gpt2/
目录中,创建一个名为的配置文件config.pbtxt
,告诉 Triton 如何加载和运行模型。以下是 TensorRT-LLM 的基本配置:
name: "gpt2"
platform: "tensorrt_llm"
max_batch_size: 8
input [
{
name: "input_ids"
data_type: TYPE_INT32
dims: [-1]
}
]
output [
{
name: "logits"
data_type: TYPE_FP32
dims: [-1, -1]
}
]
步骤 3:启动 Triton 服务器
使用以下 Docker 命令通过模型存储库启动 Triton:
docker run --rm --gpus all
-v $(pwd)/model_repository:/models
nvcr.io/nvidia/tritonserver:23.05-py3
tritonserver --model-repository=/models
步骤 4:向 Triton 发送推理请求
一旦 Triton 服务器运行,您就可以使用 HTTP 或 gRPC 向其发送推理请求。例如,使用curl
发送请求:
curl -X POST http://localhost:8000/v2/models/gpt2/infer -d '{
"inputs": [
{"name": "input_ids", "shape": [1, 128], "datatype": "INT32", "data": [[101, 234, 1243]]}
]
}'
Triton 将使用 TensorRT-LLM 引擎处理请求并返回 logits 作为输出。
使用 TensorRT-LLM 优化 LLM 推理的最佳实践
为了充分利用 TensorRT-LLM 的强大功能,在模型优化和部署过程中遵循最佳实践非常重要。以下是一些关键提示:
1.优化之前先分析一下模型
在应用量化或内核融合等优化之前,请使用 NVIDIA 的分析工具(如 Nsight Systems 或 TensorRT Profiler)了解模型执行中的当前瓶颈。这可让您针对特定的改进领域,从而实现更有效的优化。
2.使用混合精度获得最佳性能
使用 TensorRT-LLM 优化模型时,使用混合精度(FP16 和 FP32 的组合)可显著提高速度,同时不会大幅降低准确度。为了在速度和准确度之间取得最佳平衡,请考虑在可用的情况下使用 FP8,尤其是在 H100 GPU 上。
3.利用分页注意力机制处理大型序列
对于涉及长输入序列的任务(例如文档摘要或多轮对话),请始终启用分页注意力以优化内存使用率。这可减少内存开销并防止推理期间出现内存不足错误。
4.微调多 GPU 设置的并行性
在多个 GPU 或节点上部署 LLM 时,必须微调张量并行性和流水线并行性的设置以匹配您的特定工作负载。正确配置这些模式可以通过在 GPU 之间均匀分配计算负载来显著提高性能。
结论
TensorRT-LLM 代表了优化和部署大型语言模型的范式转变。凭借其量化、操作融合、FP8 精度和多 GPU 支持等高级功能,TensorRT-LLM 使 LLM 能够在 NVIDIA GPU 上更快、更高效地运行。无论您是在开发实时聊天应用程序、推荐系统还是大型语言模型,TensorRT-LLM 都能提供突破性能界限所需的工具。
本指南将指导您设置 TensorRT-LLM、使用其 Python API 优化模型、在 Triton 推理服务器上部署以及应用最佳实践以实现高效推理。借助 TensorRT-LLM,您可以加速 AI 工作负载、减少延迟并为生产环境提供可扩展的 LLM 解决方案。
原创文章,作者:AI评测师,如若转载,请注明出处:https://www.dian8dian.com/tensorrtllm-you-hua-da-xing-yu-yan-mo-xing-tui-li-yi-shi