TensorRT-LLM：优化大型语言模型推理以实现最佳性能的综合指南

AI评测师 • 2024年9月14日下午8:00 • 技术评测 • 317 views

随着对大型语言模型 (LLM) 的需求不断增长，确保快速、高效且可扩展的推理变得比以往任何时候都更加重要。NVIDIA 的TensorRT-LLM通过提供一套专为 LLM 推理设计的强大工具和优化来解决这一挑战。TensorRT-LLM 提供了一系列令人印象深刻的性能改进，例如量化、内核融合、动态批处理和多 GPU 支持。这些进步使得推理速度比传统的基于 CPU 的方法快 8 倍，从而改变了我们在生产中部署 LLM 的方式。

本综合指南将探索 TensorRT-LLM 的各个方面，从其架构和主要功能到部署模型的实际示例。无论您是 AI 工程师、软件开发人员还是研究人员，本指南都将为您提供利用 TensorRT-LLM 优化 NVIDIA GPU 上的 LLM 推理的知识。

使用 TensorRT-LLM 加速 LLM 推理

TensorRT-LLM 显著提升了 LLM 推理性能。根据 NVIDIA 的测试，基于 TensorRT 的应用程序的推理速度比仅使用 CPU 的平台快 8 倍。这对于需要快速响应的实时应用程序（例如聊天机器人、推荐系统和自主系统）来说是一项至关重要的进步。

工作原理

TensorRT-LLM 通过在部署期间使用以下技术优化神经网络来加快推理速度：

量化：降低权重和激活的精度，缩小模型尺寸并提高推理速度。
层和张量融合：将激活函数和矩阵乘法等操作合并为单个操作。
内核调整：为 GPU 计算选择最佳的 CUDA 内核，从而减少执行时间。

这些优化可确保您的 LLM 模型在各种部署平台（从超大规模数据中心到嵌入式系统）上高效运行。

使用 TensorRT 优化推理性能

TensorRT 基于 NVIDIA 的 CUDA 并行编程模型构建，为 NVIDIA GPU 上的推理提供高度专业化的优化。通过简化量化、内核调整和张量运算融合等流程，TensorRT 可确保 LLM 能够以最小的延迟运行。

一些最有效的技术包括：

量化：在保持较高准确度的同时降低模型参数的数值精度，有效加快推理速度。
张量融合：通过将多个操作融合到单个 CUDA 内核中，TensorRT 最大限度地减少了内存开销并提高了吞吐量。
内核自动调整：TensorRT 为每个操作自动选择最佳内核，针对给定的 GPU 优化推理。

这些技术使 TensorRT-LLM 能够优化深度学习任务（例如自然语言处理、推荐引擎和实时视频分析）的推理性能。

使用 TensorRT 加速 AI 工作负载

TensorRT 通过整合INT8和FP16等精度优化来加速深度学习工作负载。这些精度较低的格式可以在保持准确性的同时显著加快推理速度。这在低延迟是关键要求的实时应用中尤其有价值。

INT8和FP16优化在以下方面特别有效：

视频流：这些优化可减少处理帧所需的时间，从而使基于人工智能的视频处理任务（例如物体检测）受益。
推荐系统：通过加速处理大量用户数据的模型的推理，TensorRT 实现大规模实时个性化。
自然语言处理 (NLP)：TensorRT 提高了文本生成、翻译和摘要等 NLP 任务的速度，使其适用于实时应用。

使用 NVIDIA Triton 进行部署、运行和扩展

使用 TensorRT-LLM 优化模型后，您可以使用NVIDIA Triton 推理服务器轻松部署、运行和扩展模型。Triton 是一款支持动态批处理、模型集成和高吞吐量的开源软件。它为大规模管理 AI 模型提供了灵活的环境。

一些主要功能包括：

并发模型执行：同时运行多个模型，最大限度地提高 GPU 利用率。
动态批处理：将多个推理请求合并为一个批次，从而减少延迟并提高吞吐量。
流音频/视频输入：支持实时应用程序中的输入流，例如实时视频分析或语音转文本服务。

这使得 Triton 成为在生产环境中部署 TensorRT-LLM 优化模型的宝贵工具，确保高可扩展性和效率。

TensorRT-LLM 用于 LLM 推理的核心功能

开源 Python API

TensorRT-LLM 提供高度模块化和开源的 Python API，简化了定义、优化和执行 LLM 的过程。该 API 使开发人员能够创建自定义 LLM 或修改预构建的 LLM 以满足他们的需求，而无需深入了解 CUDA 或深度学习框架。

飞行批处理和分页注意力机制

TensorRT-LLM 的突出功能之一是In-Flight Batching，它通过同时处理多个请求来优化文本生成。此功能通过动态批处理序列最大限度地减少了等待时间并提高了 GPU 利用率。

此外，分页注意力机制可确保即使在处理较长的输入序列时，内存使用率也能保持在较低水平。分页注意力机制不会为所有 token 分配连续的内存，而是将内存划分为可动态重用的“页面”，从而防止内存碎片化并提高效率。

多 GPU 和多节点推理

对于更大的模型或更复杂的工作负载，TensorRT-LLM 支持多 GPU和多节点推理。此功能允许将模型计算分布在多个 GPU 或节点上，从而提高吞吐量并减少总体推理时间。

FP8 支持

随着FP8 （8 位浮点）的出现，TensorRT-LLM 利用 NVIDIA 的 H100 GPU 将模型权重转换为这种格式，以优化推理。FP8 可以减少内存消耗并加快计算速度，这在大规模部署中尤其有用。

TensorRT-LLM 架构和组件

了解 TensorRT-LLM 的架构将有助于您更好地利用其 LLM 推理功能。让我们分解一下关键组件：

模型定义

TensorRT-LLM 允许您使用简单的 Python API 定义 LLM。该 API 构建模型的图形表示，从而更轻松地管理 GPT 或 BERT 等 LLM 架构中涉及的复杂层。

重量绑定

在编译模型之前，必须将权重（或参数）绑定到网络。此步骤可确保权重嵌入 TensorRT 引擎中，从而实现快速高效的推理。TensorRT-LLM 还允许在编译后更新权重，为需要频繁更新的模型增加了灵活性。

模式匹配与融合

运算融合是 TensorRT-LLM 的另一个强大功能。通过将多个运算（例如，矩阵乘法与激活函数）融合到单个 CUDA 内核中，TensorRT 可最大限度地减少与多个内核启动相关的开销。这减少了内存传输并加快了推理速度。

插件

为了扩展 TensorRT 的功能，开发人员可以编写插件——执行特定任务（如优化多头注意力模块）的自定义内核。例如，Flash-Attention插件可显著提高 LLM 注意力层的性能。

基准测试：TensorRT-LLM 性能提升

TensorRT-LLM 在各种 GPU 上都表现出了显著的 LLM 推理性能提升。以下是使用 TensorRT-LLM 在不同的 NVIDIA GPU 上进行的推理速度（以每秒令牌数为单位）的比较：

模型	精确	输入/输出长度	H100（80GB）	A100（80GB）	L40S FP8
通用动力6B	第八框架	128/128	34,955	11,206	6,998
通用动力6B	第八框架	2048/128	2,800	1,354	747
美洲豹 v2 7B	第八框架	128/128	16,985	10,725	6,121
法拉玛 v3 8B	第八框架	128/128	16,708	12,085	8,273

这些基准测试表明，TensorRT-LLM 在性能上取得了显著的进步，特别是对于较长的序列。

实践：安装和构建 TensorRT-LLM

步骤 1：创建容器环境

为了方便使用，TensorRT-LLM 提供了 Docker 镜像来创建构建和运行模型的受控环境。

docker build --pull 
             --target devel 
             --file docker/Dockerfile.multi 
             --tag tensorrt_llm/devel:latest .

步骤 2：运行容器

运行可以访问 NVIDIA GPU 的开发容器：

docker run --rm -it 
           --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 --gpus=all 
           --volume ${PWD}:/code/tensorrt_llm 
           --workdir /code/tensorrt_llm 
           tensorrt_llm/devel:latest

步骤 3：从源代码构建 TensorRT-LLM

在容器内，使用以下命令编译 TensorRT-LLM：

python3 ./scripts/build_wheel.py --trt_root /usr/local/tensorrt
pip install ./build/tensorrt_llm*.whl

当您想要避免与 Python 依赖项相关的兼容性问题或专注于生产系统中的 C++ 集成时，此选项特别有用。构建完成后，您将在目录中找到 C++ 运行时的已编译库cpp/build/tensorrt_llm，可将其与您的 C++ 应用程序集成。

步骤 4：链接 TensorRT-LLM C++ 运行时

将 TensorRT-LLM 集成到 C++ 项目中时，请确保项目的包含路径指向该cpp/include目录。其中包含稳定、受支持的 API 标头。TensorRT-LLM 库作为 C++ 编译过程的一部分进行链接。

例如，您的项目的 CMake 配置可能包括：

include_directories(${TENSORRT_LLM_PATH}/cpp/include)
link_directories(${TENSORRT_LLM_PATH}/cpp/build/tensorrt_llm)
target_link_libraries(your_project tensorrt_llm)

通过这种集成，您可以在自定义 C++ 项目中利用 TensorRT-LLM 优化，确保即使在低级或高性能环境中也能进行高效推理。

TensorRT-LLM 的高级功能

TensorRT-LLM 不仅仅是一个优化库；它包含几个有助于解决大规模 LLM 部署的高级功能。下面，我们将详细探讨其中一些功能：

1.飞行中配料

传统批处理需要等到批次完全收集后才能进行处理，这可能会导致延迟。动态批处理通过动态启动对批次内已完成请求的推理来改变这种情况，同时仍收集其他请求。这通过最大限度地减少空闲时间和提高 GPU 利用率来提高整体吞吐量。

此功能在实时应用程序中尤其有价值，例如聊天机器人或语音助手，因为响应时间至关重要。

2.分页注意力

分页注意力是一种用于处理大型输入序列的内存优化技术。分页注意力不需要为序列中的所有标记分配连续的内存（这可能会导致内存碎片化），而是允许模型将键值缓存数据拆分为“内存页面”。这些页面会根据需要动态分配和释放，从而优化内存使用率。

分页注意力对于处理大序列长度和减少内存开销至关重要，特别是在 GPT 和 LLaMA 等生成模型中。

3.自定义插件

TensorRT-LLM 允许您使用自定义插件扩展其功能。插件是用户定义的内核，可实现标准 TensorRT 库未涵盖的特定优化或操作。

例如，Flash-Attention插件是一个著名的自定义内核，可优化基于 Transformer 的模型中的多头注意力层。通过使用此插件，开发人员可以大幅加快注意力计算的速度，而注意力计算是 LLM 中最耗费资源的组件之一。

要将自定义插件集成到 TensorRT-LLM 模型中，您可以编写自定义 CUDA 内核并将其注册到 TensorRT。该插件将在模型执行期间调用，提供量身定制的性能改进。

4.NVIDIA H100 上的 FP8 精度

凭借FP8 精度，TensorRT-LLM 充分利用了 NVIDIA 在H100 Hopper 架构中的最新硬件创新。FP8 通过以 8 位浮点格式存储权重和激活来减少 LLM 的内存占用，从而在不牺牲太多精度的情况下实现更快的计算速度。TensorRT-LLM 自动编译模型以利用优化的 FP8 内核，进一步加快推理时间。

这使得 TensorRT-LLM 成为需要顶级性能和能源效率的大规模部署的理想选择。

示例：使用 Triton 推理服务器部署 TensorRT-LLM

对于生产部署，NVIDIA 的Triton 推理服务器提供了一个强大的平台来管理大规模模型。在此示例中，我们将演示如何使用 Triton 部署 TensorRT-LLM 优化模型。

步骤 1：设置模型存储库

为 Triton 创建一个模型存储库，它将存储您的 TensorRT-LLM 模型文件。例如，如果您编译了 GPT2 模型，您的目录结构可能如下所示：

mkdir -p model_repository/gpt2/1
cp ./trt_engine/gpt2_fp16.engine model_repository/gpt2/1/

步骤2：创建Triton配置文件

在同一model_repository/gpt2/目录中，创建一个名为的配置文件config.pbtxt，告诉 Triton 如何加载和运行模型。以下是 TensorRT-LLM 的基本配置：

name: "gpt2"
platform: "tensorrt_llm"
max_batch_size: 8
input [
  {
    name: "input_ids"
    data_type: TYPE_INT32
    dims: [-1]
  }
]
output [
  {
    name: "logits"
    data_type: TYPE_FP32
    dims: [-1, -1]
  }
]

步骤 3：启动 Triton 服务器

使用以下 Docker 命令通过模型存储库启动 Triton：

docker run --rm --gpus all 
    -v $(pwd)/model_repository:/models 
    nvcr.io/nvidia/tritonserver:23.05-py3 
    tritonserver --model-repository=/models

步骤 4：向 Triton 发送推理请求

一旦 Triton 服务器运行，您就可以使用 HTTP 或 gRPC 向其发送推理请求。例如，使用curl发送请求：

curl -X POST http://localhost:8000/v2/models/gpt2/infer -d '{
  "inputs": [
    {"name": "input_ids", "shape": [1, 128], "datatype": "INT32", "data": [[101, 234, 1243]]}
  ]
}'

Triton 将使用 TensorRT-LLM 引擎处理请求并返回 logits 作为输出。

使用 TensorRT-LLM 优化 LLM 推理的最佳实践

为了充分利用 TensorRT-LLM 的强大功能，在模型优化和部署过程中遵循最佳实践非常重要。以下是一些关键提示：

1.优化之前先分析一下模型

在应用量化或内核融合等优化之前，请使用 NVIDIA 的分析工具（如 Nsight Systems 或 TensorRT Profiler）了解模型执行中的当前瓶颈。这可让您针对特定的改进领域，从而实现更有效的优化。

2.使用混合精度获得最佳性能

使用 TensorRT-LLM 优化模型时，使用混合精度（FP16 和 FP32 的组合）可显著提高速度，同时不会大幅降低准确度。为了在速度和准确度之间取得最佳平衡，请考虑在可用的情况下使用 FP8，尤其是在 H100 GPU 上。

3.利用分页注意力机制处理大型序列

对于涉及长输入序列的任务（例如文档摘要或多轮对话），请始终启用分页注意力以优化内存使用率。这可减少内存开销并防止推理期间出现内存不足错误。

4.微调多 GPU 设置的并行性

在多个 GPU 或节点上部署 LLM 时，必须微调张量并行性和流水线并行性的设置以匹配您的特定工作负载。正确配置这些模式可以通过在 GPU 之间均匀分配计算负载来显著提高性能。

结论

TensorRT-LLM 代表了优化和部署大型语言模型的范式转变。凭借其量化、操作融合、FP8 精度和多 GPU 支持等高级功能，TensorRT-LLM 使 LLM 能够在 NVIDIA GPU 上更快、更高效地运行。无论您是在开发实时聊天应用程序、推荐系统还是大型语言模型，TensorRT-LLM 都能提供突破性能界限所需的工具。

本指南将指导您设置 TensorRT-LLM、使用其 Python API 优化模型、在 Triton 推理服务器上部署以及应用最佳实践以实现高效推理。借助 TensorRT-LLM，您可以加速 AI 工作负载、减少延迟并为生产环境提供可扩展的 LLM 解决方案。

原创文章，作者：AI评测师，如若转载，请注明出处：https://www.dian8dian.com/tensorrtllm-you-hua-da-xing-yu-yan-mo-xing-tui-li-yi-shi

Like (0)

AI评测师作者

0 0

企业 SaaS 公司如何在人工智能驱动的世界中蓬勃发展

Previous 2024年9月14日下午7:00

DPAD 算法增强脑机接口，有望推动神经技术进步

Next 2024年9月14日下午9:00

技术评测

Microsoft Copilot 现在可以发声，并能在互联网上“看到你所看到的内容”

您可能希望开始像对待工作一样对待您的网络浏览器，至少如果您想使用Microsoft 的全新 Copilot Vision 功能。据 Microsoft 执行副总裁 Yusuf Me…

王浩然
2024年10月4日
000
技术评测

迪士尼研究提供改进的基于人工智能的图像压缩技术——但它可能会产生幻觉细节

迪士尼的研究部门正在提供一种新的图像压缩方法，利用开源稳定扩散 V1.2 模型以比竞争方法更低的比特率生成更逼真的图像。迪士尼压缩方法与之前方法的比较。作者声称细节恢复效果有所改…

AI评测师
2024年11月6日
000
技术评测

微软终于让 Copilot+ 笔记本电脑可用于人工智能

微软的 Copilot+ PC 计划大获成功，其中许多都跻身最佳笔记本电脑之列，但并非因为其内置的 AI 硬件。现在，微软终于将 Copilot+ PC 中的神经处理单元 (NPU…

王浩然
2024年10月4日
000
技术评测

Pixtral 12B 现已上市：Mistral 的新型多模态 AI 可以无限制地分析图像

Mistral AI 终于进军多模态领域。今天，这家法国 AI 初创公司与 OpenAI 和 Anthropic 等公司展开竞争，发布了 Pixtral 12B，这是其首款同时具备…

王浩然
2024年9月15日
000
技术评测

在几秒钟内生成 AI 商业计划

你知道吗，23.2% 的新企业在第一年就倒闭了？因此，制定一个清晰、结构良好的计划对于跨越这一艰难的门槛至关重要。我最近偶然发现了 Upmetrics。这是一款基于云的业务规划工…

AI评测师
2024年11月5日
000
技术评测

什么是 ChatGPT Canvas？Claude Artifacts 的替代品

OpenAI 最近推出了一项令人印象深刻的功能，名为ChatGPT Canvas。与我们已经习惯的普通聊天窗口不同，ChatGPT Canvas 为处理复杂项目提供了更强大、更具协…

AI评测师
2024年10月7日
000
技术评测

微软更安全的 Windows Recall 功能也可被用户卸载

为了回应安全问题，微软详细介绍了如何彻底改造其备受争议的人工智能 Recall 功能，该功能可以截取您在计算机上看到或执行的几乎所有操作的屏幕截图。Recall 最初应该在 6 月…

王浩然
2024年9月30日
000
技术评测

欧洲居民如何访问新的 AI 视频生成器 Google VEO

谷歌最近推出了一款名为Veo的尖端人工智能工具，它允许用户从文本生成视频。这款创新工具目前处于限量发布阶段，仅供美国用户使用。然而，对于渴望尽早使用 Veo 的欧洲居民来说，可以使…

AI评测师
2024年9月4日
000
技术评测

Omnitron Sensors 的 MEMS 可以让自动驾驶汽车摆脱陀螺（同时降低成本）

生产 MEMS 传感器芯片的Omnitron Sensors已筹集 1300 万美元，用于为自动驾驶汽车制造廉价传感器。如果成功，我们就可以告别自动驾驶汽车顶部的大型旋转圆顶了。 …

王浩然
2025年2月3日
000
技术评测

为什么苹果在 iPhone 16 上又增加了一个按钮

苹果有得有失——尤其是在端口和按钮方面。长期以来，该公司对任何可能破坏其设备风水的细节都采取了“少即是多”的态度。如今，该公司对按钮的态度更加乐观。在 Apple Watch Ul…

王浩然
2024年9月10日
000
技术评测

Raspberry Pi 推出用于基于视觉的 AI 应用的相机模块

Raspberry Pi是一家销售微型廉价单板计算机的公司，它正在发布一款附加组件，该组件将开辟多种使用场景——没错，因为现在是 2024 年，所以它有 AI 角度。这款图像传感器…

王浩然
2024年10月2日
000
技术评测

Vidyo AI 评论：将 1 小时的视频制作成 22 个热门短片

您是否曾发现自己被长达数小时的视频片段所淹没，希望能够弹指一挥就将其变成引人入胜的社交媒体剪辑？如果您曾经面临将长视频剪辑成简短、引人入胜的内容这一艰巨任务，那么您并不孤单。这个…

王浩然
2024年8月22日
000
技术评测

研究发现，微调人工智能模型造成的损害可以轻松恢复

来自美国的一项新研究表明，根据自己的数据对人工智能基础模型进行微调并不会降低或损害原始模型的功能——而且相对简单的修复不仅可以恢复原始模型的功能，而且实际上还可以提高你试图让（已经…

AI评测师
2024年10月5日
000
技术评测

10 款最佳 AI 表单生成器

高效的数据收集和用户参与对于企业和组织至关重要。人工智能 (AI) 颠覆了表单创建流程，提供了创新的解决方案，简化了创建过程，增强了用户体验，并提供了有价值的见解。

AI评测师
2024年8月27日
000
技术评测

【EAGLE揭秘】多模态大型语言模型，探索编码器设计新境界

准确解释复杂视觉信息的能力是多模态大型语言模型 (MLLM) 的关键重点。最近的研究表明，增强的视觉感知可显著减少幻觉并提高分辨率敏感任务（例如光学字符识别和文档分析）的性能。最近…

AI评测师
2024年9月11日
000
技术评测

Nvidia 刚刚发布了一款开源 LLM，与 GPT-4 竞争

Nvidia 是人工智能行业最抢手的 GPU制造商之一，该公司宣布已发布一个开源大型语言模型，据报道其性能可与OpenAI、Anthropic、Meta和谷歌等领先的专有模型相媲美…

点点
2024年10月4日
000
技术评测

使用 JPEG 压缩来改善神经网络训练

加拿大的一篇新研究论文提出了一个框架，该框架有意将 JPEG 压缩引入神经网络的训练方案中，并设法获得更好的结果以及更好的抵抗对抗性攻击的能力。这是一个相当激进的想法，因为目前的…

AI评测师
2024年10月11日
000
技术评测

如何（以及何时）在 Gmail 和 Google Docs 中使用 Gemini AI

这是 Google Gemini 写作辅助的用武之地，以及如何最好地使用它。

AI评测师
2024年9月2日
000
技术评测

如何在 Photoshop 中使用 AI：我喜欢的 3 款令人惊叹的 AI 工具

人工智能彻底改变了数字艺术的世界，而Adobe Photoshop正处于这场变革的前沿。Photoshop 中的这些 AI 功能大大缩短了编辑时间，这真是太神奇了，我很高兴向您…

AI评测师
2024年9月29日
000
技术评测

Ray-Ban Meta 的新更新添加了提醒和语音消息

Meta 为其 Ray-Ban 智能眼镜添加了提醒功能，这是上个月Connect 活动期间预览的一项功能。更新后，您可以让 Meta AI 记住您的周围环境，例如您停车的位置，甚至…

王浩然
2024年10月6日
000