掌握 CUDA：面向机器学习工程师

AI评测师 • 2024年9月4日上午10:00 • 技术评测 • 115 views

计算能力已成为突破机器学习极限的关键因素。随着模型变得越来越复杂，数据集呈指数级增长，传统的基于 CPU 的计算往往无法满足现代机器学习任务的需求。这就是 CUDA（统一计算设备架构）的由来，这是一种加速机器学习工作流程的方法。

CUDA是由 NVIDIA 开发的并行计算平台和编程模型，可利用图形处理单元 (GPU) 的强大计算能力。虽然 GPU 最初是为渲染图形而设计的，但其架构使其非常适合许多机器学习算法的并行处理要求。

在本文中，我们将探讨 CUDA 如何彻底改变您的机器学习项目，深入探讨其核心概念、架构和实际应用。无论您是希望优化工作流程的经验丰富的 ML 工程师，还是渴望利用 GPU 计算能力的新手，本指南都将为您提供相关知识，让您的机器学习工作更上一层楼。

了解并行计算和 CUDA

在深入研究CUDA的细节之前，了解并行计算的基本概念至关重要。本质上，并行计算是一种同时进行多项计算的计算形式。其原理简单但功能强大：大问题通常可以分成几个小问题，然后同时解决。

传统的顺序编程（任务一个接一个地执行）可以比作高速公路上的单车道。另一方面，并行计算就像在高速公路上增加多条车道，允许更多流量（或在我们的情况下是计算）同时流动。

CUDA 采用了这一概念，并将其应用于 GPU 的独特架构。与旨在处理具有复杂控制逻辑的各种任务的 CPU 不同，GPU 经过优化，可并行执行大量简单、相似的操作。这使得它们非常适合机器学习中常见的计算类型，例如矩阵乘法和卷积。

让我们分解一些关键概念：

线程和线程层次结构

在 CUDA 中，线程是最小的执行单位。与相对较重的 CPU 线程不同，GPU 线程非常轻量。典型的 CUDA 程序可以同时启动数千甚至数百万个线程。

CUDA 将线程组织成一个层次结构：

线程被分组到块中
区块被组织成网格

这种分层结构可以实现跨不同 GPU 架构的有效扩展。以下是一个简单的可视化：

|-- Block (0,0)
| |-- Thread (0,0)
| |-- Thread (0,1)
| |-- ...
|-- Block (0,1)
| |-- Thread (0,0)
| |-- Thread (0,1)
| |-- ...
|-- ...

内存层次结构

CUDA 提供了不同类型的内存，每种内存都有自己的特点：

全局内存：所有线程都可以访问，但延迟较高
共享内存：线程块内共享的快速内存
本地内存：每个线程私有
常量存储器：用于存储常量数据的只读存储器

理解并有效使用这种内存层次结构对于优化 CUDA 程序至关重要。

内核

在 CUDA 中，内核是在 GPU 上运行的函数。它由许多线程并行执行。以下是 CUDA 内核的一个简单示例：

__global__ void vectorAdd(float *a, float *b, float *c, int n)
{
    int i = blockIdx.x * blockDim.x + threadIdx.x;
    if (i < n)
        c[i] = a[i] + b[i];
}

此内核将两个向量逐个元素相加。__global__关键字表示此函数是 CUDA 内核。

CUDA 内存模型

理解 CUDA 内存模型对于编写高效的 GPU 代码至关重要。CUDA 内存模型统一了主机 (CPU) 和设备 (GPU) 内存系统并公开了完整的内存层次结构，使开发人员能够明确控制数据放置以获得最佳性能。

内存层次结构的好处

现代计算系统（包括 GPU）使用内存层次结构来优化性能。此层次结构由具有不同延迟、带宽和容量的多个内存级别组成。局部性原则在这里起着重要作用：

时间局部性：如果引用了数据位置，则很可能很快再次被引用。
空间局部性：如果引用了内存位置，那么附近的位置也可能被引用。

通过理解和利用这些类型的局部性，您可以编写 CUDA 程序，以最大限度地减少内存访问时间并最大限度地提高吞吐量。

CUDA 内存类型的详细分类

CUDA 的内存模型公开了各种类型的内存，每种内存都有不同的范围、寿命和性能特征。以下是最常用的 CUDA 内存类型的概述：

寄存器：CUDA 线程可用的最快内存，用于存储变量。
共享内存：同一块内的线程共享的内存。它比全局内存具有较低的延迟，并且对于同步线程很有用。
本地内存：每个线程私有的内存，在寄存器不足时使用。
全局内存：最大的内存空间，所有线程都可以访问。它具有更高的延迟，通常用于存储需要由多个线程访问的数据。
常量存储器：为提高效率而缓存的只读存储器，用于存储常量。
纹理内存：针对某些访问模式进行优化的专用只读内存，常用于图形应用程序。

机器学习的 CUDA：实际应用

CUDA C/C++ 应用程序的结构，其中主机（CPU）代码管理设备（GPU）上并行代码的执行。

现在我们已经介绍了基础知识，让我们探索如何将 CUDA 应用于常见的机器学习任务。

矩阵乘法

矩阵乘法是许多机器学习算法中的基本运算，尤其是在神经网络中。CUDA 可以显著加速此运算。以下是一个简单的实现：

__global__ void matrixMulKernel(float *A, float *B, float *C, int N)
{
    int row = blockIdx.y * blockDim.y + threadIdx.y;
    int col = blockIdx.x * blockDim.x + threadIdx.x;
    float sum = 0.0f;
     
    if (row < N && col < N) {
        for (int i = 0; i < N; i++) {
            sum += A[row * N + i] * B[i * N + col];
        }
        C[row * N + col] = sum;
    }
}
// Host function to set up and launch the kernel
void matrixMul(float *A, float *B, float *C, int N)
{
    dim3 threadsPerBlock(16, 16);
    dim3 numBlocks((N + threadsPerBlock.x - 1) / threadsPerBlock.x, 
                   (N + threadsPerBlock.y - 1) / threadsPerBlock.y);
     
    matrixMulKernelnumBlocks, threadsPerBlock(A, B, C, N);
}

此实现将输出矩阵划分为块，每个线程计算结果的一个元素。虽然此基本版本对于大型矩阵来说已经比 CPU 实现更快，但仍有使用共享内存和其他技术进行优化的空间。

卷积运算

卷积神经网络 (CNN)严重依赖卷积运算。CUDA 可以显著加快这些计算的速度。这是一个简化的 2D 卷积核：

__global__ void convolution2DKernel(float *input, float *kernel, float *output, 
                                    int inputWidth, int inputHeight, 
                                    int kernelWidth, int kernelHeight)
{
    int x = blockIdx.x * blockDim.x + threadIdx.x;
    int y = blockIdx.y * blockDim.y + threadIdx.y;
     
    if (x < inputWidth && y < inputHeight) {
        float sum = 0.0f;
        for (int ky = 0; ky < kernelHeight; ky++) {
            for (int kx = 0; kx < kernelWidth; kx++) {
                int inputX = x + kx - kernelWidth / 2;
                int inputY = y + ky - kernelHeight / 2;
                if (inputX >= 0 && inputX < inputWidth && inputY >= 0 && inputY < inputHeight) {
                    sum += input[inputY * inputWidth + inputX] * 
                           kernel[ky * kernelWidth + kx];
                }
            }
        }
        output[y * inputWidth + x] = sum;
    }
}

此内核执行 2D 卷积，每个线程计算一个输出像素。实际上，更复杂的实现将使用共享内存来减少全局内存访问并针对各种内核大小进行优化。

随机梯度下降（SGD）

SGD 是机器学习中的基础优化算法。CUDA 可以并行计算多个数据点的梯度。以下是线性回归的简化示例：

__global__ void sgdKernel(float *X, float *y, float *weights, float learningRate, int n, int d)
{
    int i = blockIdx.x * blockDim.x + threadIdx.x;
    if (i < n) {
        float prediction = 0.0f;
        for (int j = 0; j < d; j++) {
            prediction += X[i * d + j] * weights[j];
        }
        float error = prediction - y[i];
        for (int j = 0; j < d; j++) {
            atomicAdd(&weights[j], -learningRate * error * X[i * d + j]);
        }
    }
}
void sgd(float *X, float *y, float *weights, float learningRate, int n, int d, int iterations)
{
    int threadsPerBlock = 256;
    int numBlocks = (n + threadsPerBlock - 1) / threadsPerBlock;
     
    for (int iter = 0; iter < iterations; iter++) {
        sgdKernel<<<numBlocks, threadsPerBlock>>>(X, y, weights, learningRate, n, d);
    }
}

此实现会并行更新每个数据点的权重。该atomicAdd函数用于安全地处理权重的并发更新。

优化 CUDA 以进行机器学习

虽然上述示例演示了使用 CUDA 进行机器学习任务的基础知识，但还有几种优化技术可以进一步提高性能：

合并内存访问

当 Warp 中的线程访问连续的内存位置时，GPU 可实现最佳性能。确保您的数据结构和访问模式促进合并的内存访问。

共享内存使用情况

共享内存比全局内存快得多。使用它来缓存线程块内经常访问的数据。

使用 CUDA 理解内存层次结构

该图说明了具有共享内存的多处理器系统的架构。每个处理器都有自己的缓存，可以快速访问常用数据。处理器通过共享总线进行通信，该总线将它们连接到更大的共享内存空间。

例如，在矩阵乘法中：

__global__ void matrixMulSharedKernel(float *A, float *B, float *C, int N)
{
    __shared__ float sharedA[TILE_SIZE][TILE_SIZE];
    __shared__ float sharedB[TILE_SIZE][TILE_SIZE];
     
    int bx = blockIdx.x; int by = blockIdx.y;
    int tx = threadIdx.x; int ty = threadIdx.y;
     
    int row = by * TILE_SIZE + ty;
    int col = bx * TILE_SIZE + tx;
     
    float sum = 0.0f;
     
    for (int tile = 0; tile < (N + TILE_SIZE - 1) / TILE_SIZE; tile++) {
        if (row < N && tile * TILE_SIZE + tx < N)
            sharedA[ty][tx] = A[row * N + tile * TILE_SIZE + tx];
        else
            sharedA[ty][tx] = 0.0f;
         
        if (col < N && tile * TILE_SIZE + ty < N)
            sharedB[ty][tx] = B[(tile * TILE_SIZE + ty) * N + col];
        else
            sharedB[ty][tx] = 0.0f;
         
        __syncthreads();
         
        for (int k = 0; k < TILE_SIZE; k++)
            sum += sharedA[ty][k] * sharedB[k][tx];
         
        __syncthreads();
    }
     
    if (row < N && col < N)
        C[row * N + col] = sum;
}

此优化版本使用共享内存来减少全局内存访问，显著提高大矩阵的性能。

异步操作

CUDA 支持异步操作，允许您将计算与数据传输重叠。这在机器学习管道中特别有用，您可以在处理当前批次的同时准备下一批数据。

cudaStream_t stream1, stream2;
cudaStreamCreate(&stream1);
cudaStreamCreate(&stream2);
// Asynchronous memory transfers and kernel launches
cudaMemcpyAsync(d_data1, h_data1, size, cudaMemcpyHostToDevice, stream1);
myKernel<<<grid, block, 0, stream1>>>(d_data1, ...);
cudaMemcpyAsync(d_data2, h_data2, size, cudaMemcpyHostToDevice, stream2);
myKernel<<<grid, block, 0, stream2>>>(d_data2, ...);
cudaStreamSynchronize(stream1);
cudaStreamSynchronize(stream2);

张量核心

对于机器学习工作负载，NVIDIA 的 Tensor Cores（在较新的 GPU 架构中可用）可以显著提高矩阵乘法和卷积运算的速度。cuDNN 和 cuBLAS 等库会在可用时自动利用 Tensor Cores。

挑战和注意事项

虽然 CUDA 为机器学习带来了巨大的好处，但我们必须意识到潜在的挑战：

内存管理：与系统内存相比，GPU 内存有限。高效的内存管理至关重要，尤其是在处理大型数据集或模型时。
数据传输开销：在CPU 和 GPU之间传输数据可能是一个瓶颈。尽可能减少传输并使用异步操作。
精度：GPU 传统上擅长单精度 (FP32) 计算。虽然对双精度 (FP64) 的支持有所改进，但速度通常较慢。许多机器学习任务可以在较低精度（例如 FP16）下很好地完成，而现代 GPU 可以非常高效地处理这些精度。
代码复杂性：编写高效的 CUDA 代码可能比 CPU 代码更复杂。利用cuDNN、cuBLAS 等库以及 TensorFlow 或 PyTorch 等框架可以帮助消除部分复杂性。

转向多 GPU

随着机器学习模型的规模和复杂性不断增长，单个 GPU 可能不再足以处理工作负载。CUDA 可让您在单个节点或集群内跨多个 GPU 扩展应用程序。

使用多个 GPU 的原因

问题域大小：您的数据集或模型可能太大，无法放入单个 GPU 的内存中。
吞吐量和效率：即使单个任务适合单个 GPU，使用多个 GPU 也可以通过同时处理多个任务来提高吞吐量。

CUDA 编程结构

为了有效利用 CUDA，必须了解其编程结构，其中包括编写内核（在 GPU 上运行的函数）以及管理主机（CPU）和设备（GPU）之间的内存。

主机与设备内存

在 CUDA 中，主机和设备的内存管理是分开的。以下是用于内存管理的主要函数：

cudaMalloc：在设备上分配内存。
cudaMemcpy：在主机和设备之间复制数据。
cudaFree：释放设备上的内存。

示例：对两个数组求和

让我们看一个使用 CUDA 对两个数组求和的示例：

__global__ void sumArraysOnGPU(float *A, float *B, float *C, int N) {
    int idx = threadIdx.x + blockIdx.x * blockDim.x;
    if (idx < N) C[idx] = A[idx] + B[idx];
}
int main() {
    int N = 1024;
    size_t bytes = N * sizeof(float);
    float *h_A, *h_B, *h_C;
    h_A = (float*)malloc(bytes);
    h_B = (float*)malloc(bytes);
    h_C = (float*)malloc(bytes);
    float *d_A, *d_B, *d_C;
    cudaMalloc(&d_A, bytes);
    cudaMalloc(&d_B, bytes);
    cudaMalloc(&d_C, bytes);
    cudaMemcpy(d_A, h_A, bytes, cudaMemcpyHostToDevice);
    cudaMemcpy(d_B, h_B, bytes, cudaMemcpyHostToDevice);
    int blockSize = 256;
    int gridSize = (N + blockSize - 1) / blockSize;
    sumArraysOnGPU<<<gridSize, blockSize>>>(d_A, d_B, d_C, N);
    cudaMemcpy(h_C, d_C, bytes, cudaMemcpyDeviceToHost);
    cudaFree(d_A);
    cudaFree(d_B);
    cudaFree(d_C);
    free(h_A);
    free(h_B);
    free(h_C);
    return 0;
}

在这个例子中，主机和设备上都分配了内存，数据被传输到设备，并且启动内核来执行计算。

结论

对于希望加速模型和处理更大数据集的机器学习工程师来说，CUDA 是一款功能强大的工具。通过了解 CUDA 内存模型、优化内存访问和利用多个 GPU，您可以显著提高机器学习应用程序的性能。

虽然我们在本文中介绍了基础知识和一些高级主题，但 CUDA 是一个不断发展的广阔领域。请随时了解最新的 CUDA 版本、GPU 架构和机器学习库，以充分利用这项强大的技术

原创文章，作者：AI评测师，如若转载，请注明出处：https://www.dian8dian.com/zhang-wo-cuda-mian-xiang-ji-qi-xue-xi-gong-cheng-shi

AI CPU CUDA GPU Nvidia 人工智能神经网络

Like (0)

AI评测师作者

0 0

医疗保健领域的人工智能应该从小处着手

Previous 2024年9月4日上午9:00

Canva 已提高其 Teams 产品的价格

Next 2024年9月4日上午11:00

技术评测

社交网络 Buttflies AI 添加了一项功能，可将你变成 AI 角色

Butterflies AI是一个人类与人工智能相互交流的新型社交网络，它正在推出一项新的克隆功能，可以将您变成人工智能角色。此次最新添加的功能建立在 6 月份向公众推出的一项功…

王浩然
2024年8月31日
000
技术评测

Veed.io 评论：我用过的最简单的 AI 视频编辑器

作为一个花了无数时间在 Premiere Pro 上摸索的人，我知道视频编辑是多么令人难以忍受。所以，当我遇到Veed.io时，我一开始是持怀疑态度的。基于网络的编辑器真的能与之相…

AI评测师
2024年11月5日
000
技术评测

阅读人工智能评论：这款人工智能可以在视频通话中读取情绪

您是否曾在视频通话结束后，疑惑自己的语气如何，或对方对此次对话的真实感受如何？想象一下，如果您能立即理解对方所说的内容及其背后的情感，那该有多好！我最近遇到了Read AI，这是…

AI评测师
2024年10月22日
000
技术评测

TechCrunch 网络词汇表

网络安全是一个充满技术术语和专业术语的世界。在 TechCrunch，我们多年来一直在撰写有关网络安全的文章，有时我们甚至需要复习一下某个特定单词或表达的确切含义。这就是我们创建这…

AI评测师
2024年9月23日
000
技术评测

苹果可能会在 2 月 11 日发布新款 iPhone SE 和 PowerBeats Pro 2

据彭博社报道，苹果最早可能在 2 月 11 日推出新款iPhone SE和PowerBeats Pro耳机。鉴于该公司尚未发出线下或线上活动的邀请，此次发布会的规模可能较小。新款…

王浩然
2025年2月10日
000
技术评测

iPad 上最强的绘画应用，宣布拒绝生成式 AI

小公司，大底气。

点点
2024年8月21日
000
技术评测

Google Lens 现在可以回答有关视频的问题

谷歌正在升级其视觉搜索应用程序 Lens，使其能够近乎实时地回答有关您周围环境的问题。安装了Google 应用的英语 Android 和 iOS 用户现在可以开始通过 Lens …

王浩然
2024年10月6日
000
技术评测

人工智能如何帮助您的企业快速起步

如今，还有什么问题是人工智能无法解决的？老实说，似乎没有多少。通过使用算法、深入研究大量数据并应用从中吸取的经验教训，人工智能可以发现模式并构建类似说明书的方法来解决某些任务。而…

AI News
2024年9月1日
000
技术评测

DryMerge 承诺将那些通常不相互通信的应用程序连接起来——当它工作时，效果非常好

用于连接通常不会相互通信的应用程序的平台已经存在了一段时间（例如：Zapier）。但如果你不懂技术，这些平台的使用并没有显著简化。生成式人工智能在一定程度上降低了进入门槛。然而，要…

王浩然
2024年9月16日
000
技术评测

使用 JPEG 压缩来改善神经网络训练

加拿大的一篇新研究论文提出了一个框架，该框架有意将 JPEG 压缩引入神经网络的训练方案中，并设法获得更好的结果以及更好的抵抗对抗性攻击的能力。这是一个相当激进的想法，因为目前的…

AI评测师
2024年10月11日
000
技术评测

iPhone 16、Apple Intelligence、AirPods 4 等：2024 年 Apple Event 上揭晓的一切

苹果今年最大的活动已经到来，随之而来的是 iPhone 16 系列和一系列与 iOS 18 相关的 AI 更新。Apple Intelligence 是今年苹果活动的明星，就像 6…

王浩然
2024年9月10日
000
AI前沿

“这是一个游戏规则的改变者”：Runway 发布新的 AI 面部表情动作捕捉功能 Act-One

自2022 年底首批模型首次亮相以来，人工智能视频在过去几年中取得了令人难以置信的进步，其真实感、分辨率、保真度、提示依从性（与用户输入的文本提示或视频描述的匹配程度）和数量都有所…

王浩然
2024年10月25日
000
技术评测

Plaud NotePin 有望在其他可穿戴 AI 失败的地方取得成功

到目前为止，可穿戴 AI 的记录并不特别好。今年，我们已经看到 Humane（其备受诟病的 AI 别针背后的公司）在短短几个月内就破产了。Rabbit R1 的发布也遭遇了类似的负…

AI评测师
2024年9月2日
000
技术评测

高通正向苹果发起最猛烈的攻击

就在英特尔于IFA 2024上发布 Lunar Lake笔记本电脑 CPU的第二天，高通就推出了一款新的 Snapdragon X Plus 芯片进行反击。这款恰如其名的 Snap…

王浩然
2024年9月5日
000
技术评测

Sonar 推出 AI 代码保证和 AI CodeFix：提高 AI 生成代码的安全性和生产力

在人工智能辅助软件开发领域，确保人工智能生成的代码的质量和安全性比以往任何时候都更加重要。Sonar是 Clean Code 解决方案的全球领导者，推出了两款新工具——AI Cod…

AI评测师
2024年10月4日
000
AI前沿

Anais Dotis-Georgiou，InfluxData 开发倡导者 – 访谈系列

Anais Dotis-Georgiou 是 InfluxData 的开发倡导者，热衷于利用数据分析、人工智能和机器学习让数据变得美丽。她收集数据，进行研究、探索和工程设计，将数据…

AI评测师
2024年9月12日
000
技术评测

iOS 18 的隐藏功能和小更新指南

苹果的iOS 18 更新于 9 月 16 日向所有用户推出。在 Apple Intelligence 发布之前，最重要的新功能是能够在主屏幕上自定义图标、在锁定屏幕上交换应用程序快…

AI评测师
2024年9月23日
000
技术评测

开源 DeepSeek-R1 使用纯强化学习来匹敌 OpenAI o1 — 成本降低 95%

中国人工智能初创公司DeepSeek以使用开源技术挑战领先的人工智能供应商而闻名，最近它又抛出了一颗重磅炸弹：一项名为 DeepSeek-R1 的全新开放式推理法学硕士学位课程。 …

王浩然
2025年1月21日
000
技术评测

研究发现，微调人工智能模型造成的损害可以轻松恢复

来自美国的一项新研究表明，根据自己的数据对人工智能基础模型进行微调并不会降低或损害原始模型的功能——而且相对简单的修复不仅可以恢复原始模型的功能，而且实际上还可以提高你试图让（已经…

AI评测师
2024年10月5日
000
技术评测

AI一键生成“类黑神话”，腾讯推出游戏视频模型GameGen-O，业内人士：游戏工作室的ChatGPT时刻

什么？大模型也许很快就能生成《黑神话·悟空》这种3A大作了？！直接看一则demo，《西游记》这就上桌：搭配BGM，是不是有内味儿了（doge）。这就是腾讯近日推出的GameG…

点点
2024年9月16日
000