NVIDIA CUDA 13.3 提升使用 Tile C++ 和 Python 的 GPU 编程

NVIDIA CUDA 13.3 引入了 Tile C++ 编程、Python 更新和 CompileIQ，可实现高达 15% 的内核加速并增强 GPU 开发。

NVIDIA CUDA 13.3 Boosts GPU Programming with Tile C++ and Python

NVIDIA（纳斯达克股票代码：NVDA）推出了 CUDA 13.3，这是其并行计算平台的最新版本，为 GPU 开发人员带来了新功能。主要升级包括推出 C++ CUDA Tile 编程以及引入 CUDA Python 1.0。这些更新旨在简化高性能 GPU 内核开发，同时提供显着的性能提升。

其中一项突出功能是使用 C++ 进行 CUDA Tile 编程，它使开发人员能够创建基于图块的 GPU 内核。这种高级抽象可自动执行并行性和内存管理等低级 GPU 任务，确保跨 NVIDIA GPU 架构（包括最新的 Hopper GPU（计算能力 9.0））的可移植性。 Tile 编程预计将简化利用 Tensor Core 处理 AI 和 HPC 工作负载的开发人员的工作流程。

在 Python 方面，CUDA Python 1.0 采用语义版本控制标志着一个里程碑。这确保了生产环境的 API 稳定性。值得注意的功能包括绿色上下文（它为延迟敏感的任务划分 GPU 资源）和进程检查点（Linux 独有的功能，允许开发人员快照和恢复 GPU 状态）。这些新增功能可满足人工智能和机器学习 (ML) 应用中日益复杂的资源管理需求。

性能提升：CompileIQ 和更新的库

CUDA 13.3 引入了 CompileIQ，这是一个编译器自动调优框架，旨在优化 GPU 内核性能。使用遗传算法，CompileIQ 可将 GEMM 和注意力等关键内核的速度提升高达 15%，这些内核是大语言模型 (LLM) 推理的核心。这一改进解决了部署人工智能模型时计算要求最高的方面之一。

除了 CompileIQ 之外，NVIDIA 还增强了其核心 CUDA 数学库，包括 cuBLAS、cuSPARSE 和 cuSOLVER。更新范围包括 NVIDIA 最新 Blackwell GPU 上 FP4 和 TF32 矩阵乘法的改进性能，以及稀疏矩阵运算的新算法。人工智能、科学计算和模拟领域的开发人员将从这些优化中受益匪浅。

扩展生态系统：Python、CCCL 和 C++23

CUDA 13.3 还通过 NVCC 编译器中的完整 C++23 支持和 CCCL 3.3 中的新 Pythonic API 扩展了其生态系统。 Python 开发人员可以访问 CUDA 核心计算库 (CCCL)，以实现并行排序和归约等高性能算法，以及为 Numba 用户提供实验性协作原语。

张量互操作性也取得了飞跃。开发人员现在可以使用 DLPack 在 PyTorch 和 CUDA C++ 等框架之间无缝映射张量，从而减少混合语言项目的开发开销。

市场背景

CUDA 13.3 的发布凸显了 NVIDIA 在 GPU 加速计算领域的持续主导地位。截至 2026 年 5 月 26 日，NVIDIA 的市值已达 5.24 万亿美元，NVIDIA 不仅将 CUDA 用于人工智能和 HPC，而且还用于工业人工智能和模拟，最近与西门子和其他软件巨头的合作伙伴关系就证明了这一点。

这些更新强化了 NVIDIA 将 CUDA 更深入地集成到人工智能、数字孪生和制造工作流程（该公司的关键增长领域）中的战略。对于交易者来说，CUDA 的持续创新巩固了 NVIDIA 作为 AI 和 GPU 领域领导者的地位，支持其每股 214.86 美元的估值。

开发人员可以通过从 NVIDIA 网站下载该工具包并探索新功能来开始使用 CUDA 13.3，这些新功能有望塑造 GPU 编程的未来。

书签