NVIDIA CUDA 13.3 引入了 Tile C++ 编程、Python 更新和 CompileIQ,可实现高达 15% 的内核加速并增强 GPU 开发。
NVIDIA(纳斯达克股票代码:NVDA)推出了 CUDA 13.3,这是其并行计算平台的最新版本,为 GPU 开发人员带来了新功能。主要升级包括推出 C++ CUDA Tile 编程以及引入 CUDA Python 1.0。这些更新旨在简化高性能 GPU 内核开发,同时提供显着的性能提升。
其中一项突出功能是使用 C++ 进行 CUDA Tile 编程,它使开发人员能够创建基于图块的 GPU 内核。这种高级抽象可自动执行并行性和内存管理等低级 GPU 任务,确保跨 NVIDIA GPU 架构(包括最新的 Hopper GPU(计算能力 9.0))的可移植性。 Tile 编程预计将简化利用 Tensor Core 处理 AI 和 HPC 工作负载的开发人员的工作流程。
在 Python 方面,CUDA Python 1.0 采用语义版本控制标志着一个里程碑。这确保了生产环境的 API 稳定性。值得注意的功能包括绿色上下文(它为延迟敏感的任务划分 GPU 资源)和进程检查点(Linux 独有的功能,允许开发人员快照和恢复 GPU 状态)。这些新增功能可满足人工智能和机器学习 (ML) 应用中日益复杂的资源管理需求。
性能提升:CompileIQ 和更新的库
CUDA 13.3 引入了 CompileIQ,这是一个编译器自动调优框架,旨在优化 GPU 内核性能。使用遗传算法,CompileIQ 可将 GEMM 和注意力等关键内核的速度提升高达 15%,这些内核是大语言模型 (LLM) 推理的核心。这一改进解决了部署人工智能模型时计算要求最高的方面之一。
除了 CompileIQ 之外,NVIDIA 还增强了其核心 CUDA 数学库,包括 cuBLAS、cuSPARSE 和 cuSOLVER。更新范围包括 NVIDIA 最新 Blackwell GPU 上 FP4 和 TF32 矩阵乘法的改进性能,以及稀疏矩阵运算的新算法。人工智能、科学计算和模拟领域的开发人员将从这些优化中受益匪浅。
扩展生态系统:Python、CCCL 和 C++23
CUDA 13.3 还通过 NVCC 编译器中的完整 C++23 支持和 CCCL 3.3 中的新 Pythonic API 扩展了其生态系统。 Python 开发人员可以访问 CUDA 核心计算库 (CCCL),以实现并行排序和归约等高性能算法,以及为 Numba 用户提供实验性协作原语。
张量互操作性也取得了飞跃。开发人员现在可以使用 DLPack 在 PyTorch 和 CUDA C++ 等框架之间无缝映射张量,从而减少混合语言项目的开发开销。
市场背景
CUDA 13.3 的发布凸显了 NVIDIA 在 GPU 加速计算领域的持续主导地位。截至 2026 年 5 月 26 日,NVIDIA 的市值已达 5.24 万亿美元,NVIDIA 不仅将 CUDA 用于人工智能和 HPC,而且还用于工业人工智能和模拟,最近与西门子和其他软件巨头的合作伙伴关系就证明了这一点。
这些更新强化了 NVIDIA 将 CUDA 更深入地集成到人工智能、数字孪生和制造工作流程(该公司的关键增长领域)中的战略。对于交易者来说,CUDA 的持续创新巩固了 NVIDIA 作为 AI 和 GPU 领域领导者的地位,支持其每股 214.86 美元的估值。
开发人员可以通过从 NVIDIA 网站下载该工具包并探索新功能来开始使用 CUDA 13.3,这些新功能有望塑造 GPU 编程的未来。
