Linuxword Global
当前位置: AI人工智能 > 英伟达下一代数据标准,NVFP4,性能怪兽,AI奇迹芯片

NVIDIA推出全新NVFP4技术,实现4比特精度预训练,兼顾16比特的精度与4比特的效率和速度。随着大语言模型(LLM)训练规模持续扩大,Token吞吐量成为决定AI发展速度的关键。传统训练依赖16位或32位浮点格式,计算成本高昂。而NVFP4通过4比特量化,大幅降低内存占用与计算开销,同时保持生产级精度,标志着AI训练进入新阶段。
NVFP4最初用于推理优化,显著提升延迟、吞吐与能效。如今,NVIDIA将其扩展至预训练阶段,实现4比特精度下的稳定训练。这一突破并非简单压缩,而是基于专有算法与硬件协同设计,解决了低精度训练中梯度波动、动态范围受限等核心挑战。借助Blackwell架构对FP4的原生支持,GB200与GB300系统在矩阵乘法(GEMM)上实现高达7倍于Hopper架构的性能提升,显著加速模型训练流程。
实验表明,在120亿参数的混合Mamba-Transformer模型上,NVFP4预训练在10万亿Token规模下实现稳定收敛,验证损失曲线与FP8基准高度一致,未出现发散或训练不稳定问题。下游任务测试显示,NVFP4模型性能全面媲美FP8,证明其在大规模训练中具备可行性与可靠性。
该技术的关键在于一套专为低精度训练设计的量化策略,包括动态范围校准、梯度缩放与数值稳定性优化,确保在极低比特下仍能维持模型表达能力。NVFP4不仅节省硬件资源与能耗,更显著提升训练吞吐,使AI工厂能在相同算力下完成更多实验、训练更大模型,加速前沿突破。
目前,NVIDIA正与亚马逊云、谷歌云、OpenAI、Cohere、Perplexity、Kimi AI等领先机构合作推进NVFP4应用。随着技术成熟,4比特预训练有望成为下一代AI工厂的标准范式,推动生成式AI向更高效、更可持续的方向演进。

GzPi6H3bEAAObxd

在中国A股还为了E8M0的缩放因子高潮的时候,英伟达下一代数据标准都已经出来了
NVFP4,块大小从32改为16,粒度更细;缩放因子采用 E4M3 ,抛弃了E8M0的原因是有“high rounding errors”
像Deepseek这样炒作的公司尝到甜头之后,是不是下一次准备把NVFP4当作国产芯片再吹一边?

20250825042012600

英伟达最快最先进的AI GPU: Blackwell Ultra GB300,号称AI 领域的奇迹芯片,日前,英伟达发布了一篇深度解析文章,详细介绍了其最新最强的 AI 芯片 ——GB300 Blackwell Ultra。这款芯片已全面投产,并已向核心客户交付。作为 Blackwell 解决方案的延伸产品,GB300 在性能和功能上实现了重大升级。性能超 GB200 50% 并配备 288GB 内存。

640

如同英伟达 Super 系列是原版 RTX 游戏显卡的增强版,Ultra 系列则是其 AI 芯片的进阶版本。尽管此前的 Hopper 和 Volta 等产品线未明确推出 Ultra 型号,但从技术层面看也存在类似的增强版本。值得注意的是,Ultra 芯片虽在硬件层面更具优势,但软件更新与优化同样能为非 Ultra 芯片带来显著性能提升。

640-1

那么,Blackwell Ultra GB300 究竟有何特别?如前所述,它采用两颗整片晶圆尺寸的芯片(Reticle-sized Dies),通过英伟达 NV-HBI 高带宽接口连接,在逻辑上呈现为单颗 GPU。该 GPU 基于台积电 4NP 工艺(专为英伟达优化的 5nm 制程)打造,集成了 2080 亿个晶体管。NV-HBI 接口为两颗 GPU 芯片提供 10TB/s 的带宽,同时确保其作为单一芯片协同工作。

640-1

英伟达 Blackwell Ultra GB300 GPU 集成了 160 个流式多处理器(SM),每个 SM 包含 128 个 CUDA 核心、4 个支持 FP8/FP6/NVFP4 精度计算的第五代张量核心、256KB 张量内存(TMEM)及特殊函数单元(SFU)。整体规格达到 20480 个 CUDA 核心、640 个张量核心及 40MB TMEM。

 

640

 

第五代张量核心是实现 AI 计算的核心引擎,英伟达在每代 GPU 的张量核心技术上均有重大创新:

·Volta 架构:8 线程矩阵乘法累加单元(MMA),支持 FP16 训练并搭配 FP32 累加计算

·Ampere 架构:全 warp 范围 MMA 单元,引入 BF16 和 TensorFloat-32 格式

·Hopper 架构:跨 128 线程的 warp 组 MMA 单元,集成支持 FP8 的 Transformer 引擎

·Blackwell 架构:第二代 Transformer 引擎,支持 FP8/FP6/NVFP4 计算及 TMEM 存储

640-3

Blackwell Ultra 还实现了内存规格的重大升级:搭载 288GB HBM3e 显存,较前代 Blackwell GB200 的最高 192GB 提升显著。这一升级使其能够支持万亿级参数规模的 AI 模型。内存采用 8 堆叠设计,配备 16 个 512 位控制器(总带宽 8192 位),单 GPU 显存带宽达 8TB/s,具体优势包括:

·完整模型驻留:无需内存卸载即可运行 3000 亿 + 参数模型

·扩展上下文长度:为 Transformer 模型提供更大 KV 缓存容量

·提升计算效率:针对多样化工作负载优化计算 - 内存比率

640-2

Blackwell 系列的互联技术包括 NVLINK 交换机、NVLINK-C2C 连接,以及用于主机 GPU 连接的 PCIe Gen6 x16 接口。以下是 NVLINK 5 及主机端连接的关键特性:

·单 GPU 双向带宽:1.8TB/s(18 条链路 ×100GB/s)

·性能扩展:较 Hopper GPU 的 NVLink 4 提升 2 倍

·最大拓扑规模:支持 576 颗 GPU 构建无阻塞计算架构

·机架级集成:72 颗 GPU 的 NVL72 配置,总带宽达 130TB/s

·PCIe 接口:Gen6×16 通道(双向 256GB/s)

·NVLink-C2C:支持 Grace CPU-GPU 内存一致性通信(900GB/s)

 

采集失败,请手动处理

https://mmbiz.qpic.cn/mmbiz_png/RCK3E1icyUYrAWHIWvbGZlIibZaribO8eODLib7xkhSLXcv8peU1ZtMx4onHtwR9QmmRXgiaO8Kbb8nWiaDH<aRFhAiajxg/640?wx_fmt=png&from=appmsg&watermark=1" class="rich_pages wxw-img" data-ratio="0.23333333333333334" data-s="300,640" data-type="png" data-w="930" type="block" data-imgfileid="503570832" data-original-style="null" data-index="9" src="https://www.eetop.cn/uploadfile/2025/0825/20250825042019914.jpg" _width="677px" alt="图片" data-report-img-idx="8" data-fail="0" style="-webkit-tap-highlight-color: transparent;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;vertical-align: bottom;height: auto !important;visibility: visible !important;width: 676.982px !important"/>

 

得益于全新 NVFP4 标准,英伟达 Blackwell Ultra GB300 平台的密集低精度计算输出提升 50%,同时保持接近 FP8 的精度水平(差异通常小于 1%)。与 FP8 相比,NVFP4 还能将内存占用减少 1.8 倍,较 FP16 减少 3.5 倍。

640-2

Blackwell Ultra 还搭载了先进的调度管理与企业级安全特性:

·增强型 GigaThread 引擎:新一代工作调度器,优化上下文切换性能并实现 160 个 SM 间的工作负载智能分配

·多实例 GPU(MIG):支持将 GPU 划分为不同规格的 MIG 实例(如 2 个 140GB 实例、4 个 70GB 实例或 7 个 34GB 实例),实现安全多租户环境下的性能隔离

·机密计算与安全 AI:为敏感 AI 模型和数据提供硬件级可信执行环境(TEE),首次在 Blackwell 架构中集成 TEE-I/O 功能,并通过 NVLink 在线加密实现接近未加密模式的吞吐量

·高级远程证明服务(RAS)引擎:基于 AI 的可靠性监控系统,实时监测数千项参数以预测故障、优化维护计划,最大化大规模部署的系统可用性

性能效率方面,Blackwell Ultra GB300 的每兆瓦吞吐量(TPS/MW)较 Blackwell GB200 进一步提升(具体数据见下图)。

640-3

640-4

640-5

640-6

种种创新表明,英伟达凭借 Blackwell 及 Blackwell Ultra 等工程杰作稳居 AI 领域之巅。其深度软件支持与持续优化是核心竞争力,而年度硬件迭代节奏与不断加码的研发投入,将确保其在未来数年内持续引领行业。

「梦想一旦被付诸行动,就会变得神圣,如果觉得我的文章对您有用,请帮助本站成长」

赞(0) *** 在线联系博主***
+1(323)529-5889

TeleGram联系

WhatsAPP联系

标签:

上一篇:

下一篇:

相关推荐

博客简介

本站CDN采用VmShell免费提供离中国大陆最近的香港CMI高速网络做支撑,ToToTel打造全球最快速的边沿网络支撑服务,具体详情请见 :https://vmshell.com/ 以及 https://tototel.com/,网站所有的文件和内容禁止大陆网站搬迁复制,谢谢,VPS营销投稿邮箱: admin@linuxxword.com,我们免费帮大家发布,不收取任何费用,请提供完整测试文稿!

精彩评论

关于VmShell INC

VMSHELL INC 是一家成立于2021年的美国云计算服务公司,总部位于怀俄明州谢里丹,专注于提供全球数据中心的虚拟机服务器租赁和全球金融服务。 公司旗下品牌包括VmShell 和ToToTel,业务覆盖亚洲和美洲以及欧洲,致力于为外贸企业提供高效、稳定的网络解决方案。购买CMI香港服务器

站点统计

  • 文章总数: 3140 篇
  • 草稿数目: 0 篇
  • 分类数目: 9 个
  • 独立页面: 0 个
  • 评论总数: 2 条
  • 链接总数: 0 个
  • 标签总数: 48026 个
  • 注册用户: 139 人
  • 访问总量: 8,652,345 次
  • 最近更新: 2025年12月5日