以下是关于 GPU 算力平台的相关信息:
NVIDIA 推出全新 GPU 平台 Blackwell,涵盖与 Hopper 兼容的普通系统和与 Grace CPU 连接的专用系统,提供前所未有的算力,有望突破物理极限,为互联网产业注入新动力。配备第五代 NV Link 的全新 Transformer 引擎速度惊人,新型超算的高速运转离不开早期问题检测和替换机制,数据加密也至关重要。全新的 FP8 格式大幅提升计算速度,NVLink 交换芯片实现所有 GPU 同时全速通信,直接驱动铜技术的突破让系统更加经济实惠。训练一个 1.8 万亿参数的 GPT 模型,Blackwell 相比传统方法优势明显,AWS、GCP、Oracle、微软纷纷为 Blackwell 做好准备。Blackwell 惊人的推理能力是 Hopper 的 30 倍,有望成为未来生成式 AI 的核心引擎。
能耗是模型训练的关键问题,一台由 8 张 A100 GPU 组成的 DGX 服务器性能强劲但能耗惊人,运行一小时消耗约 6.5 度电,包括散热每小时约消耗 13 度电。若有 1000 台这样的服务器同时运行,每天电费达 20 万元。对于大多数 AI 创业公司,大规模购买和部署 GPU 充满风险和挑战,但云服务平台为 AI 公司提供了灵活选择。
英伟达发布统一的超算平台 DGX B200,用于 AI 模型训练、微调和推理。它包括 8 个 Blackwell GPU 和 2 个第五代 Intel Xeon 处理器,包含 FP4 精度功能,提供高达 144 petaflops 的 AI 性能、1.4TB 的 GPU 内存和 64TB/s 的内存带宽,使得万亿参数模型的实时推理速度比上一代产品提高 15 倍。目前,亚马逊、谷歌、微软已成为最新芯片超算的首批用户,亚马逊网络服务将建立一个拥有 20,000 GB200 芯片的服务器集群。
2024-12-14