知識ベースとの対話

以下是常见 GPU 卡的介绍与比较：在 AI 基础设施的考虑因素中，比较 GPU 时需要关注以下几个方面：训练与推理：训练 Transformer 模型除了模型权重外，还需要存储 8 字节的数据用于训练。内存 12GB 的典型高端消费级 GPU 几乎无法用于训练 40 亿参数的模型。训练大型模型通常在机器集群上完成，最好是每台服务器有多个 GPU、大量 VRAM 以及服务器之间的高带宽连接。许多模型在 NVIDIA H100 上最具成本效益，但截至目前很难找到在 NVIDIA H100 上运行的模型，且通常需要一年以上的长期合作承诺。如今，更多选择在 NVIDIA A100 上运行大多数模型训练，但对于大型集群，仍需要长期承诺。内存要求：大型 LLM 的参数数量太多，任何卡都无法容纳，需要分布到多个卡中。即使进行 LLM 推理，可能也需要 H100 或 A100。但较小的模型（如 Stable Diffusion）需要的 VRAM 要少得多，初创公司也会使用 A10、A40、A4000、A5000 和 A6000，甚至 RTX 卡。硬件支持：虽然绝大多数工作负载都在 NVIDIA 上运行，但也有一些公司开始尝试其他供应商，如谷歌 TPU、英特尔的 Gaudi2。这些供应商面临的挑战是，模型的性能往往高度依赖于芯片的软件优化是否可用，可能需要执行 PoC 才能了解性能。延迟要求：对延迟不太敏感的工作负载（如批处理数据处理或不需要交互式 UI 响应的应用程序）可以使用功能较弱的 GPU，能将计算成本降低多达 3 4 倍。面向用户的应用程序通常需要高端 GPU 卡来提供引人入胜的实时用户体验，优化模型是必要的，以使成本降低到可管理的范围。峰值：生成式 AI 公司的需求经常急剧上升，新产品一经发布，请求量每天增加 10 倍，或者每周持续增长 50%的情况并不罕见。在低端 GPU 上处理这些峰值通常更容易，因为更多的计算节点可能随时可用。如果这种流量来自于参与度较低或留存率较低的用户，那么以牺牲性能为代价使用较低成本的资源也是有意义的。此外，算力可以直接转化成 GPU，电脑里的显卡就是 GPU。一张显卡除了 GPU 外，显存也是很重要的参数。GPU 的生产商主要有 NVIDIA 和 ATI。GPU 作为一种专门在个人电脑、工作站、游戏机和一些移动设备上做图像和图形相关运算工作的微处理器，其诞生源自对 CPU 的减负，使显卡减少了对 CPU 的依赖，并进行部分原本 CPU 的工作。