Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

GPU如何选

Answer

以下是关于如何选择 GPU 的一些指导:

在腾讯云购买 GPU 的流程

  1. 在腾讯云首页的搜索框搜索“GPU”,在搜索结果中点击「立即选购」。
  2. 选择有空余的机器,若账户没钱可能需要充钱,云平台有时会有免费活动。计费模式建议选择「按量计费」,地域尽量选择本地城市或较近城市,以减少访问延时。
  3. 配置方面,如果使用时长不长或资金充裕,可选择顶配。要记住选择的 GPU 型号和系统镜像版本,后续安装驱动会用到。系统镜像选择 Windows 的,尽量选择 2016 版本以上。系统盘容量建议大于 50GB,最好 100GB 左右。
  4. 设置好系统和镜像后,其他选项按默认即可,点击进入「设置网络和主机」。带宽计费模式选择「按流量计费」。
  5. GPU 服务器的密码需自己设置并记住,访问时需要输入。其他信息选择默认,点击「确认配置信息」,勾选阅读协议,点击「开通」并确认即可完成购买。

选择 GPU 时的考虑因素

  1. 训练与推理:训练大型模型通常在机器集群上完成,最好每台服务器有多个 GPU、大量 VRAM 以及高带宽连接。许多模型在 NVIDIA H100 上最具成本效益,但较难获取且通常需要长期合作承诺。如今更多选择在 NVIDIA A100 上运行大多数模型训练,但对于大型集群仍需长期承诺。
  2. 内存要求:大型 LLM 的参数数量多,需要分布到多个卡中。较小的模型如 Stable Diffusion 需要的 VRAM 较少,初创公司也会使用 A10、A40、A4000、A5000 和 A6000 甚至 RTX 卡。

算力相关: GPU 的强大决定了生图和训练的效率,越强大的算力在生图(推理)和训练上消耗的时间越短。显存在生图过程决定了直接推理的图片大小,在训练时受制于训练工具的要求,显存容量是门槛。选择算力时需要综合 GPU 性能和显存大小两个参考维度。由于需要使用 CUDA 加速,显卡大概率只能选择 NVIDIA 的。至于买哪个型号的显卡,取决于预算和对算力换算成时间的忍耐度。可参考相关性能测试报告:https://docs.google.com/spreadsheets/d/1Zlv4UFiciSgmJZncCujuXKHwc4BcxbjbSBg71-SdeNk/edit#gid=0

Content generated by AI large model, please carefully verify (powered by aily)

References

2. SD云端部署

类似你的电脑,只不过是在云服务器上提供给你用。[heading3]2.1在腾讯云首页,搜索框搜索“GPU”,搜索结果中,如图点击「立即选购」[heading3]2.2选择你「中意」的还有空余的机器,购买即可[content]如果账户没钱会需要充钱,不过云平台有时候会搞免费活动,类似赠送一定时长的机器体验,这个就得碰运气,然后逮着机会薅羊毛了~计费模式上建议选择「按量计费」,地域上尽量选择你本地城市或者离你较近的城市,因为你需要通过网络远程连接云端的机器,近点访问延时更少~配置上(上图黄色部分),如果使用时长不长或者资金充裕,可以选择顶配,越高的配置,训图炼丹都会更「爽」~另外,这里需要记住你选择的GPU型号,后边安装驱动要用到。(上图红色部分)系统镜像这里选择Windows的,因为后续我们要用的秋叶Web UI包是基于Windows的,这里尽量选择Windows 2016版本以上的,另外这里需要记住你选择的镜像版本,后边安装驱动要用到。系统盘容量建议选择大于50GB,最好是100 GB左右(多了价格也高~),因为算上操作系统,以及SD包,再加几个大模型,50GB就满了。系统和镜像设置好后,其他选项按默认即可,点击进入「设置网络和主机」。带宽计费模式选择「按流量计费」,这样更省钱~其他信息都无需修改,按默认配置即可;GPU服务器的密码需要自己设置并记住,访问的时候都需要输入。其他信息选择默认的即可,点击「确认配置信息」。勾选阅读协议,点击「开通」并确认后即完成GPU购买。

惊人算力成本背后,AI混战下如何选择基础设施?

在其他条件相同的情况下,顶级GPU在几乎所有工作负载上都会表现最佳。然而,正如下表所示,最好的硬件也要昂贵得多。根据具体应用选择合适的GPU可以大大降低成本,也可能使你的商业模式从不可行变为可行。决定要往下走多远——也就是说,确定对你的应用来说最具成本效益的GPU选择——主要是一个技术决策,超出了本文的讨论范围。但我们将在下面分享一些我们认为最重要的选择标准:[heading3]训练与推理:[content]正如我们在上文第一节看到的,训练Transformer模型除了模型权重外,还需要存储8字节的数据用于训练。这意味一个内存12GB的典型高端消费级GPU几乎无法用于训练40亿参数的模型。实际上,训练大型模型是在机器集群上完成的,最好是每台服务器有多个GPU、大量VRAM以及服务器之间的高带宽连接(即使用顶级数据中心GPU构建的集群)。具体来说,许多模型在NVIDIA H100上最具成本效益,但截至今天很难找到在NVIDIA H100上运行的模型,而且通常需要一年以上的长期合作承诺。如今,更多的选择是在NVIDIA A100上运行大多数模型训练,但对于大型集群,仍需要长期承诺。[heading3]内存要求:[content]大型LLM的参数数量太多,任何卡都无法容纳。它们需要分布到多个卡中,并且需要类似于训练的设置。换句话说,即使进行LLM推理,您也可能需要H100或A100。但是较小的模型(例如Stable Diffusion)需要的VRAM要少得多。虽然A100仍然很受欢迎,但我们已经看到初创公司使用A10,A40,A4000,A5000和A6000,甚至RTX卡。

你看我这算力如何?(硬件篇)

GPU的强大主要决定了生图和训练的效率,也就是越强大的算力在生图(推理)和训练上消耗的时间就越短。显存在生图过程决定了我们直接推理的图片大小(尺寸),同GPU一样,在训练的时候又受制于训练工具的要求显存的容量决定了行还是不行,是门槛。所以在选择算力的时候我们需要综合GPU性能和显存大小2个参考维度。先看windows平台的电脑需要什么样的算力。如果你拥有windows平台的个人电脑更容易加入这个party。但也并不是说别的平台就只能喝西北风,后面有讲。[heading1]只推荐Nvidia显卡[content]因为需要使用到CUDA加速,所以显卡大概率只能选择英伟NVIDIA的,AMD的可以不可以,可以,但是很慢很慢(上面对GPU和CPU的原理介绍发现也可以不用显卡用CPU跑图,就是速度极~~慢)至于买哪个型号的显卡,这个主要取决于你的预算和对算力换算成时间的忍耐度了。下面有一张表,可以按需获取。这里有一张可能不太具备时效性的表,仅作参考。各种显卡的稳定扩散性能测试报告(需要科学?️)https://docs.google.com/spreadsheets/d/1Zlv4UFiciSgmJZncCujuXKHwc4BcxbjbSBg71-SdeNk/edit#gid=0

Others are asking
ai为何使用GPU而不是CPU
AI 使用 GPU 而不是 CPU 主要有以下原因: 1. 强大的计算能力:GPU 在并行处理大量数据方面具有显著优势。例如,同年《Largescale Deep Unsupervised Learning using Graphics Processors》这篇论文指出,利用 GPU 比 CPU 快 70 倍,能将数周的工作压缩到几天甚至一天完成。 2. 适应深度学习需求:大型神经网络、输入的多个变量以及有效的反向传播 GPU 实现等方面,GPU 表现出色。如 MNIST 数据库能达到令人惊叹的 0.35%错误率。 3. 处理图形相关运算:GPU 原本就是为处理图像和图形相关运算工作而设计,其采用的核心技术如硬件 T&L 等,适合 AI 中的图形处理任务。 4. 分担 CPU 工作:GPU 的诞生源自对 CPU 的减负,使显卡减少对 CPU 的依赖,并进行部分原本 CPU 的工作。 5. 算力优势:算力可以直接转化为 GPU,一张显卡中的 GPU 是计算能力的关键。 6. 适应 AI 模型需求:当今所有 AI 模型都在使用大量专用芯片的 GPU 卡上运行。例如 NVIDIA A100 GPU 有 512 个“张量核心”,能大幅提高计算效率。但实际应用中,也存在一些限制,如数据传输、内存容量和优化方法等问题。
2025-02-14
comfyui的本地部署安装,GPU:RX6600 8G,CPU:R5 5600,内存:DDR4 8G*2
以下是关于 ComfyUI 本地部署安装的相关信息: ComfyUI 相比 WebUI,配置更低,系统资源占用更少,出图速度更快,最低可在小于 3G 的 GPU 上运行,甚至没有 GPU 光用 CPU 也可以运行,但速度极慢。SDXL 出来后提高了运行配置,最低需要 8GB 显存+32GB 运行内存,12GB 流畅运行,推荐 16GB 以上。运行内存最低 32GB,越高越好,最低配会经常爆显存。玩 SDwebui 和 ComfyUI 建议使用 6GB 以上显存的 NVIDIA 显卡(N 卡),内存在 16G 以上。硬盘会影响加载模型的速度,最好把软件和模型部署在 SSD 上。如果电脑能顺畅清晰地玩 3A 游戏,那玩 webui 和 ComfyUI 也没问题。配置上不封顶,根据自己的需求和预算来即可。 安装地址:https://github.com/comfyanonymous/ComfyUI 。可以下载安装包也可以直接 Git clone https://github.com/comfyanonymous/ComfyUI.git ,或者下载安装包 file:ComfyUI.zip ,下载安装包或者点击链接下载并解压至本地除 C 盘外的任意盘。然后找到文件名称为 run_nvidia_gpu 的文件双击并启动。启动完成即进入基础界面。 节点存放目录:D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\custom_nodes 。 模型存放目录: 大模型:D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\checkpoints 。 Lora:D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\loras 。 Vae:D:\\COMFYUI\\ComFYUI_windows_portable\\ComfyUI\\models\\vae 。 已经安装了 SDWebUI 的同学可以通过修改文件路径和 WebUI 共用一套模型即可,这样就不用重复下载模型了。找到已安装好的 ComfyUI 目录文件下的 extra_model_paths.yaml.example 文件,将后缀.example 删除,然后右键用记事本打开。 您的电脑配置为 GPU:RX6600 8G,CPU:R5 5600,内存:DDR4 8G2,可能需要注意内存方面可能不太满足推荐配置,可能会影响运行效果。
2025-02-13
RuntimeError: All input tensors need to be on the same GPU, but found some tensors to not be on a GPU
以下是对您所遇到的报错“RuntimeError: All input tensors need to be on the same GPU, but found some tensors to not be on a GPU”的一些可能的解决方案: 1. 检查您的代码和模型设置,确保所有输入张量都被正确地分配到同一个 GPU 上。 2. 对于与显存相关的问题,如爆显存的情况,在训练时可以尝试调小批量大小,在推理时可以使用强制切片。 3. 调大虚拟内存,可能有助于解决一些与内存相关的报错。 同时,在处理与 AI 相关的报错时,还可能会遇到其他类似的问题,例如: 1. 页面文件太小,无法完成操作。解决方法是增大系统虚拟内存大小。 2. 出现“torch.cuda.OutOfMemoryError: CUDA out of memory”报错,通常是爆显存了。 3. 遇到“DataLoader workerexited unexpectedly”报错,可把虚拟内存再调大一点。 4. “CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling 'cublasCreate'”报错,一般也是爆显存。 5. “'HParams' object has no attribute 'xxx'”报错,可能是无法找到音色,一般是配置文件和模型没对应,打开配置文件拉到最下面查看是否有训练的音色。 6. “The expand size of the tensor at nonsingleton dimension 0”报错,可把 dataset/44k 下的内容全部删除,重新走一遍预处理流程。 7. “Given groups=1, weight of size to have 256 channels, but got 768 channels instead”报错,可能是 vec256 的模型用了 vec768 的配置文件,反之亦然,请参考旧模型兼容,确认配置文件和模型维度对应。 8. “配置文件中的编码器与模型维度不匹配”报错,可能是在修改配置文件中的“speech_encoder”时修改错了,检查配置文件中的“ssl_dim”一项,如果这项是 256,那您需要确认配置文件和模型维度的对应关系。
2025-01-17
常见GPU卡介绍与比较
以下是常见 GPU 卡的介绍与比较: 在选择 GPU 作为 AI 基础设施时,需要考虑多个因素: 训练与推理方面:训练大型 Transformer 模型通常需要在机器集群上完成,最好是每台服务器有多个 GPU、大量 VRAM 以及服务器之间的高带宽连接。许多模型在 NVIDIA H100 上最具成本效益,但获取较难且通常需要长期合作承诺。如今,NVIDIA A100 常用于大多数模型训练。对于大型语言模型(LLM)的推理,可能需要 H100 或 A100,而较小的模型如 Stable Diffusion 则对 VRAM 需求较少,初创公司也会使用 A10、A40、A4000、A5000 和 A6000 甚至 RTX 卡。 内存要求方面:大型 LLM 的参数数量众多,无法由单张卡容纳,需要分布到多个卡中。 硬件支持方面:虽然绝大多数工作负载在 NVIDIA 上运行,但也有公司开始尝试其他供应商,如谷歌 TPU 和英特尔的 Gaudi2,但这些供应商面临的挑战是模型性能高度依赖软件优化。 延迟要求方面:对延迟不太敏感的工作负载可使用功能较弱的 GPU 以降低计算成本,而面向用户的应用程序通常需要高端 GPU 卡来提供实时用户体验。 峰值方面:生成式 AI 公司的需求经常急剧上升,在低端 GPU 上处理峰值通常更容易,若流量来自参与度或留存率较低的用户,以牺牲性能为代价使用较低成本资源也有意义。 此外,算力可以理解为计算能力,在电脑中可直接转化为 GPU,显卡就是 GPU,除了 GPU 外,显存也是重要参数。GPU 是一种专门做图像和图形相关运算工作的微处理器,其诞生是为了给 CPU 减负,生产商主要有 NVIDIA 和 ATI。
2025-01-06
GPU的计算特性
GPU(图形处理器)具有以下计算特性: 1. 专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。 2. 诞生源自对 CPU 的减负,使显卡减少了对 CPU 的依赖,并进行部分原本 CPU 的工作,尤其是在 3D 图形处理时。 3. 所采用的核心技术有硬件 T&L(几何转换和光照处理)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素 256 位渲染引擎等,硬件 T&L 技术可以说是 GPU 的标志。 4. 生产商主要有 NVIDIA 和 ATI。 5. 在矩阵乘法方面表现出色,早期使用游戏用的 GPU 能使运算速度提高 30 倍。 6. 随着 AI 领域的发展而不断发展,例如在训练神经网络方面发挥重要作用。
2025-01-06
常见GPU卡介绍与比较
以下是常见 GPU 卡的介绍与比较: 在 AI 基础设施的考虑因素中,比较 GPU 时需要关注以下几个方面: 训练与推理: 训练 Transformer 模型除了模型权重外,还需要存储 8 字节的数据用于训练。内存 12GB 的典型高端消费级 GPU 几乎无法用于训练 40 亿参数的模型。 训练大型模型通常在机器集群上完成,最好是每台服务器有多个 GPU、大量 VRAM 以及服务器之间的高带宽连接。 许多模型在 NVIDIA H100 上最具成本效益,但截至目前很难找到在 NVIDIA H100 上运行的模型,且通常需要一年以上的长期合作承诺。如今,更多选择在 NVIDIA A100 上运行大多数模型训练,但对于大型集群,仍需要长期承诺。 内存要求: 大型 LLM 的参数数量太多,任何卡都无法容纳,需要分布到多个卡中。 即使进行 LLM 推理,可能也需要 H100 或 A100。但较小的模型(如 Stable Diffusion)需要的 VRAM 要少得多,初创公司也会使用 A10、A40、A4000、A5000 和 A6000,甚至 RTX 卡。 硬件支持: 虽然绝大多数工作负载都在 NVIDIA 上运行,但也有一些公司开始尝试其他供应商,如谷歌 TPU、英特尔的 Gaudi2。 这些供应商面临的挑战是,模型的性能往往高度依赖于芯片的软件优化是否可用,可能需要执行 PoC 才能了解性能。 延迟要求: 对延迟不太敏感的工作负载(如批处理数据处理或不需要交互式 UI 响应的应用程序)可以使用功能较弱的 GPU,能将计算成本降低多达 3 4 倍。 面向用户的应用程序通常需要高端 GPU 卡来提供引人入胜的实时用户体验,优化模型是必要的,以使成本降低到可管理的范围。 峰值: 生成式 AI 公司的需求经常急剧上升,新产品一经发布,请求量每天增加 10 倍,或者每周持续增长 50%的情况并不罕见。 在低端 GPU 上处理这些峰值通常更容易,因为更多的计算节点可能随时可用。如果这种流量来自于参与度较低或留存率较低的用户,那么以牺牲性能为代价使用较低成本的资源也是有意义的。 此外,算力可以直接转化成 GPU,电脑里的显卡就是 GPU。一张显卡除了 GPU 外,显存也是很重要的参数。GPU 的生产商主要有 NVIDIA 和 ATI。GPU 作为一种专门在个人电脑、工作站、游戏机和一些移动设备上做图像和图形相关运算工作的微处理器,其诞生源自对 CPU 的减负,使显卡减少了对 CPU 的依赖,并进行部分原本 CPU 的工作。
2025-01-06