Chat with Wiki - 如何自己做一个大模型

Answer

要自己做一个大模型，主要包括以下步骤：

理解大模型：大模型是通过输入大量语料，让计算机获得类似人类的“思考”能力，能进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比其训练和使用过程。
- 找学校：训练大模型需要大量计算，GPU 更合适，只有有足够资本购买大量 GPU 的才有能力训练。
- 确定教材：大模型需要大量数据，几千亿序列（Token）的输入是基本标配。
- 找老师：选择合适的算法让大模型更好理解 Token 之间的关系。
- 就业指导：为让大模型更好胜任某一行业，需要进行微调（fine tuning）指导。
- 搬砖：完成就业指导后，进行如翻译、问答等工作，在大模型里称为推导（infer）。Token 被视为模型处理和生成的文本单位，会被分割并形成词汇表。
部署和训练：
- 选择合适的部署方式，如本地环境部署、云计算平台部署、分布式部署、模型压缩和量化、公共云服务商部署等，根据自身资源、安全和性能需求选择。
- 准备训练所需的数据和计算资源，确保有足够训练数据覆盖目标应用场景，并准备足够的计算资源，如 GPU 服务器或云计算资源。
- 选择合适的预训练模型作为基础，如开源的 BERT、GPT 等，也可自行训练基础模型。
- 针对目标任务进行模型微调训练，根据具体应用场景对预训练模型进行微调，优化模型结构和训练过程以提高性能。
- 部署和调试模型，将训练好的模型部署到生产环境，进行在线调试和性能优化。
- 注意安全性和隐私保护，重视大模型涉及的大量数据和隐私信息的安全性和合规性。
对于 0 基础训练大模型的 Lora 生图部分：
- 点击预览模型中间的生图会自动跳转页面。
- 模型上的数字代表模型强度，可在 0.6 - 1.0 之间调节，默认为 0.8 。
- 可以自己添加 lora 文件，点击后会显示训练过的所有 lora 的所有轮次。
- VAE 不需要替换，正向提示词输入写的提示词。
- 可以选择基于提示词一次性生成几张图，选择生成图片的尺寸，如横板、竖版、正方形。
- 采样器和调度器新手小白可以默认，迭代步数在 20 - 30 之间调整，CFG 在 3.5 - 7.5 之间调整，随机种子 - 1 代表随机生成图。
- 所有设置好后，点击开始生成，生成的图会显示在右侧。
- 若某次生成结果不错，想要微调或高分辨率修复，可点开图，下滑复制随机种子，粘贴到随机种子处，下次生成的图会近似。
- 若确认合适的种子和参数，想要高清放大，点开高清修复，选择放大倍数，新手小白可默认算法，迭代步数建议在 20 - 30 之间，重回幅度在 0.3 - 0.7 之间调整。

Content generated by AI large model, please carefully verify (powered by aily)

References

通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）在LLM中，Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表（Vocabulary），比如：The cat sat on the mat，会被分割成“The”、“cat”、“sat”等的同时，会生成下面的词汇表：|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|

问：如何部署和训练自己的AI开源模型

根据搜索结果，以下是部署和训练自己的大模型的主要步骤：1.选择合适的部署方式本地环境部署云计算平台部署分布式部署模型压缩和量化公共云服务商部署根据自身的资源、安全和性能需求选择合适的部署方式。2.准备训练所需的数据和计算资源确保有足够的训练数据覆盖目标应用场景准备足够的计算资源，如GPU服务器或云计算资源3.选择合适的预训练模型作为基础可以使用开源的预训练模型如BERT、GPT等作为基础也可以自行训练一个基础模型4.针对目标任务进行模型微调训练根据具体应用场景对预训练模型进行微调训练优化模型结构和训练过程以提高性能5.部署和调试模型将训练好的模型部署到生产环境对部署的模型进行在线调试和性能优化6.注意安全性和隐私保护大模型涉及大量数据和隐私信息，需要重视安全性和合规性总的来说，部署和训练自己的大模型需要综合考虑多方面因素，包括部署方式、数据准备、模型训练、部署调试以及安全性等。需要根据具体需求选择合适的方法，并注意优化各个环节以提高模型性能和应用效果。内容由AI大模型生成，请仔细甄别

10-0基础训练大模型

上图中，点击预览模型中间的生图会自动跳转到这个页面模型上的数字代表模型强度，可以调节大小，正常默认为0.8，建议在0.6-1.0之间调节当然，你也可以自己添加lora文件点击后会显示你训练过的所有lora的所有轮次VAE不需要替换正向提示词输入你写的提示词可以选择基于这个提示词一次性生成几张图选择生成图片的尺寸，横板、竖版、正方形采样器和调度器新手小白可以默认这个不换迭代步数可以按照需求在20-30之间调整CFG可以按照需求在3.5-7.5之间调整随机种子-1代表随机生成图所有设置都好了以后，点击开始生态，生成的图会显示在右侧如果有哪次生成结果你觉得很不错，想要微调或者高分辨率修复，可以点开那张图往下滑，划到随机种子，复制下来粘贴到i机种子这里，这样下次生成的图就会和这次的结果近似如果确认了一张很合适的种子和参数，想要搞清放大则点开高清修复，可以选择你想放大的倍数新手小白可以就默认这个算法迭代步数也是建议在20-30之间重回幅度根据需求调整，正常来说在0.3-0.7之间调整