Chat with Wiki - 关于大模型技术体系、国内外应用研究希望有一段内容总结给我

Answer

以下是关于大模型技术体系、国内外应用研究的总结：

大模型技术体系：

Embedding（嵌入）：是一个浮点数的向量，用于度量相关性，有词、句子、文档、图像等分类。在大模型中有重要价值，可从数据集中获取结果并保存为 csv 文件。
模型架构：多模态大模型架构分为模态编码器、输入投影器、语言模型骨干、输出投影器和模态生成器等部分，不同架构有不同的应用和实现选择。
训练流程：包括多模态预训练和多模态指令微调两个阶段。
架构分类：如 encoder-only 适用于自然语言理解任务，encoder-decoder 用于理解和生成内容，decoder-only 擅长自然语言生成任务。

大模型的特点：

预训练数据量大，来自互联网上的多种来源，如论文、代码、公开网页等，通常以 TB 级别计。
参数众多，如 GPT-3 已达 170B 的参数。

国内外应用研究：

企业级应用开发涉及利用开源的 Embedding 模型、向量数据库做检索增强生成（RAG），以及购买 GPU 服务器搭建企业级大模型项目。
对多模态大模型从模型架构、训练数据集规模等多维度进行对比，总结提升模型效果的重要训练方法，并探讨未来发展的 5 大方向，包括构建更强大的模型、设计更具挑战性的评估集、移动端/轻量级部署、具备实体性的智能和持续性指令调整。

Content generated by AI large model, please carefully verify (powered by aily)

References

认识大模型 Embedding 技术加实战

我们认识了Embedding（嵌入）是一个浮点数的向量（列表），两个向量之间的距离度量它们的相关性，小的距离表示高相关性，大的距离表示低相关性。知道了Embedding共有：词、句子、文档、图像等分类。还分析了Embedding在大模型中的价值。最后是Embedding的实战部分：从数据集中获取Embedding结果，并保存为csv文件。最后，本示例中的实战代码，参考的是官方最新文档的内容，加上个人测试阶段的遇到的问题、代码注释等OpenAI官网文档链接：https://platform.openai.com/docs/introduction大模型技术，除了在OpenAI官网能看到的：Embedding、Function Call和Fune Tuning等。进阶到企业级应用开发的大模型技术还会涉及到：利用开源的Embedding模型、向量数据库去做检索增强生成（RAG），以及购买GPU服务器去基于开源大模型搭建企业级大模型项目。

多模态大模型入门指南-长文慎入【持续更新】

内容总结，本篇综述主要介绍和分析了以下几个方面：概述了MM-LLMs的设计形式，将模型架构分为5个部分：模态编码器、输入投影器、语言模型骨干、输出投影器和模态生成器。阐述了每一部分的实现选择。描述了MM-LLMs的训练流程，主要包括多模态预训练和多模态指令微调两个阶段。总结分析了26种主流的MM-LLMs模型，从模型架构、训练数据集规模等多个维度进行了对比。综合回顾了主要MM-LLMs在18个广泛使用的视觉语言评测集上的表现，并总结提炼出提升模型效果的重要训练方法。探讨了MM-LLMs未来发展的5大方向：构建更强大的模型、设计更具挑战性的评估集、移动端/轻量级部署、具备实体性的智能和持续性指令调整。综上，该论文系统梳理了MM-LLMs的框架、模型、评估指标和未来研究方向，对其现状和发展趋势进行了全面而深入的总结，为相关领域的研究与进一步发展奠定了基础。部分模型总结如下：

从 0 到 1 了解大模型安全，看这篇就够了

encoder-only:这些模型通常适用于可以自然语言理解任务，例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的，在transformer中，包括Encoder，Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢？第一，大模型的预训练数据非常大，这些数据往往来自于互联网上，包括论文，代码，以及可进行爬取的公开网页等等，一般来说，现在最先进的大模型一般都是用TB级别的数据进行预训练。第二，参数非常多，Open在2020年发布的GPT-3就已经达到170B的参数