Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

BERT

Answer

BERT 是“来自 Transformer 的双向编码器表示”(“Bidirectional Encoder Representations from Transformers”)的缩写,由谷歌的研究人员于 2018 年引入。

BERT 不仅指模型体系结构,还指经过训练的模型本身,可在这里免费下载和使用。谷歌的研究人员在一个庞大的文本语料库上对它进行了训练,它已成为一种用于自然语言处理的通用模型,能够扩展来解决一系列不同的任务,比如:文本摘要、问答、分类、命名实体识别、文本相似度、攻击性信息/脏话检测、理解用户的查询等。

BERT 证明,可以在未标记的数据上建立非常好的语言模型,比如从 Wikipedia 和 Reddit 中提取的文本,并且这些大型的“基础”模型可以与特定领域的数据相适应,适用于许多不同的用例。

BERT 为 Google 搜索提供支持,其有多个变体。BERT 接受了两种变体的训练,Bert Base 有 12 个 Transformers,大约有 1.1 亿个参数;Bert Large 有 24 层 Transformer,大约有 3.4 亿个参数。BERT 模型之所以强大,是因为它可以处理长输入上下文,在整个维基百科语料库和书籍语料库上进行了训练,训练了 100 万步。BERT 接受过不同任务的训练,具有多任务目标,适用于句子级别和标记级别。最初发布的两个不同版本的 BERT 分别是有 12 层的 Bert Base 和有 24 层的 Bert Large。

Content generated by AI large model, please carefully verify (powered by aily)

References

解析 Transformer 模型:理解 GPT-3、BERT 和 T5 背后的模型

最流行的基于Transformer的模型之一BERT,它是“来自Transformer的双向编码器表示”(“Bidirectional Encoder Representations from Transformers”)的缩写。它是谷歌的研究人员在我2018年加入公司前后引入的,很快就进入了几乎所有的NLP项目,包括谷歌搜索。BERT不仅指模型体系结构,还指经过训练的模型本身,您可以[在这里免费下载和使用](https://github.com/google-research/bert)。谷歌的研究人员在一个庞大的文本语料库上对它进行了训练,它已经成为一种用于自然语言处理的通用模型。它可以扩展来解决一系列不同的任务,比如:文本摘要问答分类命名实体识别文本相似度攻击性信息/脏话检测理解用户的查询等等BERT证明,您可以在未标记的数据上建立非常好的语言模型,比如从Wikipedia和Reddit中提取的文本,并且这些大型的“基础”模型可以与特定领域的数据相适应,适用于许多不同的用例。最近,OpenAI创建的模型GPT-3生成真实文本的能力让人们大吃一惊。谷歌搜索去年推出的Meena是一个基于transformer的聊天机器人(akhem,对话代理),几乎可以就任何话题进行引人入胜的对话(其作者曾花了20分钟与Meena争论作为人类意味着什么)。Tansformer也在自然语言处理之外掀起了一股浪潮,例如作曲、根据文本描述生成图像以及预测蛋白质结构。

大模型入门指南

这一切的起源是2017年发布的Attention Is All You Need([4])论文,之后基于大量语料的预训练模型百花齐放,比如:BERT(Bidirectional Encoder Representations from Transformers):Google在2018年提出,创新性的双向预训练并行获取上下文语义信息,以及掩码语言建模(MLM)让模型更好地推断语义信息。它开创了预训练语言表示范式,对自然语言处理产生了深远影响。参数规模:110M到340MGPT(Generative Pre-trained Transformer):OpenAI在2018年提出,开创了仅使用自回归语言建模作为预训练目标而无需额外监督信号。它展示了通过无监督大规模预训练获得的语言生成能力,对研究与应用都带来重大影响。参数规模:1750亿Large LAnguage Model Approach(LLAMA):Meta在2021年提出,首个开源模型。为构建更大规模、更通用的语言模型提供了系统化的方法与工具。参数规模:十亿到千亿

7. Transformer 模型和 BERT 模型

一种流行的仅编码器架构是Bert。Bert是训练有素的Transformer模型之一。Bert代表双向编码器表示来自transformers,由谷歌于2018年开发。从那时起,已经构建了Bert的多个变体。今天,Bert为Google搜索提供支持。您可以看到Bert为相同的搜索查询提供的结果有多么不同。[heading3]Bert的规模与能力[content]Bert接受了两种变体的训练。一个模型包含Bert Base,它有12个Transformers,大约有1.1亿个参数。另一个Bert Large有24层Transformer,大约有3.4亿个参数。Bert模型之所以强大,是因为它可以处理长输入上下文。它在整个维基百科语料库和书籍语料库上进行了训练。Bert模型训练了100万步。[heading3]Bert的多任务训练[content]Bert接受过不同任务的训练,这意味着它具有多任务目标。这使得Bert非常强大,因为它接受过训练的任务类型。它适用于句子级别和标记级别。这是最初发布的两个不同版本的Bert:一个是Bert Base,它有12层,而Bert Large有24层,与原来的六层Transformer相比。

Others are asking
如何部署并微调BERT模型
部署并微调 BERT 模型的步骤如下: 1. 选择合适的部署方式: 本地环境部署。 云计算平台部署。 分布式部署。 模型压缩和量化。 公共云服务商部署。根据自身的资源、安全和性能需求选择合适的部署方式。 2. 准备训练所需的数据和计算资源: 确保有足够的训练数据覆盖目标应用场景。 准备足够的计算资源,如 GPU 服务器或云计算资源。 3. 选择合适的预训练模型作为基础: 可以使用开源的预训练模型如 BERT 等作为基础。 4. 针对目标任务进行模型微调训练: 根据具体应用场景对预训练模型进行微调训练。 优化模型结构和训练过程以提高性能。 5. 部署和调试模型: 将训练好的模型部署到生产环境。 对部署的模型进行在线调试和性能优化。 6. 注意安全性和隐私保护:大模型涉及大量数据和隐私信息,需要重视安全性和合规性。 总的来说,部署和微调 BERT 模型需要综合考虑多方面因素,包括部署方式、数据准备、模型训练、部署调试以及安全性等。需要根据具体需求选择合适的方法,并注意优化各个环节以提高模型性能和应用效果。
2024-09-03