Chat with Wiki - BERT

Answer

BERT 是“来自 Transformer 的双向编码器表示”（“Bidirectional Encoder Representations from Transformers”）的缩写，由谷歌的研究人员于 2018 年引入。

BERT 不仅指模型体系结构，还指经过训练的模型本身，可在这里免费下载和使用。谷歌的研究人员在一个庞大的文本语料库上对它进行了训练，它已成为一种用于自然语言处理的通用模型，能够扩展来解决一系列不同的任务，比如：文本摘要、问答、分类、命名实体识别、文本相似度、攻击性信息/脏话检测、理解用户的查询等。

BERT 证明，可以在未标记的数据上建立非常好的语言模型，比如从 Wikipedia 和 Reddit 中提取的文本，并且这些大型的“基础”模型可以与特定领域的数据相适应，适用于许多不同的用例。

BERT 为 Google 搜索提供支持，其有多个变体。BERT 接受了两种变体的训练，Bert Base 有 12 个 Transformers，大约有 1.1 亿个参数；Bert Large 有 24 层 Transformer，大约有 3.4 亿个参数。BERT 模型之所以强大，是因为它可以处理长输入上下文，在整个维基百科语料库和书籍语料库上进行了训练，训练了 100 万步。BERT 接受过不同任务的训练，具有多任务目标，适用于句子级别和标记级别。最初发布的两个不同版本的 BERT 分别是有 12 层的 Bert Base 和有 24 层的 Bert Large。

Content generated by AI large model, please carefully verify (powered by aily)

References

解析 Transformer 模型：理解 GPT-3、BERT 和 T5 背后的模型

最流行的基于Transformer的模型之一BERT，它是“来自Transformer的双向编码器表示”（“Bidirectional Encoder Representations from Transformers”）的缩写。它是谷歌的研究人员在我2018年加入公司前后引入的，很快就进入了几乎所有的NLP项目，包括谷歌搜索。BERT不仅指模型体系结构，还指经过训练的模型本身，您可以[在这里免费下载和使用](https://github.com/google-research/bert)。谷歌的研究人员在一个庞大的文本语料库上对它进行了训练，它已经成为一种用于自然语言处理的通用模型。它可以扩展来解决一系列不同的任务，比如：文本摘要问答分类命名实体识别文本相似度攻击性信息/脏话检测理解用户的查询等等BERT证明，您可以在未标记的数据上建立非常好的语言模型，比如从Wikipedia和Reddit中提取的文本，并且这些大型的“基础”模型可以与特定领域的数据相适应，适用于许多不同的用例。最近，OpenAI创建的模型GPT-3生成真实文本的能力让人们大吃一惊。谷歌搜索去年推出的Meena是一个基于transformer的聊天机器人（akhem，对话代理），几乎可以就任何话题进行引人入胜的对话（其作者曾花了20分钟与Meena争论作为人类意味着什么）。Tansformer也在自然语言处理之外掀起了一股浪潮，例如作曲、根据文本描述生成图像以及预测蛋白质结构。

大模型入门指南

这一切的起源是2017年发布的Attention Is All You Need([4])论文，之后基于大量语料的预训练模型百花齐放，比如：BERT(Bidirectional Encoder Representations from Transformers):Google在2018年提出，创新性的双向预训练并行获取上下文语义信息，以及掩码语言建模（MLM）让模型更好地推断语义信息。它开创了预训练语言表示范式，对自然语言处理产生了深远影响。参数规模：110M到340MGPT(Generative Pre-trained Transformer):OpenAI在2018年提出，开创了仅使用自回归语言建模作为预训练目标而无需额外监督信号。它展示了通过无监督大规模预训练获得的语言生成能力,对研究与应用都带来重大影响。参数规模：1750亿Large LAnguage Model Approach（LLAMA）:Meta在2021年提出，首个开源模型。为构建更大规模、更通用的语言模型提供了系统化的方法与工具。参数规模：十亿到千亿

7. Transformer 模型和 BERT 模型

一种流行的仅编码器架构是Bert。Bert是训练有素的Transformer模型之一。Bert代表双向编码器表示来自transformers，由谷歌于2018年开发。从那时起，已经构建了Bert的多个变体。今天，Bert为Google搜索提供支持。您可以看到Bert为相同的搜索查询提供的结果有多么不同。[heading3]Bert的规模与能力[content]Bert接受了两种变体的训练。一个模型包含Bert Base，它有12个Transformers，大约有1.1亿个参数。另一个Bert Large有24层Transformer，大约有3.4亿个参数。Bert模型之所以强大，是因为它可以处理长输入上下文。它在整个维基百科语料库和书籍语料库上进行了训练。Bert模型训练了100万步。[heading3]Bert的多任务训练[content]Bert接受过不同任务的训练，这意味着它具有多任务目标。这使得Bert非常强大，因为它接受过训练的任务类型。它适用于句子级别和标记级别。这是最初发布的两个不同版本的Bert：一个是Bert Base，它有12层，而Bert Large有24层，与原来的六层Transformer相比。