BERT 是“来自 Transformer 的双向编码器表示”(“Bidirectional Encoder Representations from Transformers”)的缩写,由谷歌的研究人员于 2018 年引入。
BERT 不仅指模型体系结构,还指经过训练的模型本身,可在这里免费下载和使用。谷歌的研究人员在一个庞大的文本语料库上对它进行了训练,它已成为一种用于自然语言处理的通用模型,能够扩展来解决一系列不同的任务,比如:文本摘要、问答、分类、命名实体识别、文本相似度、攻击性信息/脏话检测、理解用户的查询等。
BERT 证明,可以在未标记的数据上建立非常好的语言模型,比如从 Wikipedia 和 Reddit 中提取的文本,并且这些大型的“基础”模型可以与特定领域的数据相适应,适用于许多不同的用例。
BERT 为 Google 搜索提供支持,其有多个变体。BERT 接受了两种变体的训练,Bert Base 有 12 个 Transformers,大约有 1.1 亿个参数;Bert Large 有 24 层 Transformer,大约有 3.4 亿个参数。BERT 模型之所以强大,是因为它可以处理长输入上下文,在整个维基百科语料库和书籍语料库上进行了训练,训练了 100 万步。BERT 接受过不同任务的训练,具有多任务目标,适用于句子级别和标记级别。最初发布的两个不同版本的 BERT 分别是有 12 层的 Bert Base 和有 24 层的 Bert Large。
最流行的基于Transformer的模型之一BERT,它是“来自Transformer的双向编码器表示”(“Bidirectional Encoder Representations from Transformers”)的缩写。它是谷歌的研究人员在我2018年加入公司前后引入的,很快就进入了几乎所有的NLP项目,包括谷歌搜索。BERT不仅指模型体系结构,还指经过训练的模型本身,您可以[在这里免费下载和使用](https://github.com/google-research/bert)。谷歌的研究人员在一个庞大的文本语料库上对它进行了训练,它已经成为一种用于自然语言处理的通用模型。它可以扩展来解决一系列不同的任务,比如:文本摘要问答分类命名实体识别文本相似度攻击性信息/脏话检测理解用户的查询等等BERT证明,您可以在未标记的数据上建立非常好的语言模型,比如从Wikipedia和Reddit中提取的文本,并且这些大型的“基础”模型可以与特定领域的数据相适应,适用于许多不同的用例。最近,OpenAI创建的模型GPT-3生成真实文本的能力让人们大吃一惊。谷歌搜索去年推出的Meena是一个基于transformer的聊天机器人(akhem,对话代理),几乎可以就任何话题进行引人入胜的对话(其作者曾花了20分钟与Meena争论作为人类意味着什么)。Tansformer也在自然语言处理之外掀起了一股浪潮,例如作曲、根据文本描述生成图像以及预测蛋白质结构。
这一切的起源是2017年发布的Attention Is All You Need([4])论文,之后基于大量语料的预训练模型百花齐放,比如:BERT(Bidirectional Encoder Representations from Transformers):Google在2018年提出,创新性的双向预训练并行获取上下文语义信息,以及掩码语言建模(MLM)让模型更好地推断语义信息。它开创了预训练语言表示范式,对自然语言处理产生了深远影响。参数规模:110M到340MGPT(Generative Pre-trained Transformer):OpenAI在2018年提出,开创了仅使用自回归语言建模作为预训练目标而无需额外监督信号。它展示了通过无监督大规模预训练获得的语言生成能力,对研究与应用都带来重大影响。参数规模:1750亿Large LAnguage Model Approach(LLAMA):Meta在2021年提出,首个开源模型。为构建更大规模、更通用的语言模型提供了系统化的方法与工具。参数规模:十亿到千亿
一种流行的仅编码器架构是Bert。Bert是训练有素的Transformer模型之一。Bert代表双向编码器表示来自transformers,由谷歌于2018年开发。从那时起,已经构建了Bert的多个变体。今天,Bert为Google搜索提供支持。您可以看到Bert为相同的搜索查询提供的结果有多么不同。[heading3]Bert的规模与能力[content]Bert接受了两种变体的训练。一个模型包含Bert Base,它有12个Transformers,大约有1.1亿个参数。另一个Bert Large有24层Transformer,大约有3.4亿个参数。Bert模型之所以强大,是因为它可以处理长输入上下文。它在整个维基百科语料库和书籍语料库上进行了训练。Bert模型训练了100万步。[heading3]Bert的多任务训练[content]Bert接受过不同任务的训练,这意味着它具有多任务目标。这使得Bert非常强大,因为它接受过训练的任务类型。它适用于句子级别和标记级别。这是最初发布的两个不同版本的Bert:一个是Bert Base,它有12层,而Bert Large有24层,与原来的六层Transformer相比。