Chat with Wiki - LLama是什么？

Answer

LLama 是 Meta 推出的一系列语言模型。

LLama 具有以下特点和应用：

在法律领域有相关的微调模型，如 Lawyer LLaMA 等，这些模型在大规模法律语料上进行了预训练和指令微调，旨在为法律从业者和用户提供准确可靠的法律咨询服务。
有专门用于编写代码的 Code Llama ，它基于 Llama 2 平台构建，包括多种模型以适应不同需求，其训练配方和模型权重可在 Github 仓库获取。
一共有 4 个模型尺寸，其出发点包括只使用公开数据集以保证数据平等，用更多数据训练更小网络等。网络结构采用 decoder-only 的方式，使用了 SentencePiece 实现的 PBE 编码方式、PreNorm 、SwiGLU 、RoPE 旋转位置编码等技术。同时还介绍了 RMSNorm 等相关技术。

Content generated by AI large model, please carefully verify (powered by aily)

References

LaWGPT：基于中文法律知识的大语言模型地址：[https://github.com/pengxiao-song/LaWGPT](https://github.com/pengxiao-song/LaWGPT)简介：该系列模型在通用中文基座模型（如Chinese-LLaMA、ChatGLM等）的基础上扩充法律领域专有词表、大规模中文法律语料预训练，增强了大模型在法律领域的基础语义理解能力。在此基础上，构造法律领域对话问答数据集、中国司法考试数据集进行指令精调，提升了模型对法律内容的理解和执行能力。LexiLaw：中文法律大模型地址：[https://github.com/CSHaitao/LexiLaw](https://github.com/CSHaitao/LexiLaw)简介：LexiLaw是一个基于ChatGLM-6B微调的中文法律大模型，通过在法律领域的数据集上进行微调。该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务，包括具体法律问题的咨询，还是对法律条款、案例解析、法规解读等方面的查询。Lawyer LLaMA：中文法律LLaMA地址：[https://github.com/AndrewZhe/lawyer-llama](https://github.com/AndrewZhe/lawyer-llama)简介：开源了一系列法律领域的指令微调数据和基于LLaMA训练的中文法律大模型的参数。Lawyer LLaMA首先在大规模法律语料上进行了continual pretraining。在此基础上，借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题（以下简称法考）的分析和对法律咨询的回答，利用收集到的数据对模型进行指令微调，让模型习得将法律知识应用到具体场景中的能力。

【翻译】不止Cursor，2024年AI代码工具终极指南，还有这么多努力的探索

!Code Llama是一组专门用于编写代码的大语言模型，基于Llama 2平台构建。它包括多种模型以适应不同需求：通用Code Llama、专门用于Python任务的Code Llama-Python，以及基于指令的Code Llama-Instruct。模型大小有7 B、13 B和34 B三种，最多可处理16 k Token输入，部分改进后最多可处理100 k Token。7 B和13 B模型还支持内容补全功能。Code Llama的训练配方和[模型权重](https://ai.meta.com/llama/)可在[Github仓库](https://github.com/facebookresearch/codellama)获取。

（2）初探LLM基座模型

Meta可谓是LLM开源一哥，LLaMA是其代表作，一共有4个模型尺寸，出发点如下只使用公开的数据集，保证所有人在数据面前平等用更多的数据训练更小网络，例如用1T的token训练7B的模型和13B模型，用1.4T的token训练33B和65B模型。这一点是参考了Chinchilla的结论。网络结构也是decoder-only的方式，跟GPT3相比异同如下使用了SentencePiece实现的PBE的编码方式使用了PreNorm，这样收敛稳定一些。同时用RMSNorm，就是LayerNorm里面没有减均值项和beta项使用SwiGLU，即swish激活+GeLU调制。由于SwiGLU引入了额外的参数矩阵，原始FFN需要做相应的砍小用了苏剑林老师提出的RoPE旋转位置编码，核心思想是通过绝对位置编码的方式实现相对位置编码，理论推导见[原文](https://zhuanlan.zhihu.com/p/359502624)RMSNormRMSNorm是本文要介绍的第3种norm，其中RMS(root mean square)是均方根的含义$$\text{RMS}(x)=\sqrt{\frac{1}{d}\sum_{i=1}^d x_i^2}$$同时省去了beta，则可以得到$$\text{RMSNorm}(x)=\frac{x}{\text{RMS}(x)}\cdot\gamma$$SwiGLU激活函数SwiGLU和前面介绍的GeGLU非常相似，只是把GeLU激活换成了Swish激活，如下所示