目前在大型语言模型(LLM)领域,Llama2 70B 可能是最强大的开源权重模型。它由 Meta.ai 发布,包含 700 亿个参数,模型的权重、架构和相关论文均已公开,在文件系统上表现为两个文件:一个包含参数的文件,以及一段运行这些参数的代码。参数文件大小约 104GB,采用 float 16 数据类型。
此外,GPT-4V 是基于最先进的 LLM 并使用大量多模态数据训练的具有视觉能力的先进模型,在理解和处理不同输入模态的任意组合方面表现出色,支持多种输入和工作模式。
需要注意的是,尽管语言模型能力令人印象深刻,但仍存在一些限制,如生成的“幻觉”问题,在需要高级推理能力的任务上存在困难,还需要更具挑战性和强大的评估来衡量其真正的理解能力。
引言:大型语言模型(LLM)讨论本次介绍的主题是“大型语言模型入门”。首先,我们来探讨什么是大型语言模型。简而言之,一个大型语言模型由两个文件组成。以Meta.ai发布的Llama2 70B模型为例,这是Llama系列语言模型的第二代产品,拥有700亿个参数。Llama2系列包含多个不同规模的模型,分别是70亿、130亿、340亿和700亿参数的版本。Llama2 70B模型受到广泛欢迎,因为它可能是目前最强大的开源权重模型。Meta.ai发布了模型的权重、架构和相关论文,使得任何人都可以轻松地使用这个模型。这与其他许多语言模型不同,例如ChatGPT等,其模型架构并未公开发布,它们属于OpenAI所有,用户只能通过网络界面使用,而无法直接访问模型本身。在Llama2 70B模型的情况下,它实际上就是文件系统上的两个文件:一个包含参数的文件,以及一段运行这些参数的代码。LLM推理参数文件包含了神经网络(即语言模型)的权重或参数。由于这是一个700亿参数的模型,每个参数存储为两个字节,因此参数文件的大小为104GB,采用float 16数据类型。除了参数文件,您还需要一段代码来运行神经网络,这段代码可以用C、Python或其他任何编程语言编写。以C语言为例,大约只需500行代码,无需其他依赖项,即可实现神经网络架构并运行模型。
大语言模型(LLMs)的突破性进展展示了在不同领域和任务中的显著多功能性和能力。该领域的下一阶段演变,大型多模态模型(LMMs)旨在通过整合多感官技能来扩展LLMs的能力,以实现更强的通用智能。考虑到视觉在人类感官中的主导地位,许多LMM研究从扩展视觉能力开始。初步研究调查要么微调视觉编码器以与预训练的LLMs对齐,要么使用视觉-语言模型(vision-language model)将视觉输入转换为LLMs可以理解的文本描述。然而,大多数现有模型的模型和数据规模都有限,可能会限制各种有趣能力的出现。因此,目前还不清楚基于最先进的LLMs(如GPT-4(无视觉)和PaLM)开发的LMMs的现状和新兴多模态能力是什么。在本文中,我们报告了对GPT-4V(早期版本)的初步探索,GPT-4V是基于SOTA LLM并使用大量多模态数据训练的最先进的具有视觉能力的LMM。我们对GPT-4V的探索是由以下问题指导的。1.GPT-4V支持哪些输入和工作模式?多模态模型的通用性不可避免地要求系统能够处理不同输入模态的任意组合。GPT-4V在理解和处理任意混合方面表现出前所未有的能力。输入图像(images)、子图像(sub-images)、文本(texts)、场景文本(scene texts)和视觉指针(visual pointers)。我们还证明,GPT-4V很好地支持了在LLM中观察到的测试时技术(test-time techniques),包括指令遵循instruction following、思想链chain-of-thoughts、上下文中的小样本学习in-context few-shot learning等。2.GPT-4V在不同领域和任务上的能力质量和通用性如何?
尽管语言模型具有令人印象深刻的能力,但我们应该注意到其使用存在一些限制。需要继续进行关于由LLMs生成的“幻觉”的研究和开发,以确保模型输出更可靠和可验证。尽管LLMs在考试基准上取得了令人印象深刻的表现,但它们在需要高级推理能力(如因果理解、逻辑推理和反事实推理)的任务上也存在困难。这凸显了需要更具挑战性和强大的评估来衡量它们对真正理解的能力,因为当前最先进的LLM在许多基准测试中已经饱和。Gemini是我们解决智能、推进科学和造福人类使命的进一步步骤,我们对看到这些模型如何被谷歌及其他人使用感到热情。我们在机器学习、数据、基础设施和负责任的开发等领域上积累了许多创新,这些领域我们在谷歌已经追求了十多年。我们在本报告中提出的模型为我们未来开发大规模、模块化系统的广泛泛化能力奠定了坚实的基础,该系统将在许多模态上具有广泛的泛化能力。