与知识库对话 - 近期的大模型进展

回答

近期大模型的进展主要包括以下方面：

多模态大模型：
- 现状：随着数据集和模型规模扩大，传统多模态模型计算量大，研究重点在于各模态的连接，利用现成训练好的单模态基础模型可减少训练费用和提升效率。通过多模态预训练和指令微调实现模态对齐及模型输出与人类意图对齐是核心挑战。
- 发展历程：最初集中在多模态内容理解和文本生成，如 Flamingo、BLIP-2 等；同时实现多模态输入和输出工作，如 MM-LMM；将 LLM 和外部工具继承进来，实现“any-to-any”的多模态理解和生成，如 visual-chatgpt 等；还有为减少级联过程中传播误差的工作。
大型视觉模型 Sora：符合视觉模型的规模化定律，展示了新兴能力，包括遵循指令、视觉提示工程和视频理解等，是第一个展示确认新兴能力的视觉模型，标志着计算机视觉领域的重要里程碑。
OpenAI 的新模型 o1-preview/mini：复杂问题思考过程长，相对简单问题也需 5 - 10 秒，使用条数少，冷却时间长，但推理模型准确率不断攀升，为行业注入了强心剂。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

最近，多模态大模型取得重大进展。随着数据集和模型的规模不断扩大，传统的MM模型带来了巨大的计算量，尤其是从头开始训练的话。研究人员意识到MM的研究重点工作在各个模态的连接上，所以一个合理的方法是利用好现成的训练好的单模态基础模型，尤其是LLM。这样可以减少多模态训练的费用，提升训练效率。MM-LLM利用LLM为各种MM任务提供认知能力。LLM具有良好的语言生成，zero-shot和ICL的能力。其他模态的基础模型则提供了高质量的表征。考虑到不同模态的模型是分开训练的，如何将不同模态连接起来，实现协同推理，是核心挑战。这里面的主要工作便是通过多模态预训练和多模态的指令微调，来实现模态之间的对齐，以及模型输出与人类意图的对齐。[heading3]1.2多模态的发展历程：[content]关于多模态的发展主要有：最初的发展集中在多模态的内容理解和文本的生成：Flamingo,BLIP-2,Kosmos-1,LLaVA/LLaVA-1.5/LLaVA-1.6，MiniGPT-4，MultiModal-GPT，Video-Chat，VIdeo-LLaMA，IDEFICS，Fuyu-8B，Qwen-Audio同时实现多模态的输入和输出工作MM-LMM，探索特定模态的生成，例如Kosmos-2，Mini-GPT5，以及语音生成的SpeechGPT将LLM和外部工具继承进来，实现“any-to-any”的多模态理解和生成。visual-chatgpt，ViperGPT，MM-React，HuggingGPT，AudioGPT同样，有为了减少级联过程中传播误差的工作，有NExT-GPT和CoDI-2，来开发任意模式的多模态模型

Sora：大型视觉模型的背景、技术、局限性和机遇综述【官方论文】

视觉模型的规模化定律。有了LLMs的规模化定律，自然会问视觉模型的发展是否遵循类似的规模化定律。最近，Zhai等人[24]展示了，有足够训练数据的ViT模型的性能-计算前沿大致遵循（饱和）幂律。继他们之后，谷歌研究[25]提出了一种高效稳定训练22B参数ViT的方法。结果显示，使用冻结模型产生嵌入，然后在顶部训练薄层可以实现出色的性能。Sora作为一个大型视觉模型（LVM），符合这些规模化原则，揭示了文本到视频生成中的几种新兴能力。这一重大进展强调了LVMs实现类似LLMs所见进步的潜力。新兴能力。LLMs中的新兴能力是在某些规模上——通常与模型参数的大小有关——表现出的复杂行为或功能，这些行为或功能并未被开发者明确编程或预期。这些能力被称为“新兴”，因为它们源于模型在多样化数据集上的全面训练，以及其庞大的参数数量。这种组合使模型能够形成联系并做出超越简单模式识别或死记硬背的推断。通常，这些能力的出现不能通过从小规模模型的性能外推来直接预测。虽然许多LLMs，如ChatGPT和GPT-4，展示了新兴能力，但直到Sora的出现，展示类似能力的视觉模型还很少。根据Sora的技术报告，它是第一个展示确认新兴能力的视觉模型，标志着计算机视觉领域的一个重要里程碑。除了其新兴能力，Sora还展示了其他显著能力，包括遵循指令、视觉提示工程和视频理解。Sora的这些功能方面代表了视觉领域的重大进步，并将在后续部分进行探讨和讨论。

OpenAI:我憋了个新大招儿，它叫o1-preview/mini

[title]OpenAI:我憋了个新大招儿，它叫o1-preview/mini其次，今天凌晨第一批吃螃蟹的用户已经体验过了，从各群、各微、各推的反馈来看，复杂问题的思考过程长达30s，而相对简单的问题则要5-10s之间。就连OpenAI给出的模型速度示例中，o1-preview的速度也是偏慢的。最后，让人有点郁闷的是，新模型（o1-preview/mini）的使用条数太少了，而且冷却时间相当长，按照少数AI先锋（@陈财猫）的测试，o1-preview的冷却时间长达7天。这一周几十条的用量也顶多算是打打牙祭...最后，我想分享一些个人的思考和感悟。随着这两年来对模型发展的观察，我看到了一个明显的趋势：仅仅依靠生成式应用的场景是相当有限的。尤其是toB领域，我们遇到的更多是对准确性要求极高的场景，甚至需要100%准确的情况，比如安全领域和金融领域，这些都是差之毫厘谬之千里的业务。而大模型的局限性也是常常在于此（幻觉）。但推理模型的准确率不断攀升、甚至达到完全可信的地步确实是一件非常惊喜又恐怖的事情。之前让模型干创意的活儿，现在又能干精确的活儿，这属于全场景覆盖！这意味着AI技术可以渗透到更多行业、更多高精尖业务中去！同时，我回想起老师曾经对我说过的一句话："不管现在的大模型处理速度多慢，操作多么繁琐，只要能保证最终结果的正确性，它就拥有无限的可能性。"我觉得老师的话不无道理，不要看现在新模型的推理速度慢，但这些都可以通过增配新硬件去解决，只要钱到位，这都不是问题。况且，这也可能是慢思考系统的一种呢？你说对吧！再者，在今年上半年，甚至是上个月，很多人还在担忧大模型的前景。但OpenAI推出的新模型无疑给这个行业注入了一剂强心剂，为整个领域带来了新的活力和希望。这是令人赞叹和振奋的。