与知识库对话 - 大模型成本趋势

回答

大模型的成本趋势如下：

目前存在唱衰大模型的观点，认为其难以找到可商用场景，部分功能存在幻觉问题，且算力成本高，导致商业模式难以形成闭环。
但也有观点认为，关于算力成本，已有许多解决方案，如模型蒸馏、苹果的端云方案等，今年内算力成本问题有望不再是难题。
对于不同规模的模型，小模型在某些特定应用中有其优势且足够好用，但大模型会解锁新的有价值的应用程序。不过并非所有应用都能证明大模型的成本合理。
在多模态大模型方面，随着数据集和模型规模扩大，传统模型带来巨大计算量。研究人员利用现成训练好的单模态基础模型，可减少多模态训练费用、提升效率。不同模态模型分开训练，如何实现模态连接和协同推理是核心挑战。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

[heading2]一、写在前面[content]写这篇文章的初衷，源于近期涌起的唱衰AI大模型的风潮。不少人在对大模型的机制及当下的商业形态进行了初步了解后，便断言大模型是一场“骗局”，是资本操控的闹剧。同时，近来不管是投资领域还是各大厂，似乎都开始谨慎衡量做大模型这件事的投资回报率（ROI）。难道大模型当真不像去年众人所认定的那样，是一场所谓的“革命”吗？唱衰大模型的人，大多持有这样的观点：他们觉得大模型仅能实现像chatbox、文生图、图生图、生视频、生音频之类的功能，难以找到可商用的场景，更别说其中部分功能还可能存在幻觉问题。同时，大模型的算力也是有成本的，而且价格不低。所以问题就出现了，即我们做出了一个个看似出色的ai产品，用户日活量或许也很高，但高日活带来的是高机器算力费用，而这笔费用又无法从活跃用户身上获取，所以这个商业模式就难以形成闭环了。所以这种理解倒不能说是错误的，但这是建立在两个前提之上的。第一，大模型确实后续也仅能用在聊天以及生成图片、文字、视频了；第二，算力的费用会持续居高不下。但在我看来，这两点都是不成立的。首先关于第二点的算力的问题，已经有许多解决方案了，不论是模型蒸馏，还是苹果的端云方案等等，我认为今年内算力成本问题将不再是难题。那么第一点，其实也是今日的重点。而要知晓一个新事物究竟能够带来什么样的改变，我认为首先是先需要明晰其运作原理究竟是怎样的。实际上，我也看过市面上很多有关大模型的科普文章，坦白讲，对于非技术人员而言，理解起来颇具难度。所以，我期望这篇文章能通过最为直白、最为简单的描述，帮助各位产品同学，理解何为大模型，大模型是如何运作的，大模型究竟带来了什么，以及我们究竟该去怎么看待这次大模型的浪潮。

访谈：Ilya | 2023年11月长篇访谈

主持人：我对可靠性的看法是，就您的观点而言，它会随着模型规模的增加而增加，而且如果您针对特定用例或实例或数据集进行微调，它也会增加。因此，在尺寸与专业微调与可靠性方面存在权衡。Ilya：关心某些特定应用的人们肯定有充分的动机让最小的模型足够好地工作。我认为这是真的。这是不可否认的。我认为任何关心特定应用程序的人都会想要最小的模型。这是不言而喻的。我确实认为，随着模型不断变得更大、更好，它们就会解锁新的和前所未有的有价值的应用程序。所以，是的，小型模型将在不太有趣的应用中占有一席之地，但它们仍然非常有用。然后更大的模型将交付应用程序。例如，考虑提供良好法律建议的任务。如果你能真正相信答案，那真的很有价值。也许您需要一个更大的模型，但它证明了成本的合理性。主持人：今年，尤其是7b（70亿参数）尺寸的投资非常多，而且还有7b、13b、34b尺寸。您认为在这些规模上继续研究是浪费吗？Ilya：不，当然不。我认为从中期来看，无论如何，按照人工智能的时间尺度，将会出现这种情况。在一个生态系统中，不同的模型大小会有不同的用途。对于很多人来说，最好的7b模型已经足够好了，他们会感到非常兴奋。他们将对此感到极度欣喜。接下来，我们将看到大量令人兴奋和惊奇的应用程序，但这还远远不够。我想，这就是我想说的全部。我认为大模型会比小模型更好，但并非所有应用程序都能证明大模型的成本是合理的。

多模态大模型入门指南-长文慎入【持续更新】

最近，多模态大模型取得重大进展。随着数据集和模型的规模不断扩大，传统的MM模型带来了巨大的计算量，尤其是从头开始训练的话。研究人员意识到MM的研究重点工作在各个模态的连接上，所以一个合理的方法是利用好现成的训练好的单模态基础模型，尤其是LLM。这样可以减少多模态训练的费用，提升训练效率。MM-LLM利用LLM为各种MM任务提供认知能力。LLM具有良好的语言生成，zero-shot和ICL的能力。其他模态的基础模型则提供了高质量的表征。考虑到不同模态的模型是分开训练的，如何将不同模态连接起来，实现协同推理，是核心挑战。这里面的主要工作便是通过多模态预训练和多模态的指令微调，来实现模态之间的对齐，以及模型输出与人类意图的对齐。[heading3]1.2多模态的发展历程：[content]关于多模态的发展主要有：最初的发展集中在多模态的内容理解和文本的生成：Flamingo,BLIP-2,Kosmos-1,LLaVA/LLaVA-1.5/LLaVA-1.6，MiniGPT-4，MultiModal-GPT，Video-Chat，VIdeo-LLaMA，IDEFICS，Fuyu-8B，Qwen-Audio同时实现多模态的输入和输出工作MM-LMM，探索特定模态的生成，例如Kosmos-2，Mini-GPT5，以及语音生成的SpeechGPT将LLM和外部工具继承进来，实现“any-to-any”的多模态理解和生成。visual-chatgpt，ViperGPT，MM-React，HuggingGPT，AudioGPT同样，有为了减少级联过程中传播误差的工作，有NExT-GPT和CoDI-2，来开发任意模式的多模态模型