LLM 能胜任的场景包括以下方面:
如今,OpenAI已成为语言模型领域的领导者。我们接触的几乎所有开发者都是使用OpenAI API启动新的LLM应用,通常使用的是gpt-4或gpt-4-32k模型。这为应用性能提供了最佳的场景,且易于使用,因为它在广泛的输入领域中运行,并且通常不需要微调或自托管。当项目投入生产并开始规模化时,更广泛的选择就会发挥作用。我们听到的一些常见问题包括:切换到gpt-3.5-turbo:它比GPT-4[便宜约50倍](https://github.com/ray-project/llm-numbers),而且速度明显更快。许多应用程序不需要GPT-4级别的准确性,但确实需要低延迟推理和对免费用户的成本有效支持。与其他专有供应商(尤其是Anthropic的Claude模型)进行实验:Claude提供快速推理、GPT-3.5级精度、针对大客户的更多定制选项以及高达100k的上下文窗口(尽管我们发现精度会随着长度的增加而降低)输入。将一些请求分流到开源模型:这在高流量的B2C用例(如搜索或聊天)中可能尤其有效,其中查询复杂性有较大的差异,且需要便宜地为免费用户提供服务。
通过从知识挖掘转向行动导向,增加手臂和腿部的能力有望在各种公司和用户类型之间实现一系列用例。对于消费者而言,LLMs可能很快就能给出菜谱建议,然后为您订购所需的食材,或者建议一个早午餐地点并为您预订餐桌。在企业领域,创始人可以通过接入LLMs使他们的应用程序更易于使用。正如Amodei所指出的:“对于从用户界面角度来说非常难以使用的功能,我们可能只需用自然语言描述即可实现复杂的操作。”例如,对于Salesforce等应用程序,LLM集成应允许用户用自然语言进行更新,并使模型自动进行这些更改,从而大大减少了维护CRM所需的时间。像Cohere和Adept这样的初创公司正在致力于将LLMs集成到这类复杂工具中。
从2022年11月18日到2023年7月26日,多模态Agents的迅速增长(Li et al.,2023)近年来,随着大型语言模型(LLM,如GPT-3)的发展,研究者开始尝试将LLM作为中枢神经调用多模态模型(LLM多模态agent),以进一步提升视觉理解任务的效果。严格来讲,2023年兴起的LLM多模态agent并不算是视觉基础模型的又一技术迭代,而是将现有技术融合的新尝试,是一种集成了多种模态数据处理能力的AI技术LLM多模态Agent的优点:(1)其高度的灵活性和扩展性。它可以根据不同的任务需求,调用最合适的模型来处理任务,无论是文本、图像或是声音数据。这种模型的扩展性能使其能够适应多样化的任务和数据类型,优化资源使用,提升效率;(2)因为无需训练,系统开发周期快,成本很低。LLM多模态Agent面临的局限性:(1)它的调试和工程化难度较高,这可能意味着在维护和升级过程中需要更多的成本和技术投入;(2)由于多个组件的紧密耦合,单点故障可能导致整个系统风险增加;(3)没有涌现出新的能力。LLM多模态Agent适用的场景包括: