以下是关于开源模型与闭源模型调用的相关信息:
玉宝搞过一个LLM的在线评估,里面可以看到国内各个闭源大模型的HUMANEVAL测评得分,可以和QWEN2对比https://www.llmrank.cn/2023年8月起,通义千问密集推出Qwen、Qwen1.5、Qwen2三代开源模型,实现了全尺寸、全模态开源。不到一年时间,通义开源大模型性能不断突破,Qwen系列的72B、110B模型多次登顶HuggingFace的Open LLM Leaderboard开源模型榜单。(图说:HuggingFace的开源大模型排行榜Open LLM Leaderboard是目前大模型领域最具权威性的榜单,收录了全球上百个开源大模型的性能测试结果,Qwen-72B和Qwen1.5-110B都曾登顶这一榜单)二、在哪里可以体验Qwen2系列模型?Qwen2系列已上线魔搭社区ModelScope和阿里云百炼平台,开发者可在魔搭社区体验、下载模型,或通过阿里云百炼平台调用模型API。同时,Qwen2-72b-instruct模型已经上线中国大语言模型评测竞技场Compass Arena,所有人都可以登录体验Qwen2的性能,或者选择Qwen2模型与其他大模型进行对比测评。测评地址([https://opencompass.org.cn/arena](https://opencompass.org.cn/arena))。Compass Arena是由上海人工智能实验室和魔搭社区联合推出的大模型测评平台,集齐了国内主流的20多款大模型,包括阿里通义千问、百度文心一言、腾讯混元、讯飞星火、字节跳动豆包、智谱AI、百川智能、零一万物、月之暗面等等,用户可在平台选择大模型的两两“对战”,实名或匿名对战皆可。
让我们从模型本身这个问题开始剖析。2023年下半年,一个不容忽视的事实浮出水面:部分声称性能卓越的中国大模型被揭露为"套壳"产品。这些模型实际上是直接采用了国外的开源大模型,经过简单包装后就宣称具备与GPT-4相当的能力。在一些评估大模型能力的榜单上,这些"套壳"模型往往名列前茅,多项指标甚至接近GPT-4的水平。更令人深思的是,一个奇怪的现象开始显现:在这些榜单上,模型的表现越好,被证实为"套壳"的可能性就越高。稍加调整,这些模型的性能就会显著下降。然而,"套壳"问题仅仅是中国大模型产业现状的冰山一角。这个现象揭示了更深层次的问题:在追求快速结果的压力下,一些公司选择了捷径,而非踏实的技术积累。2023年11月,一个引人注目的事件震动了AI圈:李开复创办的"零一万物"被国外开发者质疑为"套壳"产品。他们指出,该模型疑似只是对开源模型Llama进行了简单的重命名。这一指控如同一颗重磅炸弹,引发了广泛的讨论和反思。面对质疑,李开复和"零一万物"团队迅速做出回应。他们承认在训练过程中确实沿用了开源架构,但强调这只是为了快速起步,进行充分的测试和对比实验。他们坚称,其发布的模型都是从零开始训练的,并进行了大量原创性的优化和突破。继“零一万物”之后,12月,一则震惊业界的消息传出:科技巨头字节跳动被曝出在其秘密研发的大模型项目中调用了OpenAI的API,并使用ChatGPT的输出数据来训练自己的模型。这一行为,恰恰触犯了OpenAI使用协议中明确禁止的条款。
如今,OpenAI已成为语言模型领域的领导者。我们接触的几乎所有开发者都是使用OpenAI API启动新的LLM应用,通常使用的是gpt-4或gpt-4-32k模型。这为应用性能提供了最佳的场景,且易于使用,因为它在广泛的输入领域中运行,并且通常不需要微调或自托管。当项目投入生产并开始规模化时,更广泛的选择就会发挥作用。我们听到的一些常见问题包括:切换到gpt-3.5-turbo:它比GPT-4[便宜约50倍](https://github.com/ray-project/llm-numbers),而且速度明显更快。许多应用程序不需要GPT-4级别的准确性,但确实需要低延迟推理和对免费用户的成本有效支持。与其他专有供应商(尤其是Anthropic的Claude模型)进行实验:Claude提供快速推理、GPT-3.5级精度、针对大客户的更多定制选项以及高达100k的上下文窗口(尽管我们发现精度会随着长度的增加而降低)输入。将一些请求分流到开源模型:这在高流量的B2C用例(如搜索或聊天)中可能尤其有效,其中查询复杂性有较大的差异,且需要便宜地为免费用户提供服务。这通常与微调开源基础模型结合起来最有意义。我们不会在本文中深入讨论该工具堆栈,但越来越多的工程团队正在使用Databricks、Anyscale、Mosaic、Modal和RunPod等平台。开源模型可以使用多种推理选项,包括Hugging Face和Replicate的简单API接口;来自主要云提供商的原始计算资源;以及上述列出的更具主见的云服务。