Chat with Wiki - 开源模型与闭源模型调用

Answer

以下是关于开源模型与闭源模型调用的相关信息：

通义千问自 2023 年 8 月起密集推出 Qwen、Qwen1.5、Qwen2 三代开源模型，Qwen 系列的 72B、110B 模型多次登顶 HuggingFace 的 Open LLM Leaderboard 开源模型榜单。Qwen2 系列已上线魔搭社区 ModelScope 和阿里云百炼平台，开发者可在魔搭社区体验、下载模型，或通过阿里云百炼平台调用模型 API。同时，Qwen2-72b-instruct 模型已上线中国大语言模型评测竞技场 Compass Arena，所有人都可登录体验其性能或进行对比测评，测评地址为https://opencompass.org.cn/arena。Compass Arena 集齐了国内主流的 20 多款大模型，用户可在平台选择大模型的两两“对战”。
部分声称性能卓越的中国大模型被揭露为“套壳”产品，如李开复创办的“零一万物”被国外开发者质疑为“套壳”产品，其团队承认在训练过程中沿用了开源架构，但坚称发布的模型从零开始训练并进行了大量原创优化和突破。此外，字节跳动被曝出在其秘密研发的大模型项目中调用了 OpenAI 的 API，并使用 ChatGPT 的输出数据来训练自己的模型，此行为触犯了 OpenAI 使用协议中禁止的条款。
在 LLM 应用程序中，OpenAI 已成为语言模型领域领导者，开发者通常使用 OpenAI API 启动新的 LLM 应用，如 gpt-4 或 gpt-4-32k 模型。项目投入生产并规模化时，有更多选择，如切换到 gpt-3.5-turbo，其比 GPT-4 便宜约 50 倍且速度更快；与其他专有供应商如 Anthropic 的 Claude 模型进行实验；将一些请求分流到开源模型，这通常与微调开源基础模型结合更有意义。开源模型有多种推理选项，包括 Hugging Face 和 Replicate 的简单 API 接口、主要云提供商的原始计算资源等。

Content generated by AI large model, please carefully verify (powered by aily)

References

玉宝搞过一个LLM的在线评估，里面可以看到国内各个闭源大模型的HUMANEVAL测评得分，可以和QWEN2对比https://www.llmrank.cn/2023年8月起，通义千问密集推出Qwen、Qwen1.5、Qwen2三代开源模型，实现了全尺寸、全模态开源。不到一年时间，通义开源大模型性能不断突破，Qwen系列的72B、110B模型多次登顶HuggingFace的Open LLM Leaderboard开源模型榜单。（图说：HuggingFace的开源大模型排行榜Open LLM Leaderboard是目前大模型领域最具权威性的榜单，收录了全球上百个开源大模型的性能测试结果，Qwen-72B和Qwen1.5-110B都曾登顶这一榜单）二、在哪里可以体验Qwen2系列模型？Qwen2系列已上线魔搭社区ModelScope和阿里云百炼平台，开发者可在魔搭社区体验、下载模型，或通过阿里云百炼平台调用模型API。同时，Qwen2-72b-instruct模型已经上线中国大语言模型评测竞技场Compass Arena，所有人都可以登录体验Qwen2的性能，或者选择Qwen2模型与其他大模型进行对比测评。测评地址（[https://opencompass.org.cn/arena](https://opencompass.org.cn/arena)）。Compass Arena是由上海人工智能实验室和魔搭社区联合推出的大模型测评平台，集齐了国内主流的20多款大模型，包括阿里通义千问、百度文心一言、腾讯混元、讯飞星火、字节跳动豆包、智谱AI、百川智能、零一万物、月之暗面等等，用户可在平台选择大模型的两两“对战”，实名或匿名对战皆可。

中国大模型面临的真实问题：登顶路远，坠落一瞬

让我们从模型本身这个问题开始剖析。2023年下半年，一个不容忽视的事实浮出水面：部分声称性能卓越的中国大模型被揭露为"套壳"产品。这些模型实际上是直接采用了国外的开源大模型，经过简单包装后就宣称具备与GPT-4相当的能力。在一些评估大模型能力的榜单上，这些"套壳"模型往往名列前茅，多项指标甚至接近GPT-4的水平。更令人深思的是，一个奇怪的现象开始显现：在这些榜单上，模型的表现越好，被证实为"套壳"的可能性就越高。稍加调整，这些模型的性能就会显著下降。然而，"套壳"问题仅仅是中国大模型产业现状的冰山一角。这个现象揭示了更深层次的问题：在追求快速结果的压力下，一些公司选择了捷径，而非踏实的技术积累。2023年11月，一个引人注目的事件震动了AI圈：李开复创办的"零一万物"被国外开发者质疑为"套壳"产品。他们指出，该模型疑似只是对开源模型Llama进行了简单的重命名。这一指控如同一颗重磅炸弹，引发了广泛的讨论和反思。面对质疑，李开复和"零一万物"团队迅速做出回应。他们承认在训练过程中确实沿用了开源架构，但强调这只是为了快速起步，进行充分的测试和对比实验。他们坚称，其发布的模型都是从零开始训练的，并进行了大量原创性的优化和突破。继“零一万物”之后，12月，一则震惊业界的消息传出：科技巨头字节跳动被曝出在其秘密研发的大模型项目中调用了OpenAI的API，并使用ChatGPT的输出数据来训练自己的模型。这一行为，恰恰触犯了OpenAI使用协议中明确禁止的条款。

LLM 应用程序的新兴架构

如今，OpenAI已成为语言模型领域的领导者。我们接触的几乎所有开发者都是使用OpenAI API启动新的LLM应用，通常使用的是gpt-4或gpt-4-32k模型。这为应用性能提供了最佳的场景，且易于使用，因为它在广泛的输入领域中运行，并且通常不需要微调或自托管。当项目投入生产并开始规模化时，更广泛的选择就会发挥作用。我们听到的一些常见问题包括：切换到gpt-3.5-turbo：它比GPT-4[便宜约50倍](https://github.com/ray-project/llm-numbers)，而且速度明显更快。许多应用程序不需要GPT-4级别的准确性，但确实需要低延迟推理和对免费用户的成本有效支持。与其他专有供应商（尤其是Anthropic的Claude模型）进行实验：Claude提供快速推理、GPT-3.5级精度、针对大客户的更多定制选项以及高达100k的上下文窗口（尽管我们发现精度会随着长度的增加而降低）输入。将一些请求分流到开源模型：这在高流量的B2C用例（如搜索或聊天）中可能尤其有效，其中查询复杂性有较大的差异，且需要便宜地为免费用户提供服务。这通常与微调开源基础模型结合起来最有意义。我们不会在本文中深入讨论该工具堆栈，但越来越多的工程团队正在使用Databricks、Anyscale、Mosaic、Modal和RunPod等平台。开源模型可以使用多种推理选项，包括Hugging Face和Replicate的简单API接口；来自主要云提供商的原始计算资源；以及上述列出的更具主见的云服务。