Chat with Wiki - 有哪些开源或免费的AI模型管理平台，可以配置模型，管理Agent的

Answer

以下是一些开源或免费的 AI 模型管理平台及相关模型：

智谱·AI：
- Chat 模型：
  - ChatGLM-6B-int4：ChatGLM-6B 的 Int4 版本，最低只需 6GB 显存即可部署，最低只需 7GB 显存即可启动微调（P-Tuning v2）。可在Huggingface、魔搭社区、始智社区、启智社区获取。
  - ChatGLM-6B-int8：ChatGLM-6B 的 Int8 版本，上下文 token 数为 2K。可在Huggingface、魔搭社区、始智社区、启智社区获取。
  - AgentLM-7B：提出了一种 AgentTuning 的方法，开源了包含 1866 个高质量交互、6 个多样化的真实场景任务的 Agent 数据集 AgentInstruct，基于上述方法和数据集，利用 Llama2 微调而成，上下文 token 数为 4K。代码链接为AgentTuning，模型权重下载链接为?Huggingface Repo。
  - AgentLM-13B：上下文 token 数为 4K，模型权重下载链接为?Huggingface Repo。
  - AgentLM-70B：上下文 token 数为 8K，模型权重下载链接为?Huggingface Repo。
- 下载模型：智谱 AI 提供的所有开源模型均可以在以下平台进行下载：Huggingface、魔搭社区、启智社区、始智社区、SwanHub。
通义千问：
- 本地部署 Qwen2.5-1M 模型：使用以下命令启动服务，根据硬件配置进行设置。参数说明：
  - --tensor-parallel-size：设置为使用的 GPU 数量。7B 模型最多支持 4 个 GPU，14B 模型最多支持 8 个 GPU。
  - --max-model-len：定义最大输入序列长度。如果遇到内存不足问题，请减少此值。
  - --max-num-batched-tokens：设置 Chunked Prefill 的块大小。较小的值可以减少激活内存使用，但可能会减慢推理速度。推荐值为 131072，以获得最佳性能。
  - --max-num-seqs：限制并发处理的序列数量。如果遇到问题，请参考Troubleshooting相关内容。
- 与模型交互：可以使用以下方法与部署的模型进行交互：选项 1.使用 Curl；选项 2.使用 Python。对于更高级的使用方式，可以探索如Qwen-Agent之类的框架。Qwen-Agent 使模型能够读取 PDF 文件或获得更多功能。

Content generated by AI large model, please carefully verify (powered by aily)

References

下表为智谱AI开源的语言模型列表|模型|介绍|上下文token数|代码链接|模型权重下载链接||-|-|-|-|-||ChatGLM-6B-int4|ChatGLM-6B的Int4版本。最低只需6GB显存即可部署，最低只需7GB显存即可启动微调（[P-Tuning v2](https://github.com/THUDM/P-tuning-v2)）|2K||[Huggingface](https://huggingface.co/THUDM/chatglm-6b-int4)|魔搭社区|始智社区|启智社区||ChatGLM-6B-int8|ChatGLM-6B的Int8版本|2K||[Huggingface](https://huggingface.co/THUDM/chatglm-6b-int8)|魔搭社区|始智社区|启智社区||AgentLM-7B|1.我们提出了一种AgentTuning的方法；<br>2.我们开源了包含1866个高质量交互、6个多样化的真实场景任务的Agent数据集AgentInstruct<br>3.基于上述方法和数据集，我们利用Llama2微调了具备超强Agent能力的AgentLM-7B、AgentLM-13B、AgentLM-70B。|4K|[AgentTuning](https://github.com/THUDM/AgentTuning)|[?Huggingface Repo](https://huggingface.co/THUDM/agentlm-7b)||AgentLM-13B||4K||[?Huggingface Repo](https://huggingface.co/THUDM/agentlm-13b)||AgentLM-70B||8K||[?Huggingface Repo](https://huggingface.co/THUDM/agentlm-70b)|

通义千问发布一个模型开源两个模型-一个AI视觉智能体能力大幅增强，一个百万Tokens处理速度提升近7倍

使用以下命令启动服务，根据你的硬件配置进行设置：参数说明：--tensor-parallel-size设置为您使用的GPU数量。7B模型最多支持4个GPU，14B模型最多支持8个GPU。--max-model-len定义最大输入序列长度。如果遇到内存不足问题，请减少此值。--max-num-batched-tokens设置Chunked Prefill的块大小。较小的值可以减少激活内存使用，但可能会减慢推理速度。推荐值为131072，以获得最佳性能。--max-num-seqs限制并发处理的序列数量。如果遇到问题，请参考[Troubleshooting](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct-1M#troubleshooting)相关内容。[heading3]4.与模型交互[content]你可以使用以下方法与部署的模型进行交互：选项1.使用Curl选项2.使用Python其他选项对于更高级的使用方式，可以探索如[Qwen-Agent](https://github.com/QwenLM/Qwen-Agent/tree/main)之类的框架。Qwen-Agent使模型能够读取PDF文件或获得更多功能。

智谱·AI 开源模型列表

智谱AI提供的所有开源模型均可以在以下平台进行下载：[Huggingface](https://huggingface.co/THUDM)|[魔搭社区](https://modelscope.cn/organization/ZhipuAI)|[启智社区](https://openi.pcl.ac.cn/Zhipu.AI)|[始智社区](https://wisemodel.cn/organization/ZhipuAI)|[SwanHub](https://swanhub.co/ZhipuAI)欢迎开发者和用户下载我们的开源模型。[heading2]模型声明[heading3]数据隐私[content]智谱AI提供的所有开源模型均可下载后基于完全离线的环境使用，用户无需担心数据泄露等风险！[heading3]商业化行为[content]智谱AI所有的开源模型对学术研究完全开放，部分模型（ChatGLM系列）在填写[问卷](https://open.bigmodel.cn/mla/form)进行登记后亦允许免费商业使用。AI模型可能犯错，由于模型回答造成的后果，智谱AI不承担相应责任。[ChatGLM3技术文档](https://zhipu-ai.feishu.cn/wiki/WvQbwIJ9tiPAxGk8ywDck6yfnof)[CogAgent&CogVLM](https://zhipu-ai.feishu.cn/wiki/LXQIwqo1OiIVTykMh9Lc3w1Fn7g)[智谱AI API开发文档](https://zhipu-ai.feishu.cn/wiki/FelEwysrFiM81ekrRqfcWN24nXb)[GLM解决方案](https://zhipu-ai.feishu.cn/wiki/OuUfwIuADizeYYkagBzcWZfQntf)