一般来说,可以跟很多大模型进行对话。以下是一些常见的方式:
需要注意的是,不同大模型的访问速度和回答效果可能存在差异,例如 ChatGPT 访问速度快是因为其服务器配置高,回答效果好是因为训练参数多、数据更优以及训练算法更好。
我们下载大模型为了干嘛?当然是为了跟他对话!或者用更专业的话叫做使用Llama3进行推理其实就跟你和ChatGPT或者Kimi对话一样。这里有两种方式对话,可以使用API,也可以部署一个简单的界面。由于这里我们面向的是小白,所以API我们就不写了,感兴趣的参考文档:[self-llm/LLaMA3/01-LLaMA3-8B-Instruct FastApi部署调用](https://github.com/datawhalechina/self-llm/blob/master/models/Llama3_1/01-Llama3_1-8B-Instruct%20FastApi%20%E9%83%A8%E7%BD%B2%E8%B0%83%E7%94%A8.md)[heading3]部署webdemo服务[content]老规矩,我给你代码,你照抄执行就可以了1.在/root/autodl-tmp路径下新建chatBot.py文件并在其中输入以下内容,粘贴代码后记得保存文件1.启动Webdemo服务在终端中运行以下命令,启动streamlit服务,并按照autodl的指示将端口映射到本地,然后在浏览器中打开链接[http://localhost:6006/](http://localhost:6006/),即可看到聊天界面。OK,这我们已经完成了webdemo的部署,接下来就是:如何访问页面
由于笔者实用的macOS系统,因此采用GGML量化后的模型,官方开源出来的模型大都以Python为主,效率可想而知,因此笔者一般会采用社区内的其他实现,比较有名的项目有:ggerganov/llama.cpp:Port of Facebook's LLaMA model in C/C++([7])ggerganov/whisper.cpp:Port of OpenAI's Whisper model in C/C++([8])[heading2]LLama[content]首先是编译,为了利用Metal的GPU,可以用如下命令编译:之后需要去Llama-2-7B-Chat-GGML([9])中下载模型,3G到7G不等,读者可以按需尝试即可。得到输出此外,llama.cpp还提供了WebUI供用户使用,首先启动server:它默认监听8080端口,打开浏览器就可以对话了
1.首先访问如下网址当你打开这个页面的时候,会让你登陆,这个时候我们随便使用一个邮箱注册一个账号即可1.和本地大模型进行对话登陆成功之后,如果你已经使用过ChatGPT等类似的大模型对话网站,我相信你对这个页面并不陌生。Open WebUI一般有两种使用方式第一种是聊天对话第二种是RAG能力,也就是可以让模型根据文档内容来回答问题。这种能力就是构建知识库的基础之一如果你的要求不高的话,我们已经搭建了一个本地大模型了,并且通过Web UI实现了和大模型进行对话的功能。相信通过这么一通折腾,你就理解了ChatGPT的信息流,至于为什么ChatGPT的访问速度比我们自己的要快,而且回答效果要好,有两个原因快:是因为GPT大模型部署的服务器配置高好:是因为GPT大模型的训练参数多,数据更优以及训练算法更好如果你想要更加灵活的掌握你的知识库,请接着往下看