与知识库对话-WayToAGI

直达「通往AGI之路」飞书知识库 →

首页/全部问答

我要在自己的应用中接入AI大模型能力，请问有什么工具或lib可以简化这个过程

以下是一些可以简化在应用中接入 AI 大模型能力的工具和库： 1. 您可以搭建，用于汇聚整合多种大模型接口，方便后续更换使用各种大模型。 2. 搭建，这是一个知识库问答系统，您可以将知识文件放入，并接入大模型作为分析知识库的大脑，它也有问答界面。 3. 搭建，其中的 cow 插件能进行文件总结、MJ 绘画等。另外，基于 LangChain 平台提供的 LLM 基础模型，也能完成任意模型接口的封装。LLM（语言逻辑模型）是 LangChain 平台与各种大模型进行交互的核心模型，是一个抽象概念，可理解为处理语言输入和输出的黑盒。其输入是字符串表示的用户请求或问题，输出也是字符串表示的模型回答或结果。LLM 能根据不同输入调用不同大模型完成不同语言任务，具有无需关心大模型细节和复杂性、灵活选择切换大模型、可自行封装实现语言逻辑和功能等优势。在基础通识课中，还提到了一些相关内容，如流式训练方式提升训练速度和质量，多种 AI 生成工具（如 so no 音频生成工具、能创建个人 AI 智能体的豆包、输入文本可生成播客的 Notebook LN），端侧大模型的特点，AI 工程平台（如 define、coach 等），模型社区（如魔搭社区）等。

提示词生成

以下是关于提示词生成的相关内容：在 ComfyUI 里使用 MiniCPM 做图片提示词反推与文本提示词生成，可与 flux 模型配合生成图片。建议使用量化版本的模型（int4 结尾）以节省显存。模型网盘：https://pan.quark.cn/s/00b3b6fcd6ca ，下载后放入 ComfyUI 的 models 文件夹下 MiniCPM 文件夹中，没有就新建一个。安装方法：1. 进入 ComfyUI 自定义节点目录；2. 克隆此仓库；3. 重启 ComfyUI。相关链接：ComfyUIMiniCPMPlus https://github.com/CYCHENYUE/ComfyUIMiniCPMPlus 、openbmb/MiniCPM34B https://huggingface.co/openbmb/MiniCPM34B/tree/main 、openbmb/MiniCPMV2_6 https://huggingface.co/openbmb/MiniCPMV2_6 、openbmb/MiniCPMV2_6int4 https://huggingface.co/openbmb/MiniCPMV2_6int4 、openbmb/MiniCPM34BGPTQInt4 https://huggingface.co/openbmb/MiniCPM34BGPTQInt4 。 DALL·E 自动优化提示词：提示词生成指南强调使用精确、视觉化的描述而非难以捉摸的概念，清晰明确的指示有助于生成高质量图像。提示词结构包括媒介、主题、背景等多个元素，生成图像和新想法有具体步骤和要求，默认设置除非另有说明会使用默认宽高比和风格，重要注意事项是避免使用违反服务条款的词语或概念。胡凯翔提出构建提示词的方法：基础部分关注原因、目的，主体部分讨论了构建提示词的四个关键步骤，包括充分描述任务、标注提示词的不同部分、添加示例（可选）、描述踩坑点（可选）。大白话总结为构建 GPT 能够听懂并执行的清晰明确的命令，包括背景描述、特殊情况说明、最好拆分出步骤，有示例就更好。

AI与高速公路管理业务的赋能场景

以下是 AI 与高速公路管理业务的赋能场景： 1. 自动驾驶：可用于开发自动驾驶汽车，提高高速公路行驶的安全性和效率。 2. 交通管理：优化高速公路上的交通信号灯和交通流量，缓解拥堵。 3. 预测性维护：通过分析高速公路设施的实时数据，预测潜在故障和维护需求，减少设施停机时间和维修成本。 4. 车辆安全系统：增强车辆在高速公路上的安全性能，如自动紧急制动、车道保持辅助和盲点检测等。 5. 个性化用户体验：根据驾驶员在高速公路上的偏好和习惯来调整车辆设置。 6. 销售和市场分析：帮助高速公路相关企业分析市场趋势、消费者行为和销售数据，以便更好地理解客户需求，制定营销策略和优化产品定价。 7. 电动化和能源管理：在电动汽车在高速公路上的行驶中，优化电池使用和充电策略，提高能源效率和延长电池寿命。 8. 共享出行服务：优化高速公路上的共享出行路线规划、调度车辆和定价策略，提高服务效率和用户满意度。 9. 车辆远程监控和诊断：远程监控车辆在高速公路上的状态，提供实时诊断和支持。目前在游戏领域，生成式 AI 存在构建符合行业需求的工具套件的机会，例如 Runway 为视频创作者提供人工智能辅助工具，类似的需求在游戏领域也有潜力，但尚未出现像 Runway 这样的游戏工具。

神经网络和深度学习简史

神经网络和深度学习有着丰富的发展历史： 1. 1958 年感知机神经网络诞生。 2. 70 年代经历了人工智能寒冬。 3. 1986 年 BP 算法让神经网络再度流行。 4. 尽管取得了一些成功，但在人工智能寒冬期间，用于神经网络研究的资金很少，人工智能一词近乎成为伪科学的代名词。 5. 1997 年，Hochreiter 和 Schmidhuber 为递归神经网络开发了长短期记忆（LSTM），但在当时被忽视。 6. 随着计算机变得更快和图形处理单元（GPU）的引入，神经网络逐渐与支持向量机相竞争。 7. 训练大型、深层网络存在梯度消失问题，解决方法包括逐层预训练，如 Schmidhuber 于 1992 年为递归神经网络开发的预训练方法，以及 Hinton 和 Salakhutdinov 于 2006 年为前馈网络开发的预训练方法。1997 年提出的长短期记忆（LSTM）也是解决递归神经网络中梯度消失问题的方案之一。

AI赋能教育教学

AI 在教育教学领域具有广泛的应用和巨大的潜力： 1. 数字教师：借助大型语言模型，人工智能生成的角色可以像历史人物一样授课，如让牛顿亲自讲授《牛顿运动定律》，让白居易讲述《长恨歌》背后的故事。这些数字教师博学多能、善解人意，不受情绪左右，基本能实现一对一辅导，提高学生参与感，还能根据学生情况提供定制化学习计划和资源，因材施教，提高教育效率和质量，缓解教育资源不平等问题。 2. 辅助自学：可以要求人工智能解释概念，获取良好的学习效果，但要注意对关键数据根据其他来源仔细检查，以防人工智能产生幻觉。 3. 教育资源支持：拜登签署的 AI 行政命令中提到要塑造 AI 改变教育的潜力，为教育工作者部署支持个性化辅导等的 AI 教育工具创造资源。

AI赋能个性化研究生教学。

以下是关于 AI 赋能个性化研究生教学的相关内容：拜登签署的 AI 行政命令中提到，要通过创建资源来支持教育工作者部署支持 AI 的教育工具，例如在学校中进行个性化辅导，以塑造 AI 改变教育的潜力。在教育实践方面，2022 年教育部颁布的新课程标准提到“开展差异化教学”“加强个别指导”，但一线教师因繁重行政任务难以实现为每个学生量身定制。而借助大模型，个性化学习和定制化作业不再是部分家庭专属。教师拥有 AI 就拥有了源源不断的真题库，学生也拥有了源源不断的错题练习库。例如在英语学科的选词填空出题方面，提示词的逻辑可迁移到语文学科。留学顾问可以利用多种 AI 技术来提高服务效率和质量，实现个性化服务。如智能问答系统提供 24/7 在线咨询服务；利用机器学习和数据分析技术制定个性化留学规划；利用 AI 语言学习工具辅助语言学习；利用自然语言生成技术起草文书；利用数据分析和预测技术提供准确建议；利用虚拟现实技术提供虚拟校园参观服务等。

如何生成数字人

以下是生成数字人的方法和相关工具：方法：在剪映右侧窗口顶部，打开“数字人”选项，选取免费且适合的数字人形象，如“婉婉青春”。软件会播放数字人的声音，可判断是否需要，点击右下角“添加数字人”将其添加到当前视频中，左下角会提示渲染完成时间，之后可点击预览查看效果。增加背景图片：删除先前导入的文本内容，点击左上角“媒体”菜单并导入本地图片，将图片添加到视频轨道上，可调整图片位置、大小和显示时长。增加字幕：点击文本智能字幕识别字幕，软件会自动将文字智能分段形成字幕，完成后可点击右上角“导出”按钮导出视频备用。工具： HeyGen：AI 驱动的平台，可创建逼真的数字人脸和角色，适用于游戏、电影和虚拟现实等应用。 Synthesia：AI 视频制作平台，允许创建虚拟角色并进行语音和口型同步，支持多种语言，可用于教育视频、营销内容和虚拟助手等场景。 DID：上传人像照片和输入内容，平台的 AI 语音机器人将自动转换成语音并合成逼真的会开口说话的视频。更多数字人工具请访问网站查看：https://www.waytoagi.com/category/42 。请注意，这些工具的具体功能和可用性可能会变化，使用时请遵守相关条款和政策，并注意版权和伦理责任。

数字人是运用数字技术创造出来的人，目前业界尚无准确定义，一般可根据技术栈分为两类： 1. 真人驱动的数字人：重在通过动捕设备或视觉算法还原真人动作表情，主要应用于影视行业及直播带货。其表现质量与手动建模精细程度及动捕设备精密程度直接相关，不过随着视觉算法进步，在无昂贵动捕设备时也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。 2. 算法驱动的数字人：相关算法开源代码仓库众多，如 ASR 语音识别方面有 openai 的 whisper（https://github.com/openai/whisper）、wenet（https://github.com/wenete2e/wenet）、speech_recognition（https://github.com/Uberi/speech_recognition）；AI Agent 方面大模型包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等，Agent 部分可用 LangChain 模块自定义（https://www.langchain.com/）；TTS 方面有微软的 edgetts（https://github.com/rany2/edgetts）、VITS（https://github.com/jaywalnut310/vits）、sovitssvc（https://github.com/svcdevelopteam/sovitssvc）。人物建模模型可通过手动建模（音频驱动）或 AIGC 方式生成人物动态效果（如 wav2lip 模型），但这种简单构建方式存在诸多问题，如如何生成指定人物声音、TTS 生成的音频如何精确驱动数字人口型及动作、数字人如何使用知识库做出专业回答等。

相同风格的图片进行二创

以下是关于相同风格图片进行二创的相关知识： DALLE 中：每次通过 Prompt 生成图像时，都会随机选取一个 Seed 值。使用同样的 Prompt 和 Seed 值，能生成相同或相似的图片。您可以自己测试效果，步骤如下： 1. 新开一个对话，使用 Prompt 让 DALLE 画图，要求提供 Seed。 2. 查看图片的 Prompt 并复制。 3. 在当前对话输入上一条 Prompt，另起一行输入“Use seed number '您在第一步拿到的 Seed'”。 Tusiart 中：生图入口有以下几种： 1. 网页顶部的右方有生图按钮，点击进入生图界面。 2. 点进首页任意一个模型（checkpoint 或 lora），有运行按钮。 3. 点进任意一个模型下面的返图区（相关帖子），点开一张喜欢的图片，右侧有做同款的按钮。点开之后可以选择自动复制所有设置，尝试复现图片。 Midjourney 中： Midjourney 会用一个种子号来绘图，把这个种子作为生成初始图像的起点。种子号随机生成，但可以使用Seed 或same eseed 参数指定。使用相同的种子号和提示符将产生类似的结尾图片。默认情况下种子随机，若想要相似的图，需固定 seed。比如“caiyunyiueji is a cute sports anime girl,style by Miyazaki Hayao,emoji,expression sheet,8k seed 8888”就能保证每次生成一样的图。还可以利用确定图片的 seed 加上新的关键词对效果图进行微调。

提示词工程是一门在 AI 领域中新兴且重要的学科，主要包括以下方面：实现原理：主要由提示词注入和工具结果回传两部分代码组成。提示词注入用于将工具信息及使用工具的提示词添加到系统提示中，包含 TOOL_EAXMPLE、tools_instructions、REUTRN_FORMAT 三个部分。工具结果回传则是解析 tool calling 的输出，并将工具返回的内容再次嵌入 LLM。提示词注入阶段：INSTRUCTION 包含 TOOL_EAXMPLE、tools_instructions、REUTRN_FORMAT 三个部分。TOOL_EAXMPLE 用于提示 LLM 理解和使用工具，编写时应注意用无关紧要的工具作示例避免混淆。tools_instructions 可通过输入不同工具动态调整，让 LLM 得知可用工具及使用方法。REUTRN_FORMAT 定义调用 API 的格式。工具结果回传阶段：利用正则表达式抓取输出中的“tool”和“parameters”参数，对于 interpreter 工具使用另一种正则表达式提取 LLM 输出的代码。通过识别 LLM 返回的调用工具的字典提取对应值，传入工具函数，将结果以 observation 或 user 角色返回给 LLM。是用户与模型沟通愿望的文本界面，涵盖简单问题到复杂任务，包括指令、问题、输入数据和示例等，以指导 AI 的响应。其核心在于制作出能实现特定目标的最佳提示词，需结合领域知识、对 AI 模型的理解及系统化方法为不同情境定制提示词，还可能包括创建可根据给定数据集或上下文进行程序化修改的模板，是一个迭代和探索的过程。在人工智能迅速发展的当下，已成为企业领导者必须掌握的关键技能，是设计和优化输入到 AI 系统指令（即提示词）的艺术和科学。但简单提示词存在局限性，无法满足复杂需求，推动了更先进提示技巧如思维链、思维树和思维图等的发展。