直达「 通往AGI之路 」飞书知识库 →
首页/全部问答
照片超清修复
以下是关于照片超清修复的相关内容: 使用 StabilityAI 官方的 Stable Diffusion V2.1 512 EMA 模型进行照片超清修复,需将该模型放入 stablediffusionwebui/models/StableDiffusion/文件夹中,StableSR 模块(约 400M 大小)放入 stablediffusionwebui/extensions/sdwebuistablesr/models/文件夹中,VQVAE(约 750MB 大小)放在 stablediffusionwebui/models/VAE 中。 以神仙姐姐的照片为例进行测试,其原始分辨率为 512x768,放大后较模糊。先使用“Ultimate SD upscale”脚本放大,重绘幅度开到 0.1 能看到人物细节变化,但重绘幅度开到 0.4 会使人物变化较大且失去真实感。用“后期处理”的放大方法,缩放 3 倍后眼神更锐利,但头发仍模糊。最后用 StableSR 放大时,需将大模型和 VAE 分别调整为下载安装的“Stable Diffusion V2.1 512 EMA”和“VQGAN vae”。 Tusiart 简易上手教程中提到高清修复是在原本图像分辨率基础上让其更精细,高清修复采样次数与前面采样次数理解相同,重绘幅度相当于图生图的重绘。 在 Stable Diffusion 中,AI 出图默认分辨率为 512x512,用于商业不够。提高最终出图分辨率可使用高清修复功能,如将初始分辨率设为 800x420,选择放大倍率为 2,理论上放大倍率越高图片越清晰,但实际效果与电脑配置和显卡显存有关。先以 800x420 画图并获取种子值,然后填入随机数种子固定图片,放大时可选择算法,如二次元绘图用 RESRGAN 4x+Anime6B,写实类风格用 RESRGAN 4x+。
2025-02-25
rag
RAG(RetrievalAugmented Generation,检索增强生成)是一种结合检索和生成能力的自然语言处理架构。 通用语言模型通过微调可完成常见任务,而更复杂和知识密集型任务可基于语言模型构建系统,访问外部知识源来完成,RAG 正是为此引入的方法。它把信息检索组件和文本生成模型结合,能微调且内部知识修改高效,无需重新训练整个模型。 RAG 会接受输入并检索相关支撑文档,给出来源,与原始提示词组合后送给文本生成器得到输出,适应事实随时间变化的情况,让语言模型获取最新信息并生成可靠输出。 大语言模型(LLM)存在诸多缺点,如无法记住所有知识尤其是长尾知识、知识易过时且不好更新、输出难以解释和验证、易泄露隐私训练数据、规模大导致训练和运行成本高。而 RAG 具有数据库存储和更新稳定、数据更新敏捷且不影响原有知识、降低大模型输出出错可能、便于管控用户隐私数据、降低大模型训练成本等优点。 在 RAG 系统开发中存在 12 大痛点及相应的解决方案。
2025-02-25
知识库
以下是关于知识库的相关内容: 智能体创建: 手动清洗数据:本次创建知识库使用手动清洗数据,上节课程是自动清洗数据,自动清洗数据会出现目前数据不准的情况,本节视频就尝试使用手动清洗数据,提高数据的准确性。参考链接: 在线知识库:点击创建知识库,创建一个画小二课程的 FAQ 知识库。飞书在线文档中每个问题和答案以分割,可选择飞书文档、自定义的自定义,输入后可编辑修改和删除,添加 Bot 后可在调试区测试效果。 本地文档:本地 word 文件,注意拆分内容以提高训练数据准确度,将海报的内容训练的知识库里面。画小二这个课程 80 节课程,分为了 11 个章节,不能一股脑全部放进去训练,要先将 11 章的大的章节名称内容放进来,章节内详细内容按固定方式进行人工标注和处理,然后选择创建知识库自定义清洗数据。 发布应用:点击发布,确保在 Bot 商店中能够搜到,没有通过发布的获取不到 API。 概述:扣子提供了几种方式来存储和记忆外部数据,以便 Bot 精准回复用户。知识库是大量知识分片,通过语义匹配,给模型补充知识。以车型数据为例,每个知识库的分段中,保存了一种车型的基础数据。数据库类似传统软件开发的数据库功能,以表格结构存储信息,通过 NoSQL 方式使用。目前提供的是关系型数据库,还有 AI 便签和单词本等。 智能体“竖起耳朵听”:扣子的知识库功能强大,可以上传和存储外面的知识内容,并提供多种查找知识的方法。在这个智能体中,用到了自己的知识库,收集了很多关于地道口语表达的短句,知识库可以包含多种格式的文件,这里只用了文本格式,有了自己的知识库,智能体回答用户时会首先检索自己的知识库内容。还可以添加开场白,提升体验。
2025-02-25
deepseek如何本地部署
以下是关于 DeepSeek 本地部署的相关信息: 第三期「AI 实训营」中,02 月 26 日 20:00 的课程涉及“人工智能平台 PAI 篇:本地部署满血版 DeepSeek”,包括 DeepSeek R1 技术原理、解锁 DeepSeek 的不同玩法(如问答助手、蒸馏、微调)以及实战演练(DeepSeek R1 满血版快速部署和蒸馏训练),相关课程文档为 。 韦恩提供的方法: 核心路径是通过工作流+DeepSeek R1 大模型,实现联网版的 R1 大模型。 拥有扣子专业版账号,如果是普通账号,请自行升级或注册专业号后使用。 开通 DeepSeek R1 大模型,访问地址:https://console.volcengine.com/cozepro/overview?scenario=coze 。打开火山方舟,找到开通管理,找到 DeepSeek R1 模型,点击开通服务。添加在线推理模型,添加后在扣子开发平台才能使用。 创建智能体,点击创建,先完成一个智能体的创建。 DeepSeek 大模型,尤其是指有推理功能的 DeepSeek R1 大模型,权重文件开源,可本地部署。
2025-02-25
ai视频修改
如果您想用 AI 把小说做成视频,以下是一般的制作流程: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。 以下是一些相关的 AI 视频软件教程和工具: 视频模型:Sora(https://waytoagi.feishu.cn/wiki/S5zGwt5JHiezbgk5YGic0408nBc) 工具教程:Hedra(https://waytoagi.feishu.cn/wiki/PvBwwvN36iFob7kqZktcCzZFnxd) 应用教程:视频转绘(https://waytoagi.feishu.cn/wiki/ZjKpwSd5hiy6ZhkiBVHcOBb6n9r) 应用教程:视频拆解(https://waytoagi.feishu.cn/wiki/WeKMwHRTmiVpYjkVdYpcFjqun6b) 应用教程:图片精修(https://waytoagi.feishu.cn/wiki/CfJLwknV1i8nyRkPaArcslWrnle) 几个视频 AIGC 工具: Opusclip:利用长视频剪成短视频 Raskai:短视频素材直接翻译至多语种 invideoAI:输入想法>自动生成脚本和分镜描述>生成视频>人工二编>合成长视频 descript:屏幕/播客录制>PPT 方式做视频 veed.io:自动翻译自动字幕 clipchamp:微软的 AI 版剪映 typeframes:类似 invideoAI,内容呈现文本主体比重更多 以下是 3 月 29 日的 Xiaohu.AI 日报中的相关内容: VideoSwap:替换视频中的人物、物体,在不改变背景的情况下更换视频主体。提供交互式操作,实现个性化编辑。(https://videoswap.github.io) http://X.AI 发布 Grok1.5:128k 上下文长度,性能翻倍。在 MATH、HumanEval、GSM8K、MMLU 测试中表现出色。(http://x.ai/blog/grok1.5) Looi:让你的手机变成桌面机器人,集成 ChatGPT,实现富有表情的对话互动。支持情感识别、自适应互动等 AI 功能。正在众筹,129 美金!(http://looirobot.com) LTX Studio 发布一键生成电影工具:由阿里福尔曼使用@LTXStudio 制作宣传片。展示将梦境变成现实影像的 AI 技术。 AI21 发布 Jamba:世界首个 Mamba 的生产级模型,创新的 SSMTransformer 架构,支持 256K 上下文长度。结合 Joint Attention 和 Mamba 技术,提升长上下文吞吐量。(https://ai21.com/jamba)
2025-02-25
AGI是什么
AGI 即通用人工智能(Artificial General Intelligence),指的是一种能够完成任何聪明人类所能完成的智力任务的人工智能。 OpenAI 在其内部会议上分享了 AGI 的五个发展等级: 1. 聊天机器人(Chatbots):具备基本对话能力,主要依赖预设脚本和关键词匹配,用于客户服务和简单查询响应。 2. 推理者(Reasoners):具备人类推理水平,能够解决复杂问题,如 ChatGPT,能根据上下文和文件提供详细分析和意见。 3. 智能体(Agents):不仅具备推理能力,还能执行全自动化业务,但目前许多 AI Agent 产品在执行任务后仍需人类参与,尚未达到完全智能体的水平。 4. 创新者(Innovators):能够协助人类完成新发明,如谷歌 DeepMind 的 AlphaFold 模型,可预测蛋白质结构,加速科学研究和新药发现。 5. 组织(Organizations):最高级别的 AI,能够自动执行组织的全部业务流程,如规划、执行、反馈、迭代、资源分配和管理等。 此外,像 GPT3 及其半步后继者 GPT3.5(在 2023 年 3 月升级为 GPT4 之前,它驱动了现在著名的 ChatGPT)在某种程度上是朝着 AGI 迈出的巨大一步。而 ChatGPT 是由致力于 AGI 的公司 OpenAI 研发的一款 AI 技术驱动的 NLP 聊天工具。
2025-02-25
我要找AI配音视频,类似dreamface
以下为一些可以获取 AI 配音视频的网站及相关信息: Runway:网址为 https://runwayml.com ,有网页和 app ,使用方便。工具教程: 即梦:网址为 https://dreamina.jianying.com/ ,是剪映旗下产品,生成 3 秒,动作幅度有很大升级,有最新 S 模型和 P 模型。工具教程: Minimax 海螺 AI:网址为 https://hailuoai.video/ ,非常听话,语义理解能力非常强。视频模型: Kling:网址为 kling.kuaishou.com ,支持运动笔刷,1.5 模型可以直出 1080P30 帧视频。视频模型: Vidu:网址为 https://www.vidu.studio/ haiper:网址为 https://app.haiper.ai/ Pika:网址为 https://pika.art/ ,可控性强,可以对嘴型,可配音。工具教程: 智谱清影:网址为 https://chatglm.cn/video ,开源了,可以自己部署 cogvideo 。工具教程: PixVerse:网址为 https://pixverse.ai/ ,人少不怎么排队,还有换脸功能。工具教程: 通义万相:网址为 https://tongyi.aliyun.com/wanxiang/ ,大幅度运动很强。 luma:网址为 https://lumalabs.ai/ 。视频模型: 此外,在制作 AI 视频短片《梦镜》时,经过讨论决定采用真人配音而非 AI 配音。在制作过程中,先通过图片配合配音确定每个镜头所需时长,完成初步成片后再让配音老师根据剧情和人物情绪重新配音,并加入气氛音。 另外,桂大羊的 AI 视频短片制作教程中,选择了多种工具,包括大语言模型 chatgpt、kimi 进行剧本分镜设定,文生图 midjourney 生成视觉画面,图生视频选择即梦 dreamina 制作动态画面,suno 音乐编曲,ondoku 主角台词配音,视频剪辑使用剪映。
2025-02-25
FlashMLA
以下是关于 FlashMLA 的相关信息: 2 月 24 日,DeepSeek 发布了 FlashMLA 优化 H800 GPU。 2 月 25 日的社区动态中提到,DeepSeek 开源的 FlashMLA 是针对 NVIDIA Hopper 架构的高效 MLA 解码内核,优化了长序列的推理速度,达到 3000 GB/s 内存带宽和 580 TFLOPS 计算性能。其核心在于多头潜在注意力(MLA)加速解码,支持动态序列,能完美应对复杂输入。
2025-02-25
目前所有的大模型基于的原理是什么
目前所有的大模型基于的原理主要包括以下方面: 1. 大语言模型技术的本质导致其输出结果具有不可预测性,且静态的训练数据使大模型掌握的知识存在截止日期,无法即时掌握最新信息。 2. 大模型的底层原理通常是基于数学概率的文字预测,类似于文字接龙。 3. 大模型的参数方面,例如经常听到的几百亿几千亿的参数,其实是神经网络的输入权重和输出阈值的总和。当有大量神经元时,会出现群体智能即智能涌现的效果。 4. 大语言模型的工作原理包括训练数据、算力、模型参数,在训练数据一致情况下,模型参数越大能力越强。 5. Transformer 架构是大语言模型训练架构,具备自我注意力机制能理解上下文和文本关联,其工作原理是单词预测,通过嵌入、位置编码、自注意力机制生成内容。 6. 大模型可能因错误数据导致给出错误答案,优质数据集对其很重要。
2025-02-25
FlashMLA
以下是关于 FlashMLA 的相关信息: 2 月 24 日,DeepSeek 发布了 FlashMLA 优化 H800 GPU。 2 月 25 日的社区动态中提到,DeepSeek 开源的 FlashMLA 是针对 NVIDIA Hopper 架构的高效 MLA 解码内核,优化了长序列的推理速度,达到 3000 GB/s 内存带宽和 580 TFLOPS 计算性能。其核心在于多头潜在注意力(MLA)加速解码,支持动态序列,能完美应对复杂输入。
2025-02-25