直达「 通往AGI之路 」飞书知识库 →
首页/全部问答
SD曝显存
在使用 SD 进行超大尺寸绘制时,直接调分辨率绘制超高分辨率的图片(如 10000x768 的清明上河图)通常会爆显存。正常尺寸设置最高到 2048,无法直接设置 10000 的宽度。解决方法是先在 PS 中设置所需尺寸的画布并保存为 jpg 图片,然后将图片放入 ControlNet 中,点击右下角箭头将尺寸信息发送到生成设置,填入正反向提示词,并启用 Tiled Diffusion 插件(方案选择 Mixture of Diffusers)防止接缝产生。 在 ComfyUI 中,模型的安装部署方面,FLUX 模型建议选择 dev 版本,显卡可以的用 fp16,显卡不够用的选 fp8,模型下载后放入 ComfyUI/models/unet/文件夹中。若爆显存,“UNET 加载器”节点中的 weight_dtype 可设置为 fp8 降低显存使用量,但可能稍降质量。clip 模型(t5xxl_fp16.safetensors 和 clip_l.safetensors)放在 ComfyUI/models/clip/文件夹,也可用 t5xxl_fp8_e4m3fn.safetensors 降低内存使用率。Vae 模型下载后放入 ComfyUI/models/vae 文件夹。 在生成过程中,ComfyUI 处理 SDXL 模型比 webUI 更有效率。例如,ComfyUI 生成过程中显存占用率为 7 9GB,每次生成耗时 13 15s;webUI 显存占用率为 8 11GB,每次生成耗时 25s。此外,还可对 SDXL 进行风格控制,添加【新建节点】【实用工具】【SDXL Promot Styler Advanced】节点,通过右键增加输入点将文本提示词赋予 base 和 refiner 并切换风格。
2025-02-02
ai数字人直播怎么弄
以下是关于 AI 数字人直播的相关信息: 1. 盈利方式: 直接卖数字人工具软件,实时驱动的一年 4 6 万往上,非实时驱动的一个月 600 元,市场价格较混乱。 提供数字人运营服务,按直播间成交额抽佣。 2. 适用品类和场景: 适用于不需要强展示的商品,如品牌食品饮料;虚拟商品,如门票、优惠券等。 电商直播中店播效果较好,不适用于促销场景和服装品类。 3. 壁垒和未来市场格局: 长期来看技术上没壁垒,目前仍有技术门槛,如更真实的对口型、更低的响应延迟等。 不会一家独大,可能 4 5 家一线效果,大多二三线效果公司。 把客户服务好、能规模化扩张的公司更有价值。 有资源、有业务的大平台下场可能带来降维打击。 此外,目前业界对数字人的定义还不明确,一般可根据技术栈分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业和直播带货。
2025-02-02
视频中的人物和背景替换,用什么工具
以下是一些可用于视频中人物和背景替换的工具及相关流程: ComfyUI 工作流: 前景处理: 使用 SAM 之前的版本来分割视频背景。 根据实际情况调整提示词和阈值。 移除背景后,使用图像遮罩复合生成灰色背景的图像批次,以帮助柔化前景对象(如人物)的边缘,减少锯齿或硬边缘的视觉效果,为后续和背景融合时过渡更自然顺滑。 在网盘里可以找到对应的模型,下载后按文件夹目录地址放置。 背景:背景部分可以是图片或者视频,为了有前后的视觉效果,可以添加一个图像的模糊,让生成的视频有种景深的效果。 边缘的处理: 核心是优化和改善前景对象的边缘,使其能够与新背景无缝融合,同时保持前景细节的完整性和自然性。 通过遮罩模糊生长(growMaskWithBlur),调整扩展和模糊半径来控制边缘的遮罩。 【SD】工作流: GroundingDINO 模型分割:当需要更精确的蒙版,如人物的眼睛或身上的配饰等,可使用 segment anything 中的 GroundingDINO。启用 GroundingDINO 时,AI 会自动下载模型,也可去云盘下载放到指定文件目录下。在检测提示词中输入相关内容,AI 可自动检测并设置蒙版,还能通过预览箱体得到编号选择调整单一部分。 希望以上内容对您有所帮助。
2025-02-02
有什么工具可以把英文音频转为中文音频?
以下工具可以将英文音频转为中文音频:Whisper。它和 llama 类似,采用 make 命令编译,之后去 ggerganov/whisper.cpp下载量化好的模型,然后转换音频即可。目前 Whisper 只接受 wav 格式,可以用 ffmpeg 进行转化。输出的 srt 文件如下所示: |Size|Parameters|Englishonly model|Multilingual model|Required VRAM|Relative speed| ||||||| |tiny|39 M|tiny.en|tiny|~1 GB|~32x| |base|74 M|base.en|base|~1 GB|~16x| |small|244 M|small.en|small|~2 GB|~6x| |medium|769 M|medium.en|medium|~5 GB|~2x| |large|1550 M|N/A|large|~10 GB|1x| 一般来说,对于英文音频,small 模型通常就足够了,但如果是中文音频,最好使用最大的模型。
2025-02-02
数字人工具
以下是一些制作数字人的工具: 1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色。它运用深度学习算法生成高质量的肖像和角色模型,适用于游戏、电影和虚拟现实等领域。 2. Synthesia:这是一个 AI 视频制作平台,允许用户创建虚拟角色并实现语音和口型同步。支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:这是一家提供 AI 拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成逼真的会开口说话的视频。 此外,还有适合小白用户的开源数字人工具,具有以下特点: 一键安装包,无需配置环境,简单易用。 功能包括生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。 系统兼容 Windows、Linux、macOS。 模型支持 MuseTalk(文本到语音)、CosyVoice(语音克隆)。 使用步骤为下载 8G+3G 语音模型包,启动模型即可。 相关链接: GitHub: 官网: 请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意对生成内容的版权和伦理责任。更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。内容由 AI 大模型生成,请仔细甄别。
2025-02-02
有新手入门的系统课程吗
以下是为新手入门 AI 推荐的系统课程: 1. SD 从入门到大佬: 安装完 SD 后,可参考。 强烈推荐跟着 Nenly 同学的【B站 第一套 Stable Diffusion 系统课程】合集走一遍,大概 4 小时左右可掌握基础技能。此外,还有可选的图片版教程。 2. 新手学习 AI 的综合指南: 了解 AI 基本概念:建议阅读「」部分,熟悉术语和基础概念,包括主要分支及联系。浏览入门文章,了解历史、应用和发展趋势。 开始学习之旅:在「」中有为初学者设计的课程,特别推荐李宏毅老师的课程。还可通过在线教育平台(如 Coursera、edX、Udacity)按自己节奏学习并获证书。 选择感兴趣模块深入学习:AI 领域广泛,可根据兴趣选择特定模块,如掌握提示词技巧。 实践和尝试:理论学习后要实践巩固,可在知识库分享实践作品和文章。 体验 AI 产品:与 ChatGPT、Kimi Chat、智谱、文心一言等互动,了解工作原理和交互方式。 3. 《雪梅 May 的 AI 学习日记》挑战 100 天和 AI 做朋友: 第一阶段:迈出第一步,看书听课进社区。感受是要系统性学习,打好基础。 DAY1 2024.5.22 初步探索:May 认为初期会走弯路,B站 上一些介绍 ChatGPT 原理的分享,消费可看,系统性学习要看高质量内容。 DAY2 2024.5.23 加入 AI 社区:waytoAGI。May 评价这是宝藏社区,可参考,先看新手指引入门。
2025-02-01
怎么在飞书加入way to AGI的群聊?
在飞书加入 way to AGI 的群聊有以下几种方式: 1. 您可以在 WaytoAGI 飞书知识库首页找到加入飞书群的链接(下图二维码仅作示意,请在找到最新二维码),然后点击加入,直接@机器人即可。 2. 您可以扫描。 3. 请填写下面问卷进群,群内会分享最新 AI 信息、社区活动。
2025-02-01
怎么把通往AGI之路的网站加入飞书知识库当中?
要将通往 AGI 之路的网站加入飞书知识库,您可以参考以下步骤: 1. 请填写下面问卷进群,群内会分享最新 AI 信息、社区活动。 2. 加入群后,欢迎大家积极分享,我们也会吸收进知识库,因为有您的参与才让知识库更加完善。 3. 飞书群内置 AI 智能机器人,可以回复任何与 AI 相关的问题,欢迎加入。 4. 如果您对「飞书」这款效率工具感兴趣,或者您希望结交各行各业志同道合的朋友和他们交流企业/个人效率的提升,诚邀您访问「飞书官方社区——飞行社」。 5. 如需下载研究报告,我们诚邀您加入知识星球:数百份涵盖 AI 各个方面的报告,并提供内容概要。自 2023 年上半年建立以来,保持长期活跃更新。扫码右侧二维码,加入知识星球。更多合作与咨询,请访问:https://waytoagi.feishu.cn/wiki/Wj77wBWjbi0yUAkyJWdc2TKFnmd 。 此外,关于 WaytoAGI 还有以下相关信息: 我是 WaytoAGI 专属问答机器人,基于 Aily 和云雀大模型。「飞书智能伙伴创建平台」(英文名:Aily)是飞书团队旗下的企业级 AI 应用开发平台,提供了一个简单、安全且高效的环境,帮助企业轻松构建和发布 AI 应用,推动业务创新和效率提升。云雀是一款由字节跳动研发的语言模型,通过便捷的自然语言交互,能够高效的完成互动对话、信息获取、协助创作等任务。 WaytoAGI 知识库就像一位 24 小时在线的 AI 老师、一个永不嫌烦的知识管家、一个不断成长的智慧宝库。里面有 AI 工具的“傻瓜式说明书”、大神们的“踩坑经验分享”、实用的“一招制胜”秘籍等。开启宝藏的步骤:第一步,点击飞书链接(对,就是那个网址啦:)。里面的界面就像一张藏宝图,左边的导航栏是您的指南针,上面的搜索框是您的探宝雷达,中间的内容区是知识的海洋。
2025-02-01
提示词
以下是关于提示词的相关知识: 艺术字生成: 模型选择图片 2.1,输入提示词(可参考案例提示词)。 案例参考: 金色立体书法,“立冬”,字体上覆盖着积雪,雪山背景,冬季场景,冰雪覆盖,枯树点缀,柔和光影,梦幻意境,温暖与寒冷对比,静谧氛围,传统文化,唯美中国风。 巨大的春联,金色的书法字体,线条流畅,艺术美感,“万事如意”。 巨大的字体,书法字体,线条流畅,艺术美感,“书法”二字突出,沉稳,大气,背景是水墨画。 巨大的奶白色字体“柔软”,字体使用毛绒材质,立在厚厚的毛绒面料上,背景是蓝天。 星流一站式 AI 设计工具: 在 prompt 输入框中可输入提示词,使用图生图功能辅助创作。 提示词相关: 用于描绘想生成的画面。 输入语言: 星流通用大模型与基础模型 F.1、基础模型 XL 使用自然语言(如一个长头发的金发女孩),基础模型 1.5 使用单个词组(如女孩、金发、长头发),支持中英文输入。 提示词优化:启用后可扩展提示词,更生动地描述画面内容。 写好提示词的方法: 预设词组:小白用户可点击提示词上方官方预设词组进行生图。 内容准确:包含人物主体、风格、场景特点、环境光照、画面构图、画质,如一个女孩抱着小猫,背景是一面红墙,插画风格、孤独感,高质量。 调整负面提示词:点击提示框下方的齿轮按钮,弹出负面提示词框,负面提示词可帮助 AI 理解不想生成的内容,如不好的质量、低像素、模糊、水印。 利用“加权重”功能:可在功能框增加提示词,并进行加权重调节,权重数值越大,越优先;也可对已有的提示词权重进行编辑。 辅助功能:翻译功能可一键将提示词翻译成英文;删除所有提示词可清空提示词框;会员加速可加速图像生图速度,提升效率。 提示词要素: 提示词由一些要素组成,包括指令(想要模型执行的特定任务或指令)、上下文(包含外部信息或额外的上下文信息,引导语言模型更好地响应)、输入数据(用户输入的内容或问题)、输出指示(指定输出的类型或格式)。 示例:在文本分类任务的提示中,指令是“将文本分类为中性、否定或肯定”,输入数据是“我认为食物还可以”,输出指示是“情绪:”。提示词所需格式取决于语言模型要完成的任务类型,并非所有要素都是必须的。
2025-02-01
deepseek教程
以下是关于 DeepSeek 的教程: 网址:https://www.deepseek.com/zh 。国内能访问,网页登录方便,目前完全免费。 获得游戏代码:只需点击开始对话,左边选择代码助手,直接向其许愿即可。 提示词使用: 效果对比:用 Coze 做了小测试,可对比查看 。 如何使用: 1. 搜索 www.deepseek.com,点击“开始对话”。 2. 将装有提示词的代码发给 DeepSeek 。 3. 认真阅读开场白之后,正式开始对话。 设计思路: 1. 将 Agent 封装成 Prompt,将 Prompt 储存在文件,保证最低成本的人人可用的同时,减轻自己的调试负担。 2. 通过提示词文件,让 DeepSeek 实现同时使用联网功能和深度思考功能。 3. 在模型默认能力的基础上优化输出质量,并通过思考减轻 AI 味,增加可读性。 4. 照猫画虎参考大模型的 temperature 设计了阈值系统,但是可能形式大于实质,之后根据反馈可能会修改。 5. 用 XML 来进行更为规范的设定,而不是用 Lisp(对作者有难度)和 Markdown(运行下来似乎不是很稳定)。 完整提示词:v 1.3 。 特别鸣谢:李继刚的【思考的七把武器】在前期提供了很多思考方向,Thinking Claude 是作者现在最喜欢使用的 Claude 提示词,也是设计 HiDeepSeek 的灵感来源,Claude 3.5 Sonnet 是最得力的助手。 使用技巧: 特点与优势: 1. 推理型大模型:核心是推理型大模型,不需要用户提供详细步骤指令,通过理解用户真实需求和场景提供答案。 2. 更懂人话:能够理解用户用“人话”表达的需求,不需要用户学习和使用特定提示词模板。 3. 深度思考:回答问题时能够进行深度思考,不是简单罗列信息。 4. 文风转换器:可以模仿不同作家的文风进行写作,适用于多种文体和场景。 正确方法: 1. 可以扔掉提示词模板:用自然语言描述,直接描述真实场景和具体需求,提示词模板的目的是清晰表达,如果使用也完全没问题。 2. 让 DeepSeek“说人话”:在提问时加上“说人话”“小学生能听懂”“菜市场大妈能听懂的话”等,可以让 DeepSeek 的回答更加通俗易懂。 3. 激发深度思考:让 DeepSeek 进行批判性思考、反面思考和复盘,以恢复其深度思考能力。 4. 文风转换:通过指定模仿的作家和文体,让 DeepSeek 生成符合特定风格的文本。
2025-02-01