直达「 通往AGI之路 」飞书知识库 →
首页/全部问答
如何用midijurney生生人物一致性
在 Midjourney 中实现人物一致性,主要通过以下方式: 1. Midjourney V6 更新了角色一致性命令“cref ”。您可以根据需要重复此过程,但要注意不要过多操作,以免丧失保真度。添加角色参考图像,并选择一个“cw”以达到效果。Midjourney 能够从参考图像中识别的角色属性将与提示混合,从而创建出角色的最终表现。您可以通过使用“cw N”参数(cref 权重)来大致控制转移,其中 N 的值可以从 1 到 100,默认值为 100。“cw”参数不会改变角色参考图像的强度/影响力,其作用如下: “cw 100”的值(默认值)将捕捉整个角色。 “cw 99 到cw 1”之间的值将开始捕捉较少的整个角色,仅集中于转移面部。 “cw 0”的值将仅捕捉面部,大致类似于面部替换。且无法关闭面部的转移。 2. 在群像人物一致性保持及空间深度控制方面,以双人画面人物一致性的保持为例,分为 5 步: Step 1:将初始图(A)以及人物图(B)作为风格(sref)及人物(cref)的参考内容,提示词中需要注意: 描述好空间关系(下方画线部分),视角问题可以略过(风格参考会自带角度)。 成功输出图(C),可能会遇到女同事 Lisa 无法保持跟初始图(A)一致的问题。其中:sref 为风格参考,cref 为人物参考,cw 范围为 0 100,默认 100 但建议写上去确保万无一失。 Step 2:找到已生成的 Lisa 纯人物的图,提取图片链接(url)做准备工作。 Step 3:基于 Step 1 生成的构图清晰但人物失控的成图(C)基础上,进行重绘 Vary Region,步骤为: 框选需要被替换的人物。 然后将 Step 2 准备好的链接,贴入框内界面 cref 后面,注意先把原始的 cref(即红色部分)删掉。
2024-09-23
那些图片生成ai更好用
目前比较成熟的通过输入图片生成类似图片的 AI 产品主要有: 1. Artguru AI Art Generator:在线平台,生成逼真图像,给设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,将上传的照片转换为芭比风格,效果超级好。 这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可以根据文本或参考图像生成具有创意且质量不错的相似图像输出。但仍有一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。 此外,在 AI 线上绘画方面,如果您需要用到大量图片,AI 生图是高效的解决办法。主流的两款工具 midjourney(MJ)付费成本较高,stable diffusion(SD)硬件门槛不低。不过还有像这样的免费在线 SD 工具网站。
2024-09-23
如何开始学习ai
学习人工智能(AI)是一个充满挑战和机遇的过程,以下是为新手提供的学习路径指南: 1. 了解 AI 基本概念 阅读「」部分,熟悉 AI 的术语和基础概念。 浏览入门文章,了解 AI 的历史、当前应用和未来发展趋势。 2. 开始 AI 学习之旅 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习 AI 领域广泛,如图像、音乐、视频等,可根据自身兴趣选择特定模块深入学习。 对于中学生学习 AI,建议如下: 1. 从编程语言入手学习 学习 Python、JavaScript 等编程语言,掌握编程语法、数据结构、算法等基础知识。 2. 尝试使用 AI 工具和平台 体验 ChatGPT、Midjourney 等 AI 生成工具。 探索百度的“文心智能体平台”、Coze 智能体平台等面向中学生的教育平台。 3. 学习 AI 基础知识 了解 AI 的基本概念、发展历程、主要技术(如机器学习、深度学习等)。 学习 AI 在教育、医疗、金融等领域的应用案例。 4. 参与 AI 相关的实践项目 参加学校或社区组织的 AI 编程竞赛、创意设计大赛等活动。 尝试利用 AI 技术解决生活中的实际问题,培养动手能力。 5. 关注 AI 发展的前沿动态 关注 AI 领域的权威媒体和学者,了解最新进展。 思考 AI 技术对未来社会的影响,培养思考和判断能力。 完整的学习路径建议参考「通往 AGI 之路」的布鲁姆分类法,设计适合自己的学习路径。
2024-09-23
数字人
数字人是指运用数字技术创造出来的人。目前业界还没有一个关于数字人的准确定义,但一般可以根据技术栈的不同分为两类,一类是由真人驱动的数字人,另一类是由算法驱动的数字人。 算法驱动的数字人相关的开源代码有很多,例如: ASR 语音识别: openai 的 whisper:https://github.com/openai/whisper wenet:https://github.com/wenete2e/wenet speech_recognition(这是一个语音识别的接口集合,里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognition AI Agent 大模型:包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent 部分可以使用 LangChain 的模块去做自定义,里面基本包含了 Agent 实现的几个组件(https://www.langchain.com/) TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits 系列可以自己训练出想要的人声。 sovitssvc:https://github.com/svcdevelopteam/sovitssvc,专注到唱歌上面,前段时间很火的 AI 孙燕姿。 制作数字人的工具主要是指那些能够创建虚拟角色、虚拟形象或者虚拟代言人的软件和技术。以下是几个可以用来制作数字人的工具: 1. HeyGen:HeyGen 是一个 AI 驱动的平台,可以创建逼真的数字人脸和角色。它使用深度学习算法来生成高质量的肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:Synthesia 是一个 AI 视频制作平台,允许用户创建虚拟角色并进行语音和口型同步。它支持多种语言,并可以用于教育视频、营销内容和虚拟助手等场景。 3. DID:DID 是一家提供 AI 拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后就能合成一段非常逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会随着时间和技术的发展而变化。在使用这些工具时,请确保遵守相关的使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。
2024-09-23
有生成 3d 模型的工具吗
以下是一些生成 3D 模型的工具: 1. Tripo AI:是 VAST 发布的在线 3D 建模平台,能利用文本或图像在几秒钟内生成高质量且可立即使用的 3D 模型。基于数十亿参数级别的 3D 大模型,实现快速的 2D 到 3D 转换,并提供 AI 驱动的精准度和细节。 2. Meshy:功能全面,不仅支持文本生成 3D,还支持图片生成 3D 以及 AI 材质生成。用户可通过上传图片并描述所需材质和风格来生成高质量 3D 模型。 3. CSM AI:支持从视频和图像创建 3D 模型。其 Realtime Sketch to 3D 功能支持通过手绘草图实时设计 3D 形象,再转换为 3D 模型。 4. Sudo AI:支持通过文本和图像生成 3D 模型,特别适用于游戏领域的模型生成。用户可上传图片或输入文本提示词来生成 3D 模型。 5. VoxCraft:由生数科技推出的免费 3D 模型生成工具,能够将图像或文本快速转换成 3D 模型,并提供了图像到 3D、文本到 3D 和文本到纹理等多种功能。 此外,还有以下工具: 1. BakedAvatar 动态 3D 头像:从视频创建逼真 3D 头部模型,实时渲染和多视角查看,兼容多种设备,交互性编辑。 2. MakeACharacter:一键生成 3D 数字人,可自定义面部特征,生成逼真 3D 角色。基于真实人类扫描数据,使用 Unreal Engine 渲染。支持中英文提示,兼容多个行业应用。 3. Rodin Gen1:3D 原生生成模型,拥有 1.5B 参数,可实现 3Dto3D 生成,生成 3D 模型及物理基础渲染材质,支持 3D LoRA 技术,类似于 Stable Diffusion。 4. Skybox AI 0.9 版本:可以从文本提示或草图生成 360 度 3D 世界,使用 NeRF 技术,增强图像的空间深度和真实感,提供不同分辨率的 3D 网格下载。 5. CSM_ai:文本、图像或草图转换为 3D 素材,可直接应用于游戏中,无需后期处理。 6. Move AI 推出的 Move API:从 2D 视频生成 3D 运动数据,支持多种 3D 文件格式导出,为 AR 应用、游戏开发等提供高质量 3D 运动数据。 7. ComfyUI 3D Pack:快速将图片转换为 3D 模型,支持多角度查看,使用 3D 高斯扩散技术提升模型质量,支持多种格式导出,集成先进 3D 处理算法。 8. Medivis 的 SurgicalAR 手术应用:将 2D 医疗图像转化为 3D 互动视觉,提高手术精度,支持 3D 模型的放大、缩小、旋转,精确手术计划。
2024-09-23
什么是AI
AI 即人工智能(Artificial Intelligence),是指让计算机模拟人类智能的技术和科学。它旨在使计算机能够像人类一样学习、思考、推理、解决问题和执行任务。AI 涵盖了多个领域和技术,包括机器学习、深度学习、自然语言处理、计算机视觉、语音识别等。通过对大量数据的学习和分析,AI 系统能够识别模式、做出预测、生成新的内容,并在各种应用场景中提供智能化的服务和解决方案。
2024-09-23
写论文的ai
在论文写作领域,AI 技术的应用发展迅速,能在多方面提供辅助,以下是一些常用的 AI 工具和平台: 1. 文献管理和搜索: Zotero:结合 AI 技术,可自动提取文献信息,助于管理和整理参考文献。 Semantic Scholar:由 AI 驱动的学术搜索引擎,能提供文献推荐和引用分析。 2. 内容生成和辅助写作: Grammarly:通过 AI 技术进行文本校对、语法修正和写作风格建议,提升语言质量。 Quillbot:基于 AI 的重写和摘要工具,可精简和优化论文内容。 3. 研究和数据分析: Google Colab:提供基于云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,便于数据分析和可视化。 Knitro:用于数学建模和优化的软件,助力复杂数据分析和模型构建。 4. 论文结构和格式: LaTeX:结合自动化和模板,高效处理论文格式和数学公式。 Overleaf:在线 LaTeX 编辑器,有丰富模板库和协作功能,简化编写过程。 5. 研究伦理和抄袭检测: Turnitin:广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check:通过与已发表作品比较,检测潜在抄袭问题。 使用这些工具时,要结合自身写作风格和需求,选择最适合的辅助工具。需注意,内容由 AI 大模型生成,请仔细甄别。另外,对于写论文提纲之类的任务,ChatGPT 可能更合适。Pi 则更擅长引导话题、同理心强,是交互感良好的聊天伙伴。
2024-09-23
AI绘画怎么学
以下是关于学习 AI 绘画的一些建议和指导: 首先,您可以借助《AI 绘画助手》,它是一位专业且贴心的学习导师。无论您是新手小白还是进阶爱好者,它都能提供优质实用的指导。在原理讲解上,它能用通俗易懂的语言为您解释复杂的神经网络、生成对抗网络以及卷积神经网络等知识,助您理解 AI 绘画背后的神秘机制。 对于市面上流行的 AI 绘画工具,如 DALLE、MidJourney、Stable Diffusion 等,它不仅熟悉,还能详细介绍使用步骤和独特之处,帮您找到适合自己的工具。它还擅长风格迁移技术、生成对抗网络在图像生成和编辑中的应用,以及获取高分辨率精美图像的方法,并会传授关键要点和操作技巧。此外,它拥有丰富的实战案例经验,能引领您从零基础起步创作作品,为您答疑解惑并规划清晰的学习路径。 如果您是 Stable Diffusion 的新手,可以参考以下视频教程: 1. 第二节课:20 分钟搞懂 Prompt 与参数设置,明白 AI 绘画“咒语”。 2. 第三节课:打破次元壁,用 AI“重绘”照片和 CG。 3. 第四节课:AI 绘画模型,“画风”自由切换。 4. 第五节课:提高 AI 绘画分辨率的方式。 5. 第六节课:LoRa | Hypernetwork 概念简析。 6. 第七节课:定向修手修脸,手把手教您玩转局部重绘。 7. 第八节课:提示词补全翻译反推,“终极”放大脚本与细节优化插件。 8. 第九节课:LoRA 从原理到实践。 9. 第十节课:零基础掌握 ControlNet。 关于 Stable Diffusion 的软件原理,您可以这样理解:如果把您换成是 AI,这大概就是 AI 绘画的逻辑。您花了四十年时间所学习的梵高风格,就相当于 Stable Diffusion 的大模型——Checkpoint。人们把成千上万美术风格的作品练成一个模型放在 AI 里面,AI 就能依照这个模型画出类似风格的作品。所以要画出符合心意的作品,首先要选对合适的大模型。大模型的下载,可以去 C 站(https://civitai.com/),有真实系的(Chillmixout)、二次元的(anything)、游戏 CG 风(ReV Animated)等,但需要科学上网。如果不会科学上网,也可以在启动器的界面直接下载模型,不过这里看不见预览图,从名字可能看不出模型风格。将下载的大模型放在根目录的【……\\models\\Stablediffusion】文件夹下,在左上角的模型列表中选择(看不到就点旁边的蓝色按钮刷新)。旁边的 VAE 相当于给模型增加一个提高饱和度的滤镜和一些局部细节微调,有的大模型自带 VAE 就不用再加。VAE 可以直接在启动器里面下载,下载的 VAE 放在根目录的【……\\models\\VAE】文件夹下。
2024-09-23
如何自动化 RAG bot 的测试评估工作流?
以下是一个关于自动化 RAG bot 测试评估工作流的参考方案: 首先,对于 RAG bot 的工作流,主要包括以下关键步骤: 1. 开始节点:接收用户选择的小说人物角色名称或向小说人物角色提问的问题。 2. 知识库节点:将输入的角色名称或问题作为查询,在知识库中检索该角色的性格特点、经典台词或相关的上下文信息。 3. 大模型节点:让大模型对检索到的信息进行筛选和处理,并以特定格式(如 JSON 格式)输出结果,或者根据问题和检索到的上下文信息生成答案。 4. 代码节点:对上游输入的数据进行规整和格式化输出。 5. Text2Image 节点:引用上一步输出的用于描述人物性格和特点的特征,作为提示生成人物的角色照。 6. 结束节点:输出人物台词、角色照或答案。 要实现自动化测试评估工作流,可以考虑以下几个方面: 1. 制定明确的测试用例:包括各种类型的输入,如不同的角色名称、问题类型和复杂程度等,以全面覆盖各种可能的情况。 2. 建立监控机制:实时监测工作流中各个节点的运行状态、数据传输和处理时间等关键指标。 3. 数据验证:在每个节点的输出端,验证数据的准确性、完整性和格式的正确性。 4. 性能评估:分析工作流的整体性能,如响应时间、资源利用率等,以优化工作流的效率。 5. 错误处理和恢复测试:模拟各种可能的错误情况,测试工作流的错误处理和恢复能力。 6. 定期回归测试:确保工作流在经过修改或优化后,仍然能够正常运行并满足预期。 通过以上的步骤和方法,可以有效地实现 RAG bot 测试评估工作流的自动化,提高其可靠性和性能。
2024-09-22
用ai做ppt会有数据安全和隐私泄露 风险吗
使用 AI 制作 PPT 可能存在一定的数据安全和隐私泄露风险。 一方面,取决于所使用的 AI 工具及其数据处理政策。如果该工具的开发者或服务提供商没有采取足够的安全措施来保护用户数据,那么数据就有可能被泄露。 另一方面,在输入数据到 AI 系统时,如果包含了敏感信息,且该信息未经过妥善处理和加密,也存在被窃取或不当使用的风险。 然而,许多正规和知名的 AI 工具通常会采取一系列措施来保障数据安全和用户隐私,例如数据加密、严格的访问控制、遵循相关法律法规等。但用户在选择使用 AI 工具制作 PPT 时,仍需仔细阅读服务条款和隐私政策,了解数据的处理和存储方式,以最大程度降低潜在的风险。
2024-09-22