Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

图生图 / img2img:上传一张图片,然后系统会在这个图片的基础上生成一张新图片,修改一些提示词(Prompt)来改变新图片的效果 , 给我推荐这类大模型

Answer

以下为您推荐可用于图生图(img2img)的大模型:

  1. Stable Diffusion(SD)模型:由 Stability AI 和 LAION 等公司共同开发,参数量约 1B,可用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等任务。在图生图任务中,SD 模型会根据输入的文本提示,对输入图片进行重绘以更符合文本描述。输入的文本信息通过 CLIP Text Encoder 模型编码成机器能理解的数学信息,用于控制图像生成。
  2. Adobe Firefly image 2 模型:上周发布了 Beta 测试版本,增加了众多功能,模型质量提升。默认图片分辨率为 2048*2048,对图片的控制能力增强,具有更高质量的图像和插图生成、自定义选项和改进的动态范围。支持生成匹配(img2img),应用预先选择的图像集中的风格或上传自己的风格参考图像以创建相似图像,还有照片设置、提示建议、提示链接共享、反向提示词等功能。
Content generated by AI large model, please carefully verify (powered by aily)

References

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

Stable Diffusion(SD)模型是由Stability AI和LAION等公司共同开发的生成式模型,总共有1B左右的参数量,可以用于文生图,图生图,图像inpainting,ControlNet控制生成,图像超分等丰富的任务,本节中我们以文生图(txt2img)和图生图(img2img)任务展开对Stable Diffusion模型的工作流程进行通俗的讲解。文生图任务是指将一段文本输入到SD模型中,经过一定的迭代次数,SD模型输出一张符合输入文本描述的图片。比如下图中输入了“天堂,巨大的,海滩”,于是SD模型生成了一个美丽沙滩的图片。SD模型的文生图(txt2img)过程而图生图任务在输入本文的基础上,再输入一张图片,SD模型将根据文本的提示,将输入图片进行重绘以更加符合文本的描述。比如下图中,SD模型将“海盗船”添加在之前生成的那个美丽的沙滩图片上。SD模型的图生图(img2img)过程那么输入的文本信息如何成为SD模型能够理解的机器数学信息呢?很简单,我们需要给SD模型一个文本信息与机器数据信息之间互相转换的“桥梁”——CLIP Text Encoder模型。如下图所示,我们使用CLIP Text Encoder模型作为SD模型中的前置模块,将输入的文本信息进行编码,生成与文本信息对应的Text Embeddings特征矩阵,再将Text Embeddings用于SD模型中来控制图像的生成:蓝色框就是CLIP Text Encoder模型,能够将输入文本信息进行编码,输出SD能够理解的特征矩阵

AIGC Weekly #42

Adobe上周发布了Firefly image 2 Beta测试版本,增加了非常多的功能,模型质量也强了好多,卷起来了。我试了一下发现image 2模型的图片分辨率默认居然是2048*2048的,太强了。而且对图片的控制能力增强许多,这再搭配上Photo shop的蒙版之类的拉满了。Firefly image 2模型:具有更高质量的图像和插图生成,以及自定义选项和改进的动态范围。生成匹配:就是img2img,应用预先选择的图像集中的风格或上传你自己的风格参考图像,可以快速创建相似图像。照片设置:应用和调整照片设置,类似于手动相机控制,以实现更逼真的图像质量,具有更高保真度的细节(包括皮肤毛孔和树叶)以及运动模糊和景深等效果。提示建议:输入提示词的时候,输入框上方会给出一些提示词书写建议选择就可以使用。提示链接共享:其他人点开你分享的提示的时候,可以快速应用提示词及相关设置。反向提示词:通过输入你不想生成内容的提示词,可以排除对应内容。

进阶:Mazz的SD进阶分享

|多行文本|备注|标签|附件||-|-|-|-||[Earth Ninja](https://civitai.com/posts/196183)|I am sorry that I cannot write all the information here because the workflow is quite complex and the prompt and model often change.<br>The base prompt is:<br>epic realistic,(dark shot:1),1girl,ninja floating,textured clothing,dragon_head,smoke,(((sandstorm))),(flying stone),(((dust explosion:1))),wind,(motion blur),realistic,solo_focus,(dark_background),3d Model<br>The main model is:<br>[Niji3dstyle](https://civitai.com/models/46898/niji3dstyle)/[Lyriel](https://civitai.com/models/22922/lyriel)/[Dreamshaper](https://civitai.com/models/4384/dreamshaper)<br>I also used:[Nijiexpress Lora](https://civitai.com/models/44023/nijiexpressivev1).<br>The initial screen was created using img2img from a hand-drawn sketch,the characters'poses were controlled using ControlNet Openpose,and a lot of Inpaint and Inpaint Sketch was used for sand and smoke,and for the dragon,Inpaint Sketch was used.I recommend using the"[Canvas-Zoom](https://github.com/richrobber2/canvas-zoom)"extension for Inpaint.Of course,a lot of Photoshop processing and img2img iterations were also involved in the entire process.<br>The entire job took about 6 hours.<br>I hope the above information is helpful to everyone.|||[heading1]教程开始:

Others are asking
可以增强图片清晰的的ai
以下是一些可以增强图片清晰度的 AI 工具: 1. Magnific:https://magnific.ai/ 2. ClipDrop:https://clipdrop.co/imageupscaler 3. Image Upscaler:https://imageupscaler.com/ 4. Krea:https://www.krea.ai/ 更多工具可以查看网站的图像放大工具库:https://www.waytoagi.com/category/17 此外,PMRF 也是一种全新的图像修复算法,它具有以下特点: 擅长处理去噪、超分辨率、着色、盲图像恢复等任务,生成自然逼真的图像。 不仅提高图片清晰度,还确保图片看起来像真实世界中的图像。 能够应对复杂图像退化问题,修复细节丰富的面部图像或多重损坏的图片,效果优质。 详细介绍: 在线体验: 项目地址: 这些 AI 画质增强工具都具有不同的特点和功能,可以根据您的具体需求选择合适的工具进行使用。
2025-04-18
图片提取文字
以下是关于图片提取文字的相关信息: 大模型招投标文件关键数据提取方案:输入模块设计用于处理各种格式的文档输入,包括 PDF、Word、Excel、网页等,转换成可解析的结构化文本。多种文件格式支持,对于图片,可以借助 OCR 工具进行文本提取,如开放平台工具:。网页可以使用网页爬虫工具抓取网页中的文本和表格数据。 谷歌 Gemini 多模态提示词培训课:多模态技术可以从图像中提取文本,使从表情包或文档扫描中提取文本成为可能。还能理解图像或视频中发生的事情,识别物体、场景,甚至情绪。 0 基础手搓 AI 拍立得:实现工作流包括上传输入图片、理解图片信息并提取图片中的文本内容信息、场景提示词优化/图像风格化处理、返回文本/图像结果。零代码版本选择 Coze 平台,主要步骤包括上传图片将本地图片转换为在线 OSS 存储的 URL 以便调用,以及插件封装将图片理解大模型和图片 OCR 封装为工作流插件。
2025-04-15
图片变清晰
以下是关于图片变清晰的相关内容: 使用清影大模型: 输入一张图片和相应提示词,清影大模型可将图片转变为视频画面,也可只输入图片让模型自行发挥想象生成有故事的视频。 选用尽可能清晰的图片,上传图片比例最好为 3:2(横版),支持上传 png 和 jpeg 图像。如果原图不够清晰,可采用分辨率提升工具将其变清晰。 提示词要简单清晰,可选择不写 prompt 让模型自行操控图片动起来,也可明确想动起来的主体,并以“主体+主题运动+背景+背景运动”的方式撰写提示词。 常见的 AI 画质增强工具: Magnific:https://magnific.ai/ ClipDrop:https://clipdrop.co/imageupscaler Image Upscaler:https://imageupscaler.com/ Krea:https://www.krea.ai/ 更多工具可查看网站的图像放大工具库:https://www.waytoagi.com/category/17 用 AI 给老照片上色并变清晰: 将照片放入后期处理,使用 GFPGAN 算法将人脸变清晰。然后将图片发送到图生图中,打开 stableSR 脚本,放大两倍。切换到 sd2.1 的模型进行修复,vae 选择 vqgan,提示词可不写以免对原图产生干扰。
2025-04-14
怎么让图片动起来
要让图片动起来,可以参考以下几种方法: 1. 使用即梦进行图生视频:只需上传图片至视频生成模块,提示词简单描绘画面中的动态内容即可生成时长为 3 秒钟的画面。运镜类型可根据剧本中的镜头描绘设置,主要设置以随机运镜为主。生成速度根据视频节奏选择,比如选择慢速。 2. 使用 Camera Motion: 上传图片:点击“Add Image”上传图片。 输入提示词:在“Prompt”中输入提示词。 设置运镜方向:选择想要的运镜方向,输入运镜值。 设置运动幅度:运动幅度和画面主体运动幅度有关,与运镜大小无关,可以设置成想要的任意值。 其它:选择好种子(seed),是否高清(HD Quality),是否去除水印(Remove Watermark)。 生成视频:点击“create”,生成视频。 3. 对于复杂的图片,比如多人多活动的图: 图片分模块:把长图分多个模块。 抠出背景图:智能抠图,用工具把要动的内容去除掉,用 AI 生成图片部分。 绿幕处理前景图:将要拿来动起来的部分抠出,放在绿幕背景里或者画的背景颜色,导出图片。 前景图动态生成视频:用 AI 视频生成工具写入提示词让图片动起来,比如即梦、海螺、混元等。不停尝试抽卡。 生成视频去掉背景:用剪映把抽卡合格的视频放在去掉内容的背景图片,视频的背景用色度抠图调整去掉。多个视频放在背景图片,一起动即可。
2025-04-12
图片文字转文档
图片文字转文档可以通过以下方式实现: coze 插件中的 OCR 插件: 插件名称:OCR 插件分类:实用工具 API 参数:Image2text,图片的 url 地址必填 用途:包括文档数字化、数据录入、图像检索、自动翻译、文字提取、自动化流程、历史文献数字化等。例如将纸质文档转换为可编辑的电子文档,自动识别表单、票据等中的信息,通过识别图像中的文字进行搜索和分类,识别文字后进行翻译,从图像中提取有用的文字信息,集成到其他系统中实现自动化处理,保护和传承文化遗产。 插件的使用技巧:暂未提及。 调用指令:暂未提及。 PailidoAI 拍立得(开源代码): 逻辑:用户上传图片后,大模型根据所选场景生成相关的文字描述或解说文本。 核心:包括图片内容识别,大模型需要准确识别图片中的物体、场景、文字等信息;高质量文本生成,根据图片生成的文字不仅需要准确,还需符合专业领域的要求,保证文字的逻辑性、清晰性与可读性。 场景应用: 产品文档生成(电商/零售):企业可以利用该功能将商品的图片(如电器、服饰、化妆品等)上传到系统后,自动生成商品的详细描述、规格和卖点总结,提高电商平台和零售商的商品上架效率,减少人工编写文案的工作量。 社交媒体内容生成(品牌营销):企业可使用图片转文本功能,帮助生成社交媒体平台的营销文案。通过上传产品展示图片或品牌活动图片,模型可自动生成具有吸引力的宣传文案,直接用于社交媒体发布,提高营销效率。 法律文件自动生成(法律行业):法律行业可以使用图片转文本技术,自动提取合同、证据材料等图片中的文本信息,生成法律文件摘要,辅助律师快速进行案件分析。
2025-04-11
如何去除图片中的文字内容
以下是去除图片中文字内容的方法: 1. 图像预处理: 图像去噪:使用去噪算法(如高斯滤波、中值滤波)去除图像中的噪声。 图像增强:通过增强算法(如直方图均衡化、对比度增强)提升图像的清晰度和对比度。 2. 图像分割:使用图像分割算法将图片中的文字和背景分离。常用的分割算法包括阈值分割、边缘检测和基于区域的分割方法。 3. 文字检测:在分割后的图像中,使用文字检测算法(如基于深度学习的文本检测模型)识别出文字区域。 4. 文字识别:对检测到的文字区域进行文字识别,将文字内容转换为计算机可处理的文本数据。常用的文字识别技术包括基于深度学习的端到端文本识别模型和传统的 OCR(Optical Character Recognition)技术。 5. 后处理:根据需求进行后处理,如去除残余的噪点、填补文字区域的空白等。 6. 机器学习模型训练(可选):如有足够的数据,可以采用机器学习技术训练模型,通过学习样本中的文字特征来自动去除图片上的文字。 7. 优化算法:对整个处理流程进行优化,提高处理速度和准确度。可以采用并行计算、硬件加速等方法提升算法的效率。 8. 移动端集成:将设计好的算法和模型集成到移动应用程序中,以实现去除图片文字的功能。可以使用移动端开发框架(如 iOS 的 Core ML、Android 的 TensorFlow Lite)来实现模型的部署和调用。 此外,像 Gemini 2.0 Flash 等工具也可以通过自然语言指令来去除图片中的文字,指令如“去掉 XXX”。DALL·E 也能实现去掉图片中的错误文字等操作。
2025-04-11
我想将常用的AI入口手机放在一张网页上,该如何设置waytoAGI页面
以下是关于将常用的 AI 入口放在一张网页上设置 WaytoAGI 页面的方法: 1. 点开链接就能看:不用注册,不用花钱,直接点击。 2. 想看啥就看啥:比如您想学 AI 绘画,就去看“AI 绘画”部分;想找 AI 工具,就去“工具推荐”部分。内容分得清清楚楚,想学啥都能找到。 3. 有问题还能问:如果看了还有不懂的,或者想跟别人交流,可以加入社群,大家一起讨论。 另外,关于使用 Cursor 制作您的第一个主页: 1. 在搞定一个非常简单的小游戏之后,可以做一个自己的个人介绍网站。可以先看看官网,比如 allinagi.com.cn、sboat.cn。假设要做一个《全 AI 自动驾驶的火星登陆飞船》项目,首先会有一个初步简单的项目介绍,比如 WaytoMars 是一个制造、运营全 AI 自动驾驶的火星登陆飞船公司品牌,有着领先全球的技术实力、人才优势,预计在 2030 年推出可承载上千人,五星豪华级的全 AI 自动驾驶的火星登陆飞船。有了项目介绍后,让 AI 帮助生成一个具有前端大师级审美、极富科幻感的网站首页。首先,新建一个 waytomars 文件夹并打开,在 AI 对话框中输入上述的话,一路等待 AI 制作以及加入您的修改意见即可。 2. 如何让别人看到您的作品预览:通过将项目文件夹整体上传,就可以生成一个临时浏览链接,在不需要域名和服务器的情况下让外部也能够看到您的作品。注意:如果发现 cursor 有所卡顿,注意是不是 AI 让您在终端区或者对话区确认重要操作,左下角将 ask every time 修改为 auto run 就可以全自动化了。 WaytoAGI 就是一个帮您快速入门 AI、学会用 AI 搞事情的“武器库”。不管您是完全不懂 AI 的小白,还是想用 AI 赚钱的普通人,它都能帮到您。AI 是未来的趋势,现在学一点都不晚,如果您想了解 AI、用 AI、甚至靠 AI 搞钱,WaytoAGI 就是您最该看的“AI 宝典”。
2025-04-14
我想找一个可以把服装图片用ai的方式直接‘穿’在另一张图片的模特身上
以下是两种可以将服装图片用 AI 的方式“穿”在另一张图片的模特身上的方法: 方法一:使用 ComfyUI GeminiAPI 1. 在 Google 的 AI Studio 申请一个 API key(需要网络环境),有免费的额度,网址为:https://aistudio.google.com/apikey?hl=zhcn 。 2. 安装相关依赖,根据使用的情况选择手动安装(如果使用 ComfyUI 便携版或自己的 Python 环境)或通过 ComfyUI Manager 安装。 手动安装:安装相关依赖。 通过 ComfyUI Manager 安装:在 ComfyUI 中安装并打开 ComfyUI Manager,在 Manager 中搜索“Gemini API”,然后点击安装按钮。 方法二:使用【SD】 1. 进行 SAM 模型分割:来到图生图中,提示词输入“蓝色毛衣”,蒙版区域内容处理改为“填充”,尺寸改为和图像一致,重绘幅度为 1。 2. 处理可能出现的问题:如蒙版区域较大导致的衔接问题,可以通过降低重绘幅度或添加一个 openpose 来控制人物的身体,得到正确的姿势。 3. 选择合适的重绘功能:除了使用图生图的局部重绘,还可以使用 controlnet 的局部重绘功能,控制模式选择“更注重提示词”,具体效果可自行试验选择。
2025-04-09
学习大模型请给我一张知识图谱
以下是为您提供的大模型知识图谱: 1. 非技术背景,一文读懂大模型 整体架构 基础层:为大模型提供硬件支撑,数据支持等,例如 A100、数据服务器等。 数据层:企业根据自身特性维护的垂域数据,分为静态的知识库和动态的三方数据集。 模型层:LLm 或多模态模型,LLm 即大语言模型,如 GPT,一般使用 transformer 算法实现;多模态模型包括文生图、图生图等,训练所用数据与 llm 不同,用的是图文或声音等多模态的数据集。 平台层:模型与应用间的平台部分,如大模型的评测体系,或者 langchain 平台等。 表现层:也就是应用层,用户实际看到的地方。 2. AI Agent 系列:Brain 模块探究 知识 内置知识 常识知识:包括日常生活中广泛认可的事实和逻辑规则,帮助智能体具备泛化能力。 专业知识:涉及深入特定领域的详细信息,如医学、法律、科技、艺术等领域的专有概念和操作方法。 语言知识:包括语法规则、句型结构、语境含义以及文化背景等,还涉及非文字部分如语调、停顿和强调等。 3. 大模型入门指南 通俗定义:输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。 类比学习过程 找学校:训练 LLM 需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练大模型。 确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。 找老师:用算法讲述“书本”中的内容,让大模型能够更好理解 Token 之间的关系。 就业指导:为了让大模型能够更好胜任某一行业,需要进行微调(fine tuning)指导。 搬砖:就业指导完成后,进行如翻译、问答等工作,在大模型里称之为推导(infer)。 Token:被视为模型处理和生成的文本单位,可代表单个字符、单词、子单词等,在将输入进行分词时,会对其进行数字化,形成词汇表。
2025-04-07
如何让一张卡通人物动起来
要让一张卡通人物动起来,可以参考以下几种方法: 1. 使用 AnimateX :类似 Animate Anyone,输入角色图片和参考动作序列,即可实现角色动画,尤其适配拟人化的角色。 2. 借助 Pika : 账号注册:访问完成免费注册。 素材整理: 视频:准备一段视频,可手机实拍,≥5 秒,生成时会自动截取前 5 秒,横屏/竖屏均可(建议 1080p 以上)。 图片:准备一张主体清晰无遮挡的角色图片,生成的视频中将参考此图片的角色并融入视频。 文案思路:提前构思角色动态关键词(如“奔跑/挥手/发光”),也可让模型自由发挥。 3. 运用即梦进行图生视频:只需上传图片至视频生成模块,用简单提示词描绘画面中的动态内容,能生成时长为 3 秒钟的画面,运镜类型可根据剧本中的镜头描绘设置,以随机运镜为主,生成速度可选择慢速。 此外,在制作过程中,还可以像桂大羊的教程那样,通过描绘人物的提示词、上传角色参考图、扣除角色背景以便于进行角色加背景的融合生成时进行垫图操作等方式,提高人物和场景的融合度。
2025-03-30
用什么AI可以把一张图重新制作成另一张图
以下是一些可以将一张图重新制作成另一张图的 AI 工具和相关知识: 1. Stable Diffusion: 图生图功能:上传图片后,它会根据您的图片、选择的模型、输入的 prompt 等信息进行重绘。重绘幅度越大,输出的图和输入的图差别就越大。 尺寸:需注意选择合适的图片生成尺寸,太小可能导致 AI 生成内容有限,太大则可能使 AI 失控。 采样算法:决定了 AI 用何种算法生图。 采样次数:调整图片内容的次数,并非越多越好,过多可能效果提升不明显且耗时增加。 提示词相关性:影响图像与 prompt 的匹配程度,过高可能导致图像质量下降。 随机种子 seed:固定种子可对图片进行“控制变量”操作,首次生成图时无需设置。 Clip Skip:一般设为 2,早期无需过多关注。 ENSD:eta 噪声种子增量,默认设为 0 即可。 例如,将一幅图再次放入以图生图中,通过 DeepBooru 反推关键词,并使用新的大模型和 LORA 进行重新生成,可以改变图片风格。但生成的图可能存在细节瑕疵,需要不断调整参数或借助 PS 修补。 此外,在全国首例 AI 生成图片著作权案例中,法官认定利用 Stable Diffusion 等工具,根据使用者输入的提示词、增删修改相关参数生成的具有独创性和智力投入的图片属于美术作品,受到著作权保护,使用者享有生成图片的著作权。
2025-03-24
生成一张图片,把楼顶的裂缝做成人体表皮的感觉,冒着微红的血液,有施工工人正在刷涂料修补这个伤口
很抱歉,暂时无法直接为您生成这样的图片。但您可以使用一些 AI 绘画工具来尝试实现,比如 DALL·E2、StableDiffusion 等。您可以在这些工具中输入详细的描述,如“楼顶的裂缝呈现人体表皮的质感,冒着微红的血液,有施工工人正在刷涂料修补这个伤口”,然后通过不断调整参数和提示词来获得您期望的效果。
2025-03-21
PromptEnhancer
以下是关于 PromptEnhancer 的相关信息: PromptEnhancer 是一款自动生成/优化 prompt 的工具。 在对最流行的“AI 提示生成器”的比较分析中,针对“作为一名 IT 学生,为我的高级项目提出想法;我想要关于学生帮助大学学生的想法”这一测试种子提示,PromptEnhancer 在实验中的成绩为 4 胜 0 负。 相关链接:https://flowgpt.com/prompt/sbuYQwUq_8v8fafR5zJuB
2025-04-20
1.2Prompts 市场营销类
以下是关于市场营销类的 1.2 Prompts(提示词)相关内容: 专业推特新闻小编(作者:Carl):提取文本里的关键信息,整理所有信息并用浅显易懂的方式重新说一遍,让没有技术背景的人也能听懂,同时要写得吸引眼球。使用 Unicode 符号和 Emoji 表情符号来优化排版,提供更好的阅读体验。目标包括提取新闻关键信息并用浅显方式重新表述、为用户提供更好阅读体验让信息更易理解、增强信息可读性提高用户专注度。约束条件为不会偏离原始信息,只基于原有信息收集的消息做合理改编,只使用 Unicode 符号和 Emoji 表情符号进行排版。参考链接: 给 Prompt 打分(作者:李继刚):类似 Prompt 药剂师,通过对用户的 Prompt 进行分析,给出评分和改进建议,帮助用户提升 Prompt 的效果。用户基于当下认知写完 Prompt,不知现在的写法有什么问题,需要帮忙分析。要提供准确的评分和改进建议,避免胡编乱造的信息。参考链接:
2025-04-09
分析程序员在AI能力上的不同维度,比如AI框架,AIPrompt等
以下是对程序员在 AI 能力上不同维度的分析,包括 AI 框架和 AI Prompt 等方面: AI 框架: PromptPal:专为 AI 领域中的初创公司和个人开发者设计的提示管理工具,是一个集中化平台,便于在 AI 项目中管理提示,实现协作和工作流程优化。具有本地部署和云原生、简易设置、数据库支持、SDK 支持、提示跟踪与分析、协作工具等特点。开发指向: ChainForge:开源的可视化编程环境,专门用于测试大型语言模型(LLMs)的提示。允许用户进行快速而有效的提示想法测试和变化,具有多模型测试、响应质量比较、评估指标设置、多对话管理等特点。开发指向: AI Prompt: Promptknit:为 AI Prompts 测试提供服务的平台,可能提供工具和资源来帮助用户设计、测试和优化 AI 模型的提示。网站: 对于律师等法律人写好 Prompt 的建议: 明确 Prompt 是给人工智能(AI)系统提供的信息或问题,用来引导其产生特定回答或执行特定任务。 建议框架及格式:CRISPE 包括 Capacity and Role(能力与角色)、Insight(洞察)、Statement(陈述)、Personality(个性)、Experiment(举例)。例如,在处理合同纠纷案件时,为 AI 赋予角色和能力,提供背景信息和上下文,明确期望其完成的任务,设定回答风格等。
2025-04-09
如何学习Prompt
以下是关于如何学习 Prompt 的详细指导: 一、准备工作 首先,您需要有一个大模型帐号,并熟悉与它们对话的方式。以下为您推荐一些可用的平台: 1. ChatGPT4(性能最强) 2. 国产平替: 二、学习资料 1. 必看 OpenAI 的官方文档: 同时,还有中文精度版的官方 Cookbook 可供参考: 三、网站资源 以下是一些精选的 Prompt 相关网站: |站点名|网站介绍|地址|附件| ||||| |Learning Prompt|授人以渔,非常详尽的 Prompt 学习资源,包括 ChatGPT 和 MidJourney||| |FlowGPT|国外做的最大的 prompt 站,内容超全面,更新快||| |ChatGPT Shortcut|ChatGPT 提示词网站,提供了非常多使用模板,简单修改即可指定输出||| |ClickPrompt|轻松查看、分享和一键运行模型,创建 Prompt 并与其他人分享||| |Prompt Extend|让 AI 帮你自动拓展 Prompt||| |PromptPerfect|帮你自动优化提示词,你可以看到优化前后的对比||| |PromptKnit|The best playground for prompt designers||| |PromptPort(支持中文)|AI Prompt 百科辞典,其中 prompts 是聚合了市场上大部分优质的 prompt 的词库,快速的寻找到用户需求 prompt||| |Prompt Engineering Guide|GitHub 上点赞量非常高的提示工程指南,基于对大语言模型的浓厚兴趣,编写了这份全新的提示工程指南,介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。||| 四、学习建议 1. 理解提示词的作用:提示词向模型提供了上下文和指示,其质量直接影响模型输出的质量。 2. 学习提示词的构建技巧: 明确任务目标,用简洁准确的语言描述。 给予足够的背景信息和示例,帮助模型理解语境。 使用清晰的指令,如“解释”、“总结”、“创作”等。 对特殊要求应给予明确指示,如输出格式、字数限制等。 3. 参考优秀案例:研究和学习已有的优秀提示词案例,可在领域社区、Github 等资源中查找。 4. 实践、迭代、优化:多与语言模型互动,根据输出提高提示词质量。尝试各种变体,比较分析输出差异,持续优化提示词构建。 5. 活用提示工程工具:如 Anthropic 的 Constitutional AI。 6. 跟上前沿研究:提示工程是当前前沿研究领域之一,持续关注最新研究成果和方法论。 精心设计的提示词能最大限度发挥语言模型的潜力,多实践、多学习、多总结,终可掌握窍门。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-03-29
学习Prompt Engineering
提示工程(Prompt Engineering)是人工智能领域中,特别是在自然语言处理(NLP)和大型语言模型(LLMs)的上下文中一个相对较新的概念。 其关键点包括: 1. 精确性:通过精确的提示,提高 AI 模型输出的相关性和准确性。 2. 创造性:需要创造性地思考如何构建问题或请求,以激发 AI 模型的特定能力。 3. 迭代:通常需要多次尝试和调整提示,以获得最佳结果。 4. 上下文理解:提示需要包含足够的上下文信息,以便 AI 模型能够理解并执行所需的任务。 提示词通常指的是直接输入到 AI 模型中的问题、请求或指示,它们是提示工程的一部分。提示词可以简单,也可以复杂。 提示工程与提示词的区别在于:提示词是实际输入到 AI 系统中的具体文本,用以引导模型的输出。提示工程则是一个更广泛的概念,不仅包括创建提示词,还涉及理解模型的行为、优化提示以获得更好的性能、以及创造性地探索模型的潜在应用。提示工程的目标是最大化 AI 模型的效用和性能,而提示词是实现这一目标的手段之一。 在实际应用中,提示工程的提示开发生命周期包括: 1. 开发测试用例:在定义任务和成功标准之后,创建一组多样化的测试用例,涵盖应用程序的预期用例,包括典型示例和边界情况,以确保提示具有鲁棒性。提前定义好的测试用例将使您能够客观地衡量提示与成功标准的表现。 2. 设计初步提示:制定一个初步的提示,概述任务定义、良好响应的特征,以及所需的上下文。理想情况下,添加一些规范输入和输出的示例供参考。这个初步提示将作为改进的起点。 3. 根据测试用例测试提示:使用初步提示将测试用例输入到模型中。仔细评估模型的响应与预期的输出和成功标准是否一致。使用一致的评分标准,无论是人工评估、与答案标准的比较,甚至是基于评分标准的模型判断。关键是要有一种系统性的评估性能的方式。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-03-25
写Prompt的技巧
以下是关于写 Prompt 的技巧: 1. 明确任务:清晰定义任务,如写故事时包含背景、角色和主要情节。 2. 提供上下文:若任务需特定背景知识,提供足够信息。 3. 使用清晰语言:尽量用简单、清晰的语言,避免模糊或歧义词汇。 4. 给出具体要求:如有特定格式或风格要求,在 Prompt 中明确指出。 5. 使用示例:如有特定期望结果,提供示例帮助 AI 模型理解需求。 6. 保持简洁:避免过多信息,防止 AI 模型困惑。 7. 使用关键词和标签:有助于模型理解任务主题和类型。 8. 测试和调整:生成文本后检查结果,根据需要调整 Prompt 。 此外,编写 Prompt 还可注意以下几点: 尽可能多挖掘需求信息。 把需求信息变成清晰合理的 Prompt 。 不断尝试迭代,直至 Prompt 能解决问题。 在写 Prompt 时,利用 Fewshots 技巧也很实用,通过提供 1 3 个输入 输出示例,让 GPT 学到样本共性,提升输出结果质量。可在“如何写好 Prompt:结构化”的基础上,增加“Examples:”结构块,举 1 3 个示例。
2025-03-21
img2img
以下是关于 img2img 的相关内容: 用 Stable Diffusion 装饰二维码: 首先使用 img2img 生成类似于 QR 码的图像,但不足以生成有效二维码。在采样步骤中打开 ControlNet 将 QR 码压印到图像上,接近尾声时关闭以提高图像一致性。 分步指南: 1. 在 AUTOMATIC1111 WebUI 中,导航到 Img2img 页面。 2. 选择检查点模型,如。 3. 输入提示和否定提示,提示词如“a cubism painting of a town with a lot of houses in the snow with a sky background,Andreas Rocha,matte painting concept art,a detailed matte painting”,否定提示如“ugly,disfigured,low quality,blurry,nsfw”。 4. 上传二维码到 img2img 画布。 5. 输入以下图像到图像设置:Resize mode:Just resize;Sampling method:DPM++2M Karras;Sampling step:50;Width:768;Height:768;CFG Scale:7;Denoising strength:0.75。 6. 将二维码上传到 ControlNet 的图像画布。 7. 输入以下 ControlNet 设置:Enable:Yes;Control Type:Tile;Preprocessor:tile_resample;Model:control_xxx_tile;Control Weight:0.87;Starting Control Step:0.23;Ending Control Step:0.9。 8. 按生成,用手机查看二维码,确保检查不同尺寸,成功率约四分之一。 Stable Diffusion 核心基础原理: Stable Diffusion 模型可用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等任务。以文生图和图生图任务为例讲解工作流程,图生图任务在输入文本基础上再输入一张图片,模型根据文本提示重绘图片使其更符合描述。输入的文本信息需通过 CLIP Text Encoder 模型编码成机器数学信息,生成 Text Embeddings 特征矩阵用于控制图像生成。 Mazz 的 SD 进阶分享: 初始屏幕由手绘图使用 img2img 创建,人物姿势用 ControlNet Openpose 控制,大量使用 Inpaint 和 Inpaint Sketch 处理沙子、烟雾和龙,整个过程还涉及大量 Photoshop 处理和 img2img 迭代,耗时约 6 小时。
2025-02-12