知識ベースとの対話 - WayToAGI

「AGIへの道」飛書ナレッジベースへ直行 →

ホーム/すべての質問

帮我找个可以免费增强图像清晰度的网站

以下为一些可以免费增强图像清晰度的网站： Kraken.io：主要用于图像压缩，但也提供了免费的图像放大功能，能保证图像的细节清晰度。 Deep Art Effects：强大的艺术效果编辑器，通过 AI 技术能够将图像放大并赋予艺术效果，支持多种滤镜和风格。 Magnific：https://magnific.ai/ ClipDrop：https://clipdrop.co/imageupscaler Image Upscaler：https://imageupscaler.com/ Krea：https://www.krea.ai/ 更多工具可以查看网站的图像放大工具库：https://www.waytoagi.com/category/17 。另外，RealESRGAN 也是一个基于 RealESRGAN 的图像超分辨率增强模型，但使用几次后要收费。图像修复放大的流程通常分为三部分： 1. 图像输入：添加 Load Image 节点加载图像，不建议上传大分辨率的图片，以免处理时间过长。 2. 图像高清修复：把原本模糊的图片修复，并进行 2 倍放大。Checkpoint 大模型使用 Iceclear/StableSR，搭配 Stable SR Upscaler 模型能最大程度修复图像。提示词部分应包含想要达到的目的内容。 3. 图像高清放大：针对第一次放大修复后的图像进行二次修复，realisticVision 底膜在重绘扩图放大等领域效果较好，使用提示词反推 node 对图像进行画面提示词提取，搭配 tile ControlNet 提升画面细节感，然后用合适的高清放大模型进行二次放大。

目前发展到哪个阶段了

目前在 AI 领域，不同的技术和模型发展阶段有所不同。以 GPT 为例，其发展大致经历了四个主要阶段：预训练、有监督微调、奖励建模、强化学习，每个阶段都有相应的数据集、算法和生成的模型。对于 RAG 技术，其发展经历了初始阶段后的相对沉寂期，随后 ChatGPT 的出现使社区重点转向利用大语言模型的能力，随着大语言模型能力的不断提高，如 GPT4 的推出，RAG 技术的格局发生重大变化，重点转向了 RAG 和微调优势相结合的混合方法。但该领域仍缺乏系统的整合和抽象。在科技与生物科技结合方面，目前仍处于安装阶段，尽管处于初期，但已有一些初步迹象显示未来潜在巨头公司的可能形态。

通过图反向退出提示词

在 Stable Diffusion（SD）中，通过图反向退出提示词有以下几种情况： 1. 图生图功能除了文本提词框外还有图片框输入口，可通过图片给与 AI 创作灵感。随便照一张照片拖入，文本输入框旁有两个反推提示词的按钮，CLIP 可通过图片反推出完整含义的句子，DeepBooru 可反推出关键词组。例如一张图通过两种反推方式得到的提示词分别为：CLIP——“a young boy sitting on a bench with a toy train and a lego train set on the floor next to him,Adam Rex,detailed product photo,a stock photo,lyco art”；DeepBooru——“shoes,solo,hat,orange_background,yellow_background,smile,socks,black_hair,sitting,sneakers”。但两种方式生成的提示词可能有瑕疵，需要手动补充信息，调整宽度和高度，使红框匹配图片，还要注意提示词相关性和重绘幅度这两个参数。 2. 去除图像人物时，将图放入 WD 1.4 标签器中裁剪只保留背景部分，然后反推提示词，如“outdoors,no humans,tree,scenery,grass,sky,cloud,day,blue sky,mountain,road,house,path,building,nature,cloudy sky”，检查无误后发送到文生图中，开启 ControlNet，使用 inpaint 模型涂抹人物部分生成。可调整控制权重和控制模式来优化效果。 3. 进行角色设计时，设置文生图提示词，如大模型“majicmixRealistic_v6.safetensors”，正向提示词“,lowres,sig,signature,watermark,username,bad,immature,cartoon,anime,3d,painting,b&w”，设置参数如迭代步数 50、采样方法 DPM++ 2M Karras、尺寸 1328×800px 后出图，可得到 15 个不同角度的人物图片。

哪些AI软件可以设计提示词和优化提示词

以下是一些可以设计和优化提示词的 AI 软件： 1. 星流一站式 AI 设计工具：在 prompt 输入框中可输入提示词，使用图生图功能辅助创作。支持自然语言和单个词组输入，中英文均可。启用提示词优化后可扩展提示词，更生动描述画面内容。写好提示词的方法包括使用预设词组、保证内容准确（包含人物主体、风格、场景特点、环境光照、画面构图、画质等）、调整负面提示词、利用“加权重”功能突出重点内容，还有翻译、删除所有提示词、会员加速等辅助功能。 2. Prompt 网站精选：：AI 艺术提示词生成器。：通过玩游戏练习 Prompt 书写。 NovelAI tag 生成器：设计类 Prompt 提词生成器，地址为。魔咒百科词典：简单易用的 AI 绘画 tag 生成器，地址为。 KREA：设计 AI 的 Prompt 集合站，create better prompts，网址为。 Public Prompts：免费的 prompt 合集，收集高质量的提示词，网址为。 AcceleratorI Prompt：AI 词汇加速器，加速 Prompt 书写，通过按钮帮助优化和填充提示词，网址为。 3. OpenAI API：设计提示词本质上是对模型进行“编程”，通常通过提供指令或示例完成。模型通过将文本分解为标记（Token）来理解和处理文本，可通过分词器工具了解更多。需要注意的是，在给定的 API 请求中处理的 Token 数量取决于输入和输出长度，文本提示词和生成的补全合起来不能超过模型的最大上下文长度（对于大多数模型，约为 2048 个 Token 或 1500 个单词）。

请推荐几个国内能用的支持多模态交流的app

以下为您推荐几个国内能用的支持多模态交流的 APP 及相关模型： 1. 百度（文心一言）：https://wenxin.baidu.com 2. 抖音（云雀大模型）：https://www.doubao.com 3. 智谱 AI（GLM 大模型）：https://chatglm.cn 4. 中科院（紫东太初大模型）：https://xihe.mindspore.cn 5. 百川智能（百川大模型）：https://www.baichuanai.com/ 6. 商汤（日日新大模型）：https://www.sensetime.com/ 7. MiniMax（ABAB 大模型）：https://api.minimax.chat 8. 上海人工智能实验室（书生通用大模型）：https://internai.org.cn 此外，智谱·AI 开源的多模态模型有： 1. CogAgent18B：基于 CogVLM17B 改进的开源视觉语言模型。拥有 110 亿视觉参数和 70 亿语言参数，支持 11201120 分辨率的图像理解，具备 GUI 图像的 Agent 能力。代码链接：模型下载： 2. CogVLM17B：强大的开源视觉语言模型（VLM），在多模态权威学术榜单上综合成绩优异。代码链接：无模型下载： 3. Visualglm6B：开源的支持图像、中文和英文的多模态对话语言模型。代码链接：模型下载：

以下是关于 AI 写真的相关内容：在大淘宝设计部 2023 年度 AI 设计实践报告中：在定制化真人模特实景素材的主题活动方面，通过 AI 能将策划、搭建、拍摄、设计融合为一个闭环流程，短时间内完成页面所有素材的生产和输出。例如七夕主题活动页面，在 12 个时辰主题下，可不受外部拍摄条件限制，产出符合需求且风格一致的素材。在产品营销视觉的 UI 设计场景中，采用 AI 能力可快速定制多种用户需要的视觉效果，通过 SD 中 controlnet 的有效控制，能生成指定范围内的 ICON、界面皮肤等内容，增加产品功能的定制可能性。例如 88VIP 的 AI 定制皮肤。在定制模特 AI 生成方面，通过对 AI 大模型的训练和应用，算法从模特姿态、背景风格、装饰元素等多维度进行效果升级，提升合成的真实性和美感。结合用户脸型、身材数据，为用户提供定制化的线上真人化模特体验。例如 AI 试衣间、AI 写真，简化数据采集流程构建用户的数字分身，根据不同主题的摄影风格生成 AI 写真，让普通用户能通过 AIGC 创造好玩有趣的内容。在产品场景生成方面，一张商品图结合用户的自定义输入，便可生成多张场景效果，整个过程无需 3D 模型、显卡渲染和线下拍摄。例如“家作”家装场景灵感。

leap提示词技术

以下是关于 leap 提示词技术的相关内容：在工作中，将两个观察联系起来，对 PROMPT ENGINEERING A PROMPT ENGINEER 进行研究，构建元提示指导 LLM 更有效地进行提示词工程。引入元提示组件，如逐步推理模板和上下文规范，从常见优化概念中汲取灵感并引入口头化对应物。在两个数学推理数据集上测试并确定最佳性能组合 PE2，其在 MultiArith 和 GSM8K 数据集上取得了强大的实证性能，在多种设置中超过自动提示词工程基准，在反事实任务上最为有效，在优化生产中使用的冗长、真实世界提示词方面也证明了适用性。实验中将方法与普通人类提示词、ChainofThought，并介绍了实施细节。随着 LLM 和生成式 AI 的发展，提示词设计和工程将更关键，讨论了基础和尖端方法，如检索增强生成（RAG），自动提示词工程（APE）这样的创新未来可能成为标准实践。

GPT4 是一个能够处理图像和文本输入并产生文本输出的大型多模态模型。在各种应用中具有潜力，如对话系统、文本摘要和机器翻译等。在为人类设计的考试中表现出色，例如在模拟的律师考试中分数位列前 10%，而 GPT3.5 分数排名倒数 10%。在传统的 NLP 基准测试中超过了以前的大型语言模型和大多数最先进的系统，在 MMLU 基准测试中不仅在英语中表现出色，在其他语言中也有强大性能。但 GPT4 也有局限性，如不完全可靠（可能遭受“幻觉”）、上下文窗口有限、不从经验学习等。此外，本报告还讨论了开发 GPT4 时面临的关键挑战，如开发在各种规模下表现可预测的深度学习基础设施和优化方法。同时，对于一些常见问题，如使用 GPT4 总结内容质量不行可点击“重试”按钮重新总结。

现在哪几家的大模型支持通过手机视频多模态实时交流？

以下几家的大模型支持通过手机视频多模态实时交流： 1. PandaGPT：能够理解不同模式的指令并根据指令采取行动，包括文本、图像/视频、音频、热、深度和惯性测量单位。 2. VideoLLaMA：引入了多分支跨模式 PT 框架，使语言模型能够在与人类对话的同时处理给定视频的视觉和音频内容。 3. 视频聊天 GPT：专门为视频对话设计，能够通过集成时空视觉表示来生成有关视频的讨论。 4. NExTGPT：端到端、通用的 anytoany 多模态语言模型，支持图像、视频、音频、文本的自由输入输出。

根据Python实验内容（包括实验场景和实验内容）和参考资料链接，如何优化prompt，以完成程序？

以下是一些优化 prompt 以完成程序的建议： 1. 对于算术推理相关的程序，若思维链（及生成的方程式）存在正确但模型执行算术运算错误的情况，可添加一个 Python 程序作为外部计算器（使用 Python 的 eval 函数）处理生成的思维链中的所有方程式。当思维链中包含多个方程式时，通过字符串匹配将外部计算器的结果从一个方程式传递到下一个方程式，以提高思维链提示在大多数任务上的性能。 2. 在涉及迷宫生成的程序中，若生成的迷宫存在边未封好等问题，可调整提示词。若对复杂度不满意，也可提出并进行调整。 3. 在涉及图像生成的程序中，对于提示词编写，应遵循不改变梗图、虚构角色起源、未出现人物等的原则，保持原始提示的意图并优先保证质量。不创建任何具有冒犯性的图像。对于可能存在偏见的场景，确保如性别和种族等关键特征以无偏见的方式指定。对于包含特定人物或名人的提示词，需进行适当修改，以通用描述替代，除非其作为图像中的文本出现。提示词应详细、客观地描述图像的每个部分，思考描述的最终目标并进行推断以生成满意的图像。