Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

怎么在AI文生图中精准的输出想要的文字

Answer

要在 AI 文生图中精准输出想要的文字,可以参考以下方法:

  • Recraft 模型:
    • 提供提示词加上文本位置,因为模型获得的输入数据越多,越容易产生精确输出。遵循指令比仅理解提示词更容易。
  • Tusiart 模型:
    • 定主题:明确生成图片的主题、风格和表达的信息。
    • 选择基础模型 Checkpoint:根据主题选择内容贴近的模型,如麦橘、墨幽的系列模型。
    • 选择 lora:寻找内容重叠的 lora 以控制图片效果及质量。
    • ControlNet:可控制图片中特定的图像,如人物姿态、生成特定文字等,属于高阶技能。
    • 局部重绘:下篇再学。
    • 设置 VAE:选择 840000 即可。
    • Prompt 提示词:用英文写需求,使用单词和短语组合,用英文半角逗号隔开,不用管语法和长句。
    • 负向提示词 Negative Prompt:用英文写避免产生的内容,同样用单词和短语组合,用英文半角逗号隔开,不用管语法。
    • 采样算法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。
    • 采样次数:选 DPM++2M Karras 时,采样次数在 30 - 40 之间。
    • 尺寸:根据个人喜好和需求选择。
  • Liblibai 模型:
    • 定主题:明确生成图片的主题、风格和表达的信息。
    • 选择 Checkpoint:根据主题选择内容贴近的模型,如麦橘、墨幽的系列模型。
    • 选择 lora:寻找内容重叠的 lora 以控制图片效果及质量。
    • 设置 VAE:选择 840000 即可。
    • CLIP 跳过层:设成 2 。
    • Prompt 提示词:用英文写需求,使用单词和短语组合,用英文半角逗号隔开,不用管语法和长句。
    • 负向提示词 Negative Prompt:用英文写避免产生的内容,同样用单词和短语组合,用英文半角逗号隔开,不用管语法。
    • 采样方法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。
    • 迭代步数:选 DPM++2M Karras 时,迭代步数在 30 - 40 之间。
    • 尺寸:根据个人喜好和需求选择。
    • 生成批次:默认 1 批。
Content generated by AI large model, please carefully verify (powered by aily)

References

Recraft爆红,我们和创始人聊了聊 |The Prompt

这个结果也改变了我们这次发布时的宣传策略。这次发布本来包含几个部分,一是从文字到图像的基础模型;二是Recraft作为世界第一也是唯一一个长文本生成模型,它能在图片中精准定位内容,可以按照你告诉模型的方式,将文本或其他图像放在图片的特定位置。(作者注:2024年12月的火山引擎大会上,即梦AI也实现了图片中的文字生成。)我们本来打算发布一个展示文本定位功能的视频,但当模型在基准测试中获胜后,整个世界开始关注Recraft,我们想,好吧不发布这个视频了,让我们把重点放在新模型和它测试中的优势上。镜相工作室:那获得第一之后,你和团队能好好休息了吗?Dorogush:我们不只有一个模型,而是一整套模型,有很多预设风格和功能,除了文生图,还有图生图功能(我们把它叫做微调)、改变图像长宽比、局部修复、外部扩展,所以即使在主要模型发布之后,仍然有很多工作要做。但在主要模型发布两周之后,团队的大部分成员都休息了几天。镜相工作室:公开信息显示你们是一个很小的团队。Dorogush:我们并没有那么小,最开始只有5个人,但现在有超过20人,核心是工程和机器学习团队,我们也有设计团队。现在我们还组建了营销团队,负责社交媒体运营和博客文章。随着产品发展和用户规模的扩大,我们在功能开发和技术创新上的人才需求也在不断增长。镜相工作室:Recraft如何做到让AI能够生成带有长文本的图像?Dorogush:当你生成带有文本的图像时,只提供提示词,和提供提示词加上文本位置,模型看到的数据量是不同的。模型获得的输入数据越多,就越容易产生精确的输出。因此,我们试图给模型提供尽可能多的信息,即文本位置。对模型来说,遵循指令比仅仅理解提示词要容易得多。

Tusiart简易上手教程

定主题:你需要生成一张什么主题、什么风格、表达什么信息的图。选择基础模型Checkpoint:按照你需要的主题,找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型,比如说麦橘写实、麦橘男团、墨幽人造人等等,效果拔群。选择lora:在你想要生成的内容基础上,寻找内容重叠的lora,帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面,他们都在用什么lora。ControlNet:控制图片中一些特定的图像,可以用于控制人物姿态,或者是生成特定文字、艺术化二维码等等。也是高阶技能,后面再学不迟。局部重绘:下篇再教,这里不急。设置VAE:无脑选择前面提到的840000这个即可。Prompt提示词:用英文写你想要AI生成的内容,不用管语法也不要写长句,仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。负向提示词Negative Prompt:用英文写你想要AI避免产生的内容,也是一样不用管语法,只需单词和短语组合,中间用英文半角逗号隔开。采样算法:这玩意儿还挺复杂的,现在我一般选DPM++2M Karras比较多。当然,最稳妥的是留意checkpoint的详情页上,模型作者是否有推荐采样器,使用他们推荐的采样器会更有保障。采样次数:要根据你采样器的特征来,一般我选了DPM++2M Karras之后,采样次数在30~40之间,多了意义不大还慢,少了出图效果差。尺寸:看你喜欢,看你需求。

Liblibai简易上手教程

定主题:你需要生成一张什么主题、什么风格、表达什么信息的图。(没错我是喜欢看plmm多点)选择Checkpoint:按照你需要的主题,找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型,比如说麦橘写实、麦橘男团、墨幽人造人等等,效果拔群。选择lora:在你想要生成的内容基础上,寻找内容重叠的lora,帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面,他们都在用什么lora。设置VAE:无脑选840000那一串就行。CLIP跳过层:设成2就行。Prompt提示词:用英文写你想要AI生成的内容,不用管语法也不要写长句,仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。负向提示词Negative Prompt:用英文写你想要AI避免产生的内容,也是一样不用管语法,只需单词和短语组合,中间用英文半角逗号隔开。采样方法:这玩意儿还挺复杂的,现在一般选DPM++2M Karras比较多。当然,最稳妥的是留意checkpoint的详情页上,模型作者是否有推荐采样器,使用他们推荐的采样器会更有保障迭代步数:要根据你采样器的特征来,一般我选了DPM++2M Karras之后,迭代步数在30~40之间,多了意义不大还慢,少了出图效果差。尺寸:看你喜欢,看你需求。生成批次:默认1批。

Others are asking
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
论文生成
以下是关于论文生成的相关信息: Deepseek V3 案例:有人用 Claude 做了一系列各种风格卡片的提示词,并在 V3 上进行尝试,效果不错。还有人把论文变成可视化。 ChatGPT 文本生成:以“词”为单位进行文本生成,存在随机性,有特定的“温度”参数控制较低排名单词的使用频率,对于文章生成“温度”为 0.8 效果较好。 论文写作的 AI 产品: 文献管理和搜索:Zotero 可自动提取文献信息,Semantic Scholar 是 AI 驱动的学术搜索引擎。 内容生成和辅助写作:Grammarly 提供文本校对等帮助,Quillbot 可重写和摘要。 研究和数据分析:Google Colab 支持 AI 和机器学习研究,Knitro 用于数学建模和优化。 论文结构和格式:LaTeX 结合自动化和模板处理格式,Overleaf 是在线 LaTeX 编辑器。 研究伦理和抄袭检测:Turnitin 和 Crossref Similarity Check 检测抄袭。 使用这些工具时要结合自身需求和写作风格,并仔细甄别内容。
2025-04-13
文生图
以下是关于文生图的简易上手教程: 1. 定主题:确定您需要生成的图片的主题、风格和要表达的信息。 2. 选择基础模型 Checkpoint:根据主题选择内容贴近的模型,如麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等。 3. 选择 lora:在生成内容基础上,寻找重叠的 lora 以控制图片效果和质量,可参考广场上好看的帖子。 4. ControlNet:可控制图片中特定图像,如人物姿态、生成特定文字等,属于高阶技能。 5. 局部重绘:下篇再教。 6. 设置 VAE:无脑选择 840000 即可。 7. Prompt 提示词:用英文写想要 AI 生成的内容,使用单词和短语组合,用英文半角逗号隔开,不用管语法和长句。 8. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,同样是单词和短语组合,用英文半角逗号隔开,不用管语法。 9. 采样算法:一般选 DPM++2M Karras 较多,也可参考 checkpoint 详情页上模型作者推荐的采样器。 10. 采样次数:选 DPM++2M Karras 时,采样次数一般在 30 40 之间。 11. 尺寸:根据个人喜好和需求选择。 以下是一些常见的文生图工具和模型: 1. 腾讯混元 2. luma 3. Recraft 4. 文生图大模型 V2.1L(美感版) 5. 美图奇想 5.0 6. midjourney 7. 快手可图 8. Flux.1.1 9. Stable Diffusion 3.5 Large 10. Imagen 3 网页版
2025-04-12
文生图工具
以下是关于文生图工具的相关信息: 常见的文生图工具包括: DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真图片。 StableDiffusion:开源工具,可生成高质量图片,支持多种模型和算法。 MidJourney:因高质量图像生成效果和友好界面在创意设计人群中受欢迎。 更多文生图工具可在 WaytoAGI 网站(https://www.waytoagi.com/category/104)查看。 Stability AI 推出的基于 Discord 的媒体生成和编辑工具的文生图使用方法: 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion 。 进入 ARTISAN 频道,任意选择一个频道。 输入/dream 会提示没有权限,点击链接,注册登录,填写信用卡信息以及地址,提交后可免费试用三天,三天后开始收费。 输入/dream 提示词,和 MJ 类似,可选参数有五类,包括 prompt(提示词,正常文字输入,必填项)、negative_prompt(负面提示词,填写负面提示词,选填项)、seed(种子值,可以自己填,选填项)、aspect(长宽比,选填项)、model(模型选择,SD3,Core 两种可选,选填项)、Images(张数,14 张,选填项)。完成后选择其中一张。 Tusiart 文生图的简易上手教程: 定主题:确定生成图片的主题、风格和表达的信息。 选择基础模型 Checkpoint:根据主题找内容贴近的 checkpoint,如麦橘、墨幽的系列模型。 选择 lora:寻找内容重叠的 lora 控制图片效果及质量。 ControlNet:控制图片中特定图像,如人物姿态、生成特定文字、艺术化二维码等。 局部重绘:下篇再教。 设置 VAE:无脑选择 840000 。 Prompt 提示词:用英文写需求,单词和短语组合,用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写避免产生的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。 采样次数:选 DPM++2M Karras 时,采样次数在 30 40 之间。 尺寸:根据个人喜好和需求选择。
2025-04-12
文生图大模型排名
以下是文生图大模型的排名(从高到低): 1. Imagen 3:真实感满分,指令遵从强。 2. Recraft:真实感强,风格泛化很好,指令遵从较好(会受风格影响)。 3. Midjourney:风格化强,艺术感在线,但会失真,指令遵从较差。 4. 快手可图:影视场景能用,风格化较差。 5. Flux.1.1:真实感强,需要搭配 Lora 使用。 6. 文生图大模型 V2.1L(美感版):影视感强,但会有点油腻,细节不够,容易糊脸。 7. Luma:影视感强,但风格单一,糊。 8. 美图奇想 5.0:AI 油腻感重。 9. 腾讯混元:AI 油腻感重,影视感弱,空间结构不准。 10. SD 3.5 Large:崩。
2025-04-12
论文生成提示词
以下是为您整理的关于论文生成提示词的相关内容: 1. 在关于 DALL·E 3 论文的研究中,提示词包括: 给评分员提供完整的图像描述内容,要求评分员选择更符合文本描述的图像。 让评分员想象自己正在借助工具根据文本生成图像,并选择希望看到的图像。 让评分员从人的身体部位、面部和姿势、对象的位置等方面判断图像的连贯性。 但 DALL·E 3 仍存在空间感知不佳、构建文本描述生成器时的功能不可靠、生成的图片在重要细节上产生幻觉等问题。 2. 云舒为读懂 Claude 论文使用的提示词: “论文深度剖析导师”提示词,可用于深度理解文本,如解读公众号文章、专业论文、书籍、在线课程等。 还可用于求职分析,拆解岗位描述并定制求职攻略,甚至作为自我介绍的“测谎仪”。 希望以上内容对您有所帮助。
2025-04-10
如何让企业微信可以接上 AI?让我的企业微信号变成一个 AI 客服
要让企业微信接上 AI 并变成一个 AI 客服,可以参考以下内容: 1. 基于 COW 框架的 ChatBot 实现方案:这是一个基于大模型搭建的 Chat 机器人框架,可以将多模型塞进微信(包括企业微信)里。张梦飞同学写了更适合小白的使用教程,链接为: 。 可以实现打造属于自己的 ChatBot,包括文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等功能,以及常用开源插件的安装应用。 正式开始前需要知道:本实现思路需要接入大模型 API 的方式实现(API 单独付费)。 风险与注意事项:微信端因为是非常规使用,会有封号危险,不建议主力微信号接入;只探讨操作步骤,请依法合规使用,大模型生成的内容注意甄别,确保所有操作均符合相关法律法规的要求,禁止将此操作用于任何非法目的,处理敏感或个人隐私数据时注意脱敏,以防任何可能的滥用或泄露。 支持多平台接入,如微信、企业微信、公众号、飞书、钉钉等;多模型选择,如 GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等等;多消息类型支持,能处理文本、语音和图片,以及基于自有知识库进行定制的企业智能客服功能;多部署方法,如本地运行、服务器运行、Docker 的方式。 2. DIN 配置:先配置 FastGpt、OneAPI,装上 AI 的大脑后,可体验知识库功能并与 AI 对话。新建应用,在知识库菜单新建知识库,上传文件或写入信息,最后将拥有知识库能力的 AI 助手接入微信。
2025-05-09
围棋AI
围棋 AI 领域具有重要的研究价值和突破。在古老的围棋游戏中,AI 面临着巨大挑战,如搜索空间大、棋面评估难等。DeepMind 团队通过提出全新方法,利用价值网络评估棋面优劣,策略网络选择最佳落子,且两个网络以人类高手对弈和 AI 自我博弈数据为基础训练,达到蒙特卡洛树搜索水平,并将其与蒙特卡洛树搜索有机结合,取得了前所未有的突破。在复杂领域 AI 第一次战胜人类的神来之笔 37 步,也预示着在其他复杂领域 AI 与人类智能对比的进一步突破可能。此外,神经网络在处理未知规则方面具有优势,虽然传统方法在处理象棋问题上可行,但对于围棋则困难重重,而神经网络专门应对此类未知规则情况。关于这部分内容,推荐阅读《这就是 ChatGPT》一书,其作者备受推崇,美团技术学院院长刘江老师的导读序也有助于了解 AI 和大语言模型计算路线的发展。
2025-05-08
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
学AI上钉钉
以下是在钉钉上学 AI 的相关内容: 从 AI 助教到智慧学伴的应用探索: 登录钉钉客户端,在右上角依次选择钉钉魔法棒、AI 助理、创建 AI 助理。进入创建 AI 助理页面后,填写 AI 助理信息,设置完成即可创建成功。 AI 领导力向阳乔木:未提及具体的在钉钉上学 AI 的操作方法。 基于 COW 框架的 ChatBot 实现步骤: 创建应用: 进入,登录后点击创建应用,填写应用相关信息。 点击添加应用能力,选择“机器人”能力并添加。 配置机器人信息后点击发布,发布后点击“点击调试”,会自动创建测试群聊,可在客户端查看。点击版本管理与发布,创建新版本发布。 项目配置: 点击凭证与基础信息,获取 Client ID 和 Client Secret 两个参数。 参考项目,将相关配置加入项目根目录的 config.json 文件,并设置 channel_type:"dingtalk",注意运行前需安装依赖。 点击事件订阅,点击已完成接入,验证连接通道,会显示连接接入成功。 使用:与机器人私聊或将机器人拉入企业群中均可开启对话。
2025-04-19
AI术语解释
以下是一些常见的 AI 术语解释: Agents(智能体):一个设置了一些目标或任务,可以迭代运行的大型语言模型。与大型语言模型在像 ChatGPT 这样的工具中的通常使用方式不同,Agent 拥有复杂的工作流程,模型本质上可以自我对话,无需人类驱动每一部分的交互。属于技术范畴。 ASI(人工超级智能):尽管存在争议,但通常被定义为超越人类思维能力的人工智能。属于通识范畴。 Attention(注意力):在神经网络的上下文中,有助于模型在生成输出时专注于输入的相关部分。属于技术范畴。 Bias(偏差):AI 模型对数据所做的假设。“偏差方差权衡”是模型对数据的假设与给定不同训练数据的模型预测变化量之间必须实现的平衡。归纳偏差是机器学习算法对数据的基础分布所做的一组假设。属于技术范畴。 Chatbot(聊天机器人):一种计算机程序,旨在通过文本或语音交互模拟人类对话。通常利用自然语言处理技术来理解用户输入并提供相关响应。属于通识范畴。 CLIP(对比语言图像预训练):由 OpenAI 开发的 AI 模型,用于连接图像和文本,使其能够理解和生成图像的描述。属于技术范畴。 TPU(张量处理单元):谷歌开发的一种微处理器,专门用于加速机器学习工作负载。属于技术范畴。 Training Data(训练数据):用于训练机器学习模型的数据集。属于技术范畴。 Transfer Learning(迁移学习):机器学习中的一种方法,其中对新问题使用预先训练的模型。属于技术范畴。 Validation Data(验证集):机器学习中使用的数据集的子集,独立于训练数据集和测试数据集。用于调整模型的超参数(即架构,而不是权重)。属于技术范畴。 Knowledge Distillation(数据蒸馏):数据蒸馏旨在将给定的一个原始的大数据集浓缩并生成一个小型数据集,使得在这一小数据集上训练出的模型,和在原数据集上训练得到的模型表现相似。在深度学习领域中被广泛应用,特别是在模型压缩和模型部署方面。可以帮助将复杂的模型转化为更轻量级的模型,并能够促进模型的迁移学习和模型集成,提高模型的鲁棒性和泛化能力。属于技术范畴。 RAG(检索增强生成):检索增强生成。属于技术范畴。 Forward Propagation(前向传播):在神经网络中,输入数据被馈送到网络并通过每一层(从输入层到隐藏层,最后到输出层)以产生输出的过程。网络对输入应用权重和偏差,并使用激活函数生成最终输出。属于技术范畴。 Foundation Model(基础模型):在广泛数据上训练的大型 AI 模型,旨在适应特定任务。属于技术范畴。 GAN(通用对抗网络):一种机器学习模型,用于生成类似于某些现有数据的新数据。使两个神经网络相互对抗:一个“生成器”,创建新数据,另一个“鉴别器”试图将数据与真实数据区分开来。属于技术范畴。 Generative AI/Gen AI(生成式 AI):AI 的一个分支,专注于创建模型,这些模型可以根据现有数据的模式和示例生成新的原创内容,例如图像、音乐或文本。属于通识范畴。 GPU(图形处理单元):一种特殊类型的微处理器,主要用于快速渲染图像以输出到显示器。在执行训练和运行神经网络所需的计算方面也非常高效。属于产品范畴。
2025-04-18
如何搭建精准回答的本地知识库
搭建精准回答的本地知识库可以参考以下步骤: 1. 登录。 2. 在左侧导航栏的工作区区域,选择进入指定团队。 3. 在页面顶部进入知识库页面,并单击创建知识库。 4. 在弹出的页面配置知识库名称、描述,并单击确认。需注意一个团队内的知识库名称不可重复,必须是唯一的。 5. 在单元页面,单击新增单元。 6. 在弹出的页面选择要上传的数据格式(默认是文本格式),然后选择一种文本内容上传方式完成内容上传。 如果想要对知识库进行更加灵活的掌控,可以使用额外的软件AnythingLLM,其安装地址为:https://useanything.com/download 。安装完成后进入配置页面,主要分为三步: 1. 第一步:选择大模型。 2. 第二步:选择文本嵌入模型。 3. 第三步:选择向量数据库。 在AnythingLLM中有一个Workspace的概念,可以创建自己独有的Workspace跟其他的项目数据进行隔离。具体操作如下: 1. 首先创建一个工作空间。 2. 上传文档并且在工作空间中进行文本嵌入。 3. 选择对话模式,AnythingLLM提供了两种对话模式: Chat模式:大模型会根据自己的训练数据和我们上传的文档数据综合给出答案。 Query模式:大模型仅仅会依靠文档中的数据给出答案。 4. 测试对话。
2025-03-11
如何去训练ai,让ai可以更精准的回答问题分析趋势
要训练 AI 使其更精准地回答问题和分析趋势,可以从以下几个方面入手: 检索原理: 1. 信息筛选与确认:系统会对检索器提供的信息进行评估,筛选出最相关和最可信的内容,同时验证信息的来源、时效性和相关性。 2. 消除冗余:识别并去除多个文档或数据源中的重复信息,避免在生成回答时出现重复或矛盾的内容。 3. 关系映射:分析不同信息片段之间的逻辑和事实关系,如因果、对比、顺序等,构建结构化的知识框架,使信息在语义上更连贯。 4. 上下文构建:将筛选和结构化的信息组织成连贯的上下文环境,包括对信息进行排序、归类和整合,形成统一的叙述或解答框架。 5. 语义融合:在必要时合并意义相近但表达不同的信息片段,减少语义重复并增强信息表达力。 6. 预备生成阶段:将整合好的上下文信息编码成适合生成器处理的格式,如转化为适合输入到生成模型的向量形式。 大模型生成回答: 最终全新的上下文被传递给大语言模型,大语言模型根据提供的信息回答问题。因为这个上下文包括了检索到的信息,所以相当于同时拿到了问题和参考答案,通过大语言模型的全文理解,生成准确和连贯的答案。 批判性思维与复杂问题解决: 批判性思维指分析、评估、推理并做出明智判断的能力,在 AI 时代尤为关键。培养批判性思维需要养成质疑习惯,通过辩论、逻辑训练、阅读反面意见等方式锻炼,注重逻辑推理和定量分析能力的培养。复杂问题解决与批判性思维密切相关,指在不确定情境下分析问题、设计解决方案的能力,往往需要综合运用多种思维技能,通过参与实际复杂项目、案例研究来提高经验,可利用 AI 作为资料提供者或头脑风暴助手,但关键在于人类自己的分析和决策过程。 纯强化学习: DeepSeek R1 引入纯强化学习,不依赖大量人类标注数据,而是让 AI 通过自我探索和试错来学习。在“冷启动”阶段,通过少量人工精选的思维链数据进行初步引导,建立符合人类阅读习惯的推理表达范式,随后主要依靠强化学习,在奖励系统的反馈下(包括准确率奖励和格式奖励),自主探索推理策略,不断提升回答的准确性,实现自我进化。纯强化学习有可能解锁新的人工智能水平,DeepSeek R1 更注重学习推理的底层策略,培养通用推理能力,实现跨领域的知识迁移运用和推理解答。
2025-03-07
如果用AI精准且快速总结视频网站的视频。
要使用 AI 精准且快速总结视频网站的视频,可参考以下步骤: 1. 对于有字幕的视频,如 B 站视频,先确认视频栏下方是否有字幕按钮,若有则说明视频作者已上传字幕或后台适配了 AI 字幕。 2. 安装油猴脚本“Bilibili CC 字幕工具”,安装后刷新浏览器,点击字幕会出现“下载”按钮。 3. 点击下载按钮,选择多种字幕格式,如带时间或不带时间的。 4. 将下载的字文字内容全选复制发送给 GPTs 进行总结。 5. 总结完视频内容后,还可继续向 AI 提问更多细节内容或与其探讨视频内容。 此外,通义千问的 Qwen2.5VL 模型在视频理解方面也有出色表现,如支持最长 1 小时视频理解,具备秒级的事件定位能力,能够对视频的不同时间段进行要点总结等。
2025-03-06
图片的提示词的精准度
以下是关于图片提示词精准度的相关内容: 画面精度提示词: high detail(高细节) hyper quality(高品质) high resolution(高分辨率) FHD, 1080P, 2K, 4K, 8K 8k smooth(8K 流畅) 渲染效果提示词: Unreal Engine(虚幻引擎) octane render(渲染器) Maxon Cinema 4D 渲染器 architectural visualisation(建筑渲染) Corona Render(室内渲染) Quixel Megascans Render(真实感) VRay(V 射线) Behance C4D 3D blender surreal photography(超现实摄影) realistic 3D(真实 3D) zbrush 在描述图片提示词时,通常的逻辑包括:人物及主体特征(服饰、发型发色、五官、表情、动作),场景特征(室内室外、大场景、小细节),环境光照(白天黑夜、特定时段、光、天空),画幅视角(距离、人物比例、观察视角、镜头类型),画质(高画质、高分辨率),画风(插画、二次元、写实)。通过这些详细的提示词,能更精确地控制绘图。 对于新手而言,有以下辅助书写提示词的方法和网站: 下次作图时,先选择模板,点击倒数第二个按钮快速输入标准提示词。 功能型辅助网站,如:http://www.atoolbox.net/,通过选项卡方式快速填写关键词信息。 https://ai.dawnmark.cn/,每种参数有缩略图参考,方便直观选择提示词。 去 C 站(https://civitai.com/)抄作业,每一张图都有详细参数,可点击复制数据按钮,粘贴到正向提示词栏,Stable Diffusion 会自动匹配参数,但要注意图像作者使用的大模型和 LORA,不然即使参数一样,生成的图也会不同。也可以只取其中较好的描述词,如人物描写、背景描述、小元素或画面质感等。 提示词所做的工作是缩小模型出图的解空间,即缩小生成内容时在模型数据里的检索范围,而非直接指定作画结果。提示词的效果受模型影响,不同模型对自然语言、单词标签等语言风格的反应不同。 提示词中可以填写以下内容: 自然语言:可以使用描述物体的句子作为提示词,大多数情况下英文有效,也可用中文,避免复杂语法。 单词标签:使用逗号隔开的单词作为提示词,一般使用普通常见单词,单词风格要和图像整体风格搭配,避免拼写错误,可参考 Emoji、颜文字:Emoji 表情符号准确且在语义准确度上表现良好,对构图有影响。关于 emoji 确切含义,可参考。对于使用 Danbooru 数据的模型,西式颜文字可在一定程度上控制出图的表情。
2025-02-26
我想了解现在有什么文生图的模型或者工具,可以精准的按照prompt给的位置大小把文字写在最终出来的图像上的,这个字不会是幻觉,是实打实的字,或者有没有通过训练lora来达到这个效果的
以下是一些关于文生图的模型和工具的信息: Tusiart: 定主题:确定生成图片的主题、风格和表达的信息。 选择基础模型 Checkpoint:可选用麦橘、墨幽等系列模型。 选择 lora:寻找与生成内容重叠的 lora 以控制图片效果和质量。 ControlNet:可控制图片中特定的图像。 设置 VAE:选择 840000 。 Prompt 提示词:用英文写需求,单词和短语用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写避免产生的内容,单词和短语用英文半角逗号隔开。 采样算法:一般选 DPM++2M Karras ,也可参考模型作者推荐的采样器。 采样次数:选 DPM++2M Karras 时,采样次数在 30 40 之间。 尺寸:根据需求和喜好选择。 吐司网站: 文生图的操作方式:在首页的对话生图对话框输入文字描述即可生成图片,不满意可通过对话修改。 模型及生成效果:Flex 模型对语义理解强,不同模型生成图片的积分消耗不同,生成效果受多种因素影响。 图生图及参数设置:可基于图片做延展,能调整尺寸、生成数量等参数,高清修复消耗算力多,建议先出小图。 特定风格的生成:国外模型对中式水墨风等特定风格的适配可能不足,可通过训练 Lora 模型改善。 Liblibai: 定主题:确定生成图片的主题、风格和表达的信息。 选择 Checkpoint:可选用麦橘、墨幽等系列模型。 选择 lora:寻找与生成内容重叠的 lora 以控制图片效果和质量。 设置 VAE:选择 840000 。 CLIP 跳过层:设成 2 。 Prompt 提示词:用英文写需求,单词和短语用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写避免产生的内容,单词和短语用英文半角逗号隔开。 采样方法:一般选 DPM++2M Karras ,也可参考模型作者推荐的采样器。 迭代步数:选 DPM++2M Karras 时,迭代步数在 30 40 之间。 尺寸:根据需求和喜好选择。 生成批次:默认 1 批。
2025-02-25
如何精准提问解决问题
要精准提问解决问题,可以参考以下几点: 1. 在使用类似 Cursor 等工具时,如果在提示栏中按 Option/Alt Enter,它将回答您关于选择和附加上下文的任何问题。此对话内容可在后续生成中进一步使用,在其提出响应后键入“do it”即可在快速提问后生成代码。 2. 相信类似 GPT 等工具的能力,大胆提要求让其帮忙完成。 3. 明确自己的需求,向 GPT 提的要求尽量准确,如同给员工安排工作。 4. 不断追问,只要不明白,就目标明确、表达精确地追问。 5. 对于 GPT 不了解您工作环境和个性需求的情况,提供准确信息,如直接贴出文件目录地址,请其直接处理。 6. 锻炼语言表述能力,更精准地用语言描述问题。因为在语言模型时代,一个好的问题某些时候比答案更重要,语言本身也代表着人类思维的外放,与文明诞生有关联。 7. 具备业务理解和 AI 嵌入能力,找到业务中应用大模型的场景,将业务和大模型算法结合,理解模型在业务中的边界。 8. 培养维度转换能力,将各种问题转化为语言问题,将业务中的数据转化为语言描述,将通用模块问题转化为通用问题模块,把所有信息都转化为语言信息后再交流。 9. 在业务助手中,可采用助手方式,主要进行工作辅助,不在主业务流程内,大模型负责优化、检索、启发、提供思路等,帮助人提高效率、多维度思考;也可采用业务环方式,大模型经过调整和 prompt 工程后,作为接口服务,进入到主业务流程中,自动处理内容并生成结果。
2025-01-30
有哪些免费的文生图中文软件
以下是一些免费的文生图中文软件: 1. 豆包 App 支持文生图中文文字生成。 2. Stability AI 推出的基于 Discord 的媒体生成和编辑工具可用于文生图,您可以通过以下步骤使用: 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion 。 进入 ARTISAN 频道,任意选择一个频道。 输入/dream 会提示您没有权限,点击链接,注册登录,填写信用卡信息以及地址,点击提交,会免费试用三天,三天后开始收费。输入/dream 提示词,这部分和 MJ 类似,可选参数有五类,包括提示词(必填项)、负面提示词(选填项)、种子值(选填项)、长宽比(选填项)、模型选择(选填项)、张数(选填项)。完成后选择其中一张。 3. 您还可以参考以下教程: SD 做中文文字生成的教程: 找到一款喜欢的字体,写上主题例如“端午”。 打开 SD,选择文生图,输入关键词咒语。 打开 Controlnet,启用 lineart 和 canny 固定字体,如果希望有景深效果,也可以打开 depth(增加阴影和质感)。 打开高清修复,分辨率联系 1024 以上,步数:29 60 。 直接生成。这里可以举一反三,选择一些水果模型,珠宝模型,毛毡等等快来试一试吧,附免费参数。
2025-02-16
文生图如何提高字在图中的准确率
要提高文生图中字在图中的准确率,可以从以下几个方面入手: 1. 数据准备: 对于中文文字的生成,Kolors从两个方面准备数据。一是选择 50000 个最常用的汉字,机造生成了一个千万级的中文文字图文对数据集,但机造数据真实性不足。二是使用 OCR 和 MLLM 生成海报、场景文字等真实中文文字数据集,大概有百万量级。 Hugging 和英特尔发布了提高文生图模型空间一致性的方案,包括一个详细标注了空间关系的 600 万张图片的数据集,模型和数据集都会开源。 2. 模型能力: DALLE 3 和 SD3 已经有了很强的英文文字生成能力,但目前还未有模型具有中文文字的生成能力。中文文字的生成存在困难,一是中文汉字的集合大且纹理结构复杂,二是缺少中文文字的图文对数据。 作者观察到,使用机造数据结合高质量真实数据后,中文文字生成能力的真实性大大提升,而且即使是真实数据中不存在的汉字的真实性也得到了提升。 3. 训练方法: 在包含大量物体的图像上进行训练,可以显著提高图像的空间一致性。 此外,在写文生图的提示词时,通常的描述逻辑是这样的:人物及主体特征(服饰、发型发色、五官、表情、动作),场景特征(室内室外、大场景、小细节),环境光照(白天黑夜、特定时段、光、天空),画幅视角(距离、人物比例、观察视角、镜头类型),画质(高画质、高分辨率),画风(插画、二次元、写实)。通过这些详细的提示词,能更精确地控制绘图。对于新手而言,还有一些功能型辅助网站来帮我们书写提示词,比如:http://www.atoolbox.net/ 、https://ai.dawnmark.cn/ 。还可以去 C 站(https://civitai.com/)里面抄作业。但要注意图像作者使用的大模型和 LORA,不然即使参数一样,生成的图也会截然不同。
2025-01-29
流程图有哪些工具可以制作,流程图主要用于展示一个过程或系统的步骤和决策点。图中通过不同形状的框(如椭圆形、矩形)和箭头来表示各种步骤、条件判断和流程走向, 有哪些AI工具可以直接制作吗
以下是一些可以制作流程图的 AI 工具: 1. Lucidchart: 注册并登录:。 选择模板:在模板库中搜索“项目管理流程图”。 编辑图表:根据项目需求添加和编辑图形和流程步骤。 优化布局:利用 AI 自动布局功能,优化图表的外观。 保存和分享:保存图表并与团队成员分享,或导出为 PDF、PNG 等格式。 2. ChatGPT: 确定制作目标。 通过自然语法描述逻辑,生成 Mermaid 图形语法。 在线校验测试是否成功。
2024-12-19
上面的流程图有哪些工具可以制作,流程图主要用于展示一个过程或系统的步骤和决策点。图中通过不同形状的框(如椭圆形、矩形)和箭头来表示各种步骤、条件判断和流程走向, 有哪些AI工具可以直接制作吗
以下是一些可以制作您所描述的流程图的 AI 工具: Lucidchart: 1. 注册并登录: 2. 选择模板:在模板库中搜索“项目管理流程图”。 3. 编辑图表:根据您的项目需求添加和编辑图形和流程步骤。 4. 优化布局:利用 AI 自动布局功能,优化图表的外观。 5. 保存和分享:保存图表并与团队成员分享,或导出为 PDF、PNG 等格式。 此外,文中还提到了关于智能体和人工智能在解决科学问题方面的一些相关内容,但未直接涉及流程图制作工具的更多信息。
2024-12-19
在一个有向图中,所有顶点的入度与出度之和等于所有边之和的2倍
在有向图中,这一结论是正确的。对于每个顶点,其入度表示指向该顶点的边的数量,出度表示从该顶点出发的边的数量。而每条边都有一个起点和一个终点,所以每条边会在其起点的出度中计数一次,在其终点的入度中计数一次,因此所有顶点的入度与出度之和就等于所有边的数量的 2 倍。
2024-11-21
用邻接矩阵法存储图,占用的存储空间数只与图中结点个数有关,而与边数无关。
这种说法是不准确的。用邻接矩阵法存储图时,占用的存储空间数不仅与图中结点个数有关,也与边数有关。在邻接矩阵中,如果图有 n 个结点,那么矩阵的大小就是 n×n。如果边数较多,矩阵中表示边存在的元素就会较多,从而占用更多的存储空间;反之,如果边数较少,占用的存储空间相对较少。
2024-11-21