直达「 通往AGI之路 」飞书知识库 →
首页/全部问答
对图片和视频进行智能标签
以下是关于对图片和视频进行智能标签的相关内容: 用 SD 训练一套贴纸 LoRA 模型的打标方法: 1. 点击左侧菜单【WD1.4 标签器】。 2. 在 path 中粘贴素材文件夹的根目录路径。 3. 将阈值设置为 0.35(生成尽可能多的标签来描述图片内容,阈值是指 AI 理解图片内容给出关键词的评分,分数越大越确定,一般阈值设大于 0.35)。 4. 选择公认成熟稳定的 Tagger 模型作为训练 lora 的底模,其它设置基本不用更改调试。 5. 点击【启动】,会为目标文件夹里的图像素材自动打标,自动打标完成后,会在素材原文件直接生成对应图像的 txt 打标文件。 【SD】提示词标签选择器 Easy Prompt Selector 的使用: 1. 按顺序选择一些标签词,如女孩、白头发、蓝眼睛、兔子耳朵等。 2. 选择画质和视角,如最好的质量、杰作、高度详细等。 3. 选择艺术风格,如皮克斯动画、轮廓光。 4. 在负面提示词中进行选择并点击选框结尾的“负面”。 5. 选择模型,如“revAnimated”,调整尺寸后点击生图。 用 SD 训练一套贴纸 LoRA 模型的打标优化方法: 1. 方法一:保留全部标签。对标签不做删标处理,直接用于训练。一般在训练画风,或想省事快速训练人物模型时使用。优点是不用处理 tags 省时省力,过拟合的出现情况低;缺点是风格变化大,需要输入大量 tag 来调用、训练时需要把 epoch 训练轮次调高,导致训练时间变长。 2. 方法二:删除部分特征标签。训练某个特定角色时,要保留蓝眼睛作为其自带特征,那么就要将 blue eyes 标签删除,以防止将基础模型中的 blue eyes 引导到训练的 LoRA 上。一般需要删掉的标签如人物特征 long hair,blue eyes 这类;不需要删掉的标签如人物动作 stand,run 这类,人物表情 smile,open mouth 这类,背景 simple background,white background 这类,画幅位置等 full body,upper body,close up 这类。优点是调用方便,更精准还原特征;缺点是容易导致过拟合,泛化性降低。过拟合会导致画面细节丢失、画面模糊、画面发灰、边缘不齐、无法做出指定动作、在一些大模型上表现不佳等情况。
2024-08-29
学习生成式ai需要什么基础
学习生成式 AI 通常需要以下基础: 1. 数学基础:包括线性代数、概率论、统计学等,这些知识对于理解模型的原理和算法很重要。 2. 编程基础:熟练掌握一种编程语言,如 Python,以便能够实现和操作相关的模型和算法。 3. 机器学习基础:了解监督学习、强化学习、无监督学习等基本概念和方法,因为生成式 AI 与这些领域密切相关。 4. 自然语言处理基础:如果涉及文本生成,需要了解自然语言处理的基本概念,如词向量、语法分析等。 5. 深度学习基础:熟悉神经网络、深度神经网络的结构和训练方法。 6. 数据处理能力:能够收集、清洗、预处理和分析大量的数据。 在生成文本方面,大语言模型使用监督学习不断预测下一个词语,这需要千亿甚至万亿级别的单词数据库。同时,为了有效地使用生成式人工智能,在流程的开始和结束时需要人工参与,人类要向生成模型输入提示才能让其创建内容,创造性的提示通常会产生创造性的输出。 例如,台湾大学李宏毅教授的生成式 AI 课程介绍了其基本概念、发展历程、技术架构和应用场景等内容,包括生成式 AI 的定义和分类、与判别式 AI 的区别、应用领域、生成式模型的结构和训练方法、评估指标、生成式对话的概念和系统架构等。通过学习此类课程,可以掌握生成式 AI 的基本概念和常见技术,能够使用相关框架搭建简单的生成式模型,了解其发展现状和未来趋势。
2024-08-29
AI文本生成工具
以下是一些关于 AI 文本生成工具的介绍: 从文本生成 3D 模型的工具: 1. 3dfy.ai:适用于数字内容创作者、艺术家、游戏开发者、动画制作人、教育和培训行业专业人士、医疗行业以及建筑和工程领域。 2. HAAR:可通过文字描述生成逼真 3D 发型,基于 3D 发丝,在视觉和结构上接近真实发型,链接为 https://x.com/xiaohuggg/status/1739208666967151076?s=20 。 文本生成工具 Text Generator: 官网为 https://textgenerator.io/ ,是一个创新的基于人工智能的工具,旨在快速、经济、注重隐私地生成逼真的文本。它利用先进的大型神经网络,能够以高质量、低成本地生成文本。
2024-08-29
AI目前在制造业和零售领域有什么案例吗?
在制造业领域,AI 的应用案例包括: 预测性维护:可用于预测机器故障,避免工厂停机。 质量控制:能够检测产品缺陷,提升产品质量。 供应链管理:有助于优化供应链,提高效率并降低成本。 机器人自动化:用于控制工业机器人,提高生产效率。 生产计划、供应链计划状态查询。 产线预测性维保辅助。 产品质量分析与溯源。 自动驾驶全场景模拟训练及虚拟汽车助手。 在零售领域,AI 的应用案例包括: 舆情、投诉、突发事件监测及分析。 品牌营销内容撰写及投放。 自动化库存管理。 自动生成或完成 SKU 类别选择、数量和价格分配。 客户购物趋势分析及洞察。
2024-08-29
人工智能发展前景
人工智能的发展前景十分广阔。 在日常生活中,我们已经与人工智能有诸多互动,如交通、天气预测以及电视节目推荐等,其普及程度和发展速度令人惊叹,使计算机能够以过去难以想象的方式观察、理解和与世界互动。 从进化的角度看,当计算机在某些任务上超过人类后,可能会在不断改进的螺旋中发展出超级智能,甚至可能出现具有自我意识和超级智能的数字生命形式,这将带来对机器意识概念的重大转变,也会引发关于物种竞争、合作等有趣问题。 在产业方面,人工智能是引领科技革命和产业变革的基础性和战略性技术,加速与实体经济深度融合,改变工业生产模式和经济发展形态,对建设制造强国、网络强国和数字中国有重要支撑作用。其产业链包括基础层(算力、算法和数据)、框架层(深度学习框架和工具)、模型层(大模型等)、应用层(行业场景应用)等部分。近年来,我国人工智能产业在技术创新、产品创造和行业应用等方面快速发展,形成庞大市场规模。随着以大模型为代表的新技术加速迭代,呈现出创新技术群体突破、行业应用融合发展、国际合作深度协同等新特点,也亟需完善产业标准体系。
2024-08-29
ai 图片清晰
在 AI 领域中,提高图片清晰度的方法和工具主要有以下几种: 1. 在 Stable Diffusion 中: 默认出图分辨率为 512x512,用于商业通常不够。 直接拉高初始分辨率会导致出图效率变低和构图问题。 可使用高清修复(HiresFix)功能,将初始分辨率设为 800x420,选择放大倍率为 2 可放大至 1600x840,理论上倍率越高图片越清晰,但实际效果与电脑配置和显卡显存有关。 先以较低分辨率画图,获取生成图的种子值,填入随机数种子可固定图片。 2. 图像高清修复: 利用 AI 技术可修复模糊的旧照片,让其重现清晰,保留珍贵回忆。 适用于人像修复,手机拍摄的照片也能通过修复变成高清大片。 不仅能修复图片,还能无限扩大图像分辨率且不失真,如马斯克原始图像经修复扩图后分辨率大幅提升。 3. 常见的 AI 画质增强工具: Magnific:https://magnific.ai/ ClipDrop:https://clipdrop.co/imageupscaler Image Upscaler:https://imageupscaler.com/ Krea:https://www.krea.ai/ 更多工具可查看网站的图像放大工具库:https://www.waytoagi.com/category/17 您可以根据具体需求选择合适的方法和工具来提高图片的清晰度。
2024-08-29
人工智能发展前景
人工智能的发展前景十分广阔。 在日常生活中,我们已与人工智能频繁互动,如交通、天气预测及电视节目推荐等,其普及程度和发展速度令人惊叹,使计算机能以过去难以想象的方式观察、理解和与世界互动。 对于未来,当计算机在各项任务上超越人类时,可能会出现超级智能,机器可能具有自我意识和超级智能,成为真正的数字生命形式。届时,我们对机器意识的概念将发生重大转变,也会面临诸如物种竞争、合作基础以及道德伦理等有趣且重要的问题。 从产业角度看,人工智能是引领科技革命和产业变革的基础性和战略性技术,加速与实体经济深度融合,改变工业生产模式和经济发展形态,对新型工业化、制造强国、网络强国和数字中国建设有重要支撑作用。其产业链包括基础层(算力、算法和数据)、框架层(深度学习框架和工具)、模型层(大模型等)和应用层(行业场景应用)。近年来,我国人工智能产业在技术创新、产品创造和行业应用方面快速发展,形成庞大市场规模。随着以大模型为代表的新技术加速迭代,呈现出创新技术群体突破、行业应用融合发展、国际合作深度协同等新特点,也亟需完善产业标准体系。
2024-08-29
识别图片并转换为word、PPT格式的AI工具
目前市面上有一些能够识别图片并转换为 word、PPT 格式的 AI 工具,以下为您推荐: 1. AVAide Watermark Remover:这是一个在线工具,使用 AI 技术从图片中去除水印。它支持多种图片格式,如 JPG、JPEG、PNG、GIF 等。操作简单,只需上传图片,选择水印区域,然后保存并下载处理后的图片即可。这个工具还提供了其他功能,如去除文本、对象、人物、日期和贴纸等。 2. Vmake:这个工具同样提供 AI 去除图片水印的功能。用户可以上传最多 10 张图片,AI 会自动检测并移除图片上的水印。处理完成后,用户可以选择保存生成的文件。这个工具适合需要快速去除水印的用户,尤其是那些需要在社交媒体上分享图片的用户。 3. AI 改图神器:这个工具提供 AI 智能图片修复去水印的功能,可以一键去除图片中的多余物体、人物或水印,不留任何痕迹。支持直接粘贴图像或上传手机图像,操作简单方便。 这些工具各有特点,可以根据您的具体需求选择最适合您的工具。请注意,内容由 AI 大模型生成,请仔细甄别。
2024-08-29
识别图片中的形状和文字元素并在PPT中重绘图像的AI工具
以下为您推荐一些能够识别图片中的形状和文字元素并在 PPT 中重绘图像的 AI 工具: 1. Gamma:这是一个在线 PPT 制作网站,允许用户通过输入文本和想法提示快速生成幻灯片。它支持嵌入多媒体格式,如 GIF 和视频,以增强演示文稿的吸引力。网址:https://gamma.app/ 2. 美图 AI PPT:由知名图像编辑软件“美图秀秀”的开发团队推出。用户通过输入简单的文本描述来生成专业的 PPT 设计,包含丰富的模板库和设计元素,可根据需求选择不同风格和主题的模板,适用于多种场合。网址:https://www.xdesign.com/ppt/ 3. Mindshow:一款 AI 驱动的 PPT 辅助工具,提供一系列智能设计功能,如自动布局、图像选择和文本优化等,简化设计流程,还可能包括互动元素和动画效果。网址:https://www.mindshow.fun/ 另外,如果您想从游戏截图升级到 KV 品质,正式绘画目前有图生图和 controlnet 两种出图方式。但如果底图质量不够,想要 AI 更自由发挥,除了调高重绘幅度,还可以在 controlnet 上有更多探索。输入正负 TAG,设置好图片尺寸、迭代步数、采样器、重绘幅度后,等待图片生成。controlnet 包含的功能很多且在不断更新,如需更多了解可跳转 B 站深度学习:https://www.bilibili.com/video/BV1Ds4y1e7ZB/?spm_id_from=333.337.searchcard.all.click
2024-08-29
视频生成有什么方案
以下是一些常见的视频生成方案: 1. Pika 方案: 生成视频需要进入 generate 频道,目前有 10 个 generate 频道,可任选一个进入。 工作流程包括:直接生成视频,在输入“/create”,然后输入 prompt,得到视频;图片生成视频,使用 MJ/SD 生成图像(可选)+在 PIKA 平台添加 prompt 得到视频。 2. Phenaki 方案(来自 GoogleBrain): 可以通过文字描述生成可变长度的视频。 主要依赖视频像素生成能力和隐空间 token 预测能力。 视频像素生成能力依赖 VQVAE,主要借鉴了 CViViT 方法。隐空间 token 预测能力依赖 encoderonly 的双向 transformer 的完形填空能力,主要借鉴了 MaskGIT 方法。 CViViT 训练第一个阶段参考了 ViViT 的做法,主要用 VQVAE 方法训练得到 encoder、码本和 decoder 三个部件。attention 的方式是先做 spatial 的 attention,然后做 temporal 的 attention。CViViT 做 patch partition 的时候,先把帧堆叠在一起形成的输入,做没有 overlap 的时间和空间切分。每个 patch 在时间维度上,除了第一帧只有一帧,其余每个 stride 是包含连续的帧。因此第一帧的 patch 小方块大小为,其余 patch 的小方块大小为。经过线性映射层后统一变成了长度为的 feature。一共可以得到的 token 数为个,注意 video 视觉任务比 LLM 的 sequence 要长,因为每一帧都包含大量 patch(例如 256,512)。CViViT 把 spatial 和 temporal 的 CLS token 都去掉了,并且增加了 causal transform 的 decoderonly 的 mask,这样可以在计算复杂度不爆表的情况下产生任意长度的。CViViT decoder 设计跟 encoder 反过来,先过 temporal 的 attention,然后再是 spatial 的 attention。训练使用 VQVAE 方式重建训练,训练结束得到离散的 codebook,这样输入的 video 经过 encoder 转化为离散的 codebook 向量,然后再经过 decoder 得到 pixel 视频。 3. Sora 方案: 数据准备:使用包括内部数据集和公开数据集在内的多种数据源,对图像和视频进行尺寸调整,包括空间上的抗锯齿双线性缩放和时间上的跳帧处理。 模型训练:基础训练阶段使用正方形图像比例进行训练。在特定数据子集上对基础模型进行微调,以生成 9:16 比例的视频。采用了位置嵌入的插值和窗口尺寸的缩放。 视频生成:首先使用图像 LDM 生成单帧图像。然后运行预测模型,以生成的单帧为条件,生成关键帧序列。在视频扩展时,再次调用预测模型,但以两帧(捕捉方向信息)为条件来生成连贯的运动。 微调与优化:对于长时间视频生成,模型在帧预测任务上进行联合训练。在推断阶段,优化目标是加快小批量图像生成的速度。 模型初始化:由于视频数据集规模相对较小,从预训练的图像模型(如 ViT)初始化视频模型,以促进更有效的训练。
2024-08-29