以下是一些 AIGC 常见名词的解释:
AIGC:AI generated content,又称为生成式 AI,意为人工智能生成内容。例如 AI 文本续写,文字转图像的 AI 图、AI 主持人等,都属于 AIGC 的应用。类似的名词缩写还有 UGC(普通用户生产),PGC(专业用户生产)等。能进行 AIGC 的产品项目和媒介众多,包括语言文字类(如 OpenAI 的 GPT,Google 的 Bard,百度的文心一言,还有一种国内大佬下场要做的的 LLM)、语音声音类(如 Google 的 WaveNet,微软的 Deep Nerual Network,百度的 DeepSpeech 等,还有合成 AI 孙燕姿大火的开源模型 Sovits)、图片美术类(如早期的 GEN 等图片识别/生成技术,去年大热的扩散模型带火的 Midjourney,先驱者谷歌的 Disco Diffusion,一直在排队测试的 OpenAI 的 Dalle·2,以及 stability ai 和 runaway 共同推出的 Stable Diffusion)。
SD:是 Stable Diffusion 的简称。是由初创公司 StabilityAI、CompVis 与 Runway 合作开发,2022 年发布的深度学习文本到图像生成模型。它主要用于根据文本的描述产生详细图像。Stable Diffusion 是一种扩散模型(diffusion model)的变体,叫做“潜在扩散模型”(latent diffusion model; LDM)。SD 的代码模型权重已公开发布,可以在大多数配备有适度 GPU 的电脑硬件上运行。当前版本为 2.1 稳定版(2022.12.7)。源代码库:github.com/StabilityAI/stablediffusion 。
chatGPT:是由致力于 AGI 的公司 OpenAI 研发的一款 AI 技术驱动的 NLP 聊天工具,于 2022 年 11 月 30 日发布,目前使用的是 GPT4 的 LLM。
AI:人工智能(Artificial Intelligence)。
AGI:通用人工智能(Artificial General Intelligence)能够像人类一样思考、学习和执行多种任务的人工智能系统。
NLP:自然语言处理(Natural Language Processing),就是说人话。
LLM:大型语言模型(Large Language Model),数据规模很大,没钱搞不出来,大烧钱模型。
此外,还有一些相对较难的名词解释:
NAI:
咒语:prompts,关键词
施法/吟唱/t2i:Text2Image
魔杖:t2i/i2i 参数
i2i:Image2Image,一般特指全部图片生成
inpaint:i2i 一种 maskredraw,可以局部重绘
ti/emb/炼丹:Train 中的文本反转,一般特指 Embedding 插件
hn/hyper/冶金:hypernetwork,超网络
炸炉:指训练过程中过度拟合,但炸炉前的日志插件可以提取二次训练
废丹:指完全没有训练成功
美学/ext:aesthetic_embeddings,emb 一种,特性是训练飞快,但在生产图片时实时计算。
db/梦展:DreamBooth,目前一种性价比高(可以在极少步数内完成训练)的微调方式,但要求过高
ds:DeepSpeed,微软开发的训练方式,移动不需要的组件到内存来降低显存占用,可使 db 的 vram 需求降到 8g 以下。开发时未考虑 win,目前在 win 有兼容性问题故不可用
8bit/bsb:一般指 Bitsandbyte,一种 8 比特算法,能极大降低 vram 占用,使 16g 可用于训练 db。由于链接库问题,目前/预计未来在 win 不可用
2024-11-08