Chat with Wiki - 文生模型是如何实现的

Answer

文生模型的实现方式如下： - Tripo 文生 3D 模型：在「Create」界面底部的输入框中输入提示词（不支持中文），不会写提示词可点击输入框左侧的</>按钮随机生成并自动填入。填写好提示词后点击右侧的「Create」生成 3D 模型，每次会生成 4 个基础模型，不满意可点击最下方白色的「Retry」按钮重新生成。若有满意模型，点击单个模型下方黄色的「Refine」精修，精修进度可在「My Models」中查看，一般 5 分钟左右完成。 - OpenAI 的 Sora 文生视频模型：能够根据文字指令创造出逼真且充满想象力的场景，生成长达 1 分钟的一镜到底超长视频，视频中的人物和背景具有惊人的一致性，各种镜头随意切换且人物保持稳定性。 - 多模态模型：多模态模型包括文生图、图生图、图生视频、文生视频等。其底层逻辑先从生图片源头出发，以 StableDiffusion 所用的扩散模型为例，训练时先把海量带有标注文字描述的图片逐渐加满噪点，模型学习每一步图片向量值和文字向量值的数据分布演变规律。输入文字后，模型根据文字转化的向量指导充满噪点的图片减噪点生成最终图片。扩散模型中加减噪点的方式与大脑构思图片的方式类似，多模态模型会关联文字向量值和图片的 RGB 像素点向量值。

Content generated by AI large model, please carefully verify (powered by aily)

References

Tripo AI入门手册：AI 3D创作，从未如此简单

顾名思义就是用一段文字生成3D模型，仅需1步[Tripo文生教程.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/Qe0YbxHvNoGjQKxIUHkcHuHBnXc?allow_redirect=1)在「Create」界面底部的输入框中，可以输入自己的提示词（此处不支持中文哦）。不会写提示词的伙伴也不用担心，点击输入框左侧的</>按钮可以随机生成提示词并自动填入输出入框中。提示词填写好以后，点击右侧的「Create」来生成3D模型。每次会生成4个基础模型，如果不满意，可以点击最下方白色的「Retry」按钮，重新生成4个基础模型。如果有满意的模型，只需要点击单个模型下方黄色的「Refine」，就可以精修此模型了。在「My Models」中可以看到精修进度，一般5 min左右就可以完成。[heading1]四、图生3D模型[content]顾名思义就是用一张图片生成3D模型，仅需1步[Tripo图生教程.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/IBmxbag9Ho8zARxvcRWcKxRKnif?allow_redirect=1)点击输入框右侧的图标，可以上传图片来生成3D模型。图生3D一次只会生成一个基础模型，同样支持Retry重生成和Refine精修。至于效果嘛，自己体验吧。

视频模型：Sora

卷疯了卷疯了，短短十几小时内，OpenAI和谷歌接连发布核弹级成果。国内还没睡的人们，经历了过山车般的疯狂一晚。就在刚刚，OpenAI突然发布首款文生视频模型——Sora。简单来说就是，AI视频要变天了！它不仅能够根据文字指令创造出既逼真又充满想象力的场景，而且生成长达1分钟的超长视频，还是一镜到底那种。Runway Gen 2、Pika等AI视频工具，都还在突破几秒内的连贯性，而OpenAI，已经达到了史诗级的纪录。60秒的一镜到底，视频中的女主角、背景人物，都达到了惊人的一致性，各种镜头随意切换，人物都是保持了神一般的稳定性。

Ranger：【AI 大模型】非技术背景，一文读懂大模型（长文）

ok讲完了LLm，我们来看多模态是怎么实现的多模态模型目前基本就是文生图、图生图、图生视频、文生视频这些，其底层逻辑其实还是先从生图片这一源头。因为毕竟视频也是若干帧的图片组成。所以在生图片的这个环节上，我们把比较火的这个stablediffusion用的这个diffusion扩散模型理解掉，也就差不多够了。那么什么是扩散模型呢，这里我拿论文中的两张图帮助理解一张是前向的，在图片上加噪点，最终生成一张无意义的噪点图，一个是后向的，从一个无意义的噪点图上消除噪点，最终得到一张有意义的实际图片。其实扩散模型训练的就是这个加减噪点的过程：先把海量的带有标注文字描述的图片，例如“一只白色的小猫”，逐渐加满噪点。在这个过程中，模型会把每一步的图片向量值，和文字的向量值的数据分布的演变规律，进行系统学习并沉淀下来，这就完成了模型的训练。在后续我们输入文字后，模型就可以根据输入的文字转化为的向量，去指导一个充满噪点的图片每一步减噪点的过程，生成最终的图片。这里其实有两个点一个是diffusion模型中加减噪点的方式，其实也与我们大脑中去构思一张图片的方式有些类似，我们去想像一张图片的时候，不也是从一片模糊中逐渐想清楚一张图片嘛第二个是多模态模型会把文字的向量值和图片的rgb像素点的向量值进行关联，这个也像极了我们大脑中的一个思考过程。