文生模型的实现方式如下:
Tripo 文生 3D 模型:在「Create」界面底部的输入框中输入提示词(不支持中文),不会写提示词可点击输入框左侧的</>按钮随机生成并自动填入。填写好提示词后点击右侧的「Create」生成 3D 模型,每次会生成 4 个基础模型,不满意可点击最下方白色的「Retry」按钮重新生成。若有满意模型,点击单个模型下方黄色的「Refine」精修,精修进度可在「My Models」中查看,一般 5 分钟左右完成。
OpenAI 的 Sora 文生视频模型:能够根据文字指令创造出逼真且充满想象力的场景,生成长达 1 分钟的一镜到底超长视频,视频中的人物和背景具有惊人的一致性,各种镜头随意切换且人物保持稳定性。
多模态模型:多模态模型包括文生图、图生图、图生视频、文生视频等。其底层逻辑先从生图片源头出发,以 StableDiffusion 所用的扩散模型为例,训练时先把海量带有标注文字描述的图片逐渐加满噪点,模型学习每一步图片向量值和文字向量值的数据分布演变规律。输入文字后,模型根据文字转化的向量指导充满噪点的图片减噪点生成最终图片。扩散模型中加减噪点的方式与大脑构思图片的方式类似,多模态模型会关联文字向量值和图片的 RGB 像素点向量值。
2024-12-17