以下为您介绍几种图片生成模型:
[title]Sora 原理解释[heading1]Sora:可作为世界模拟器的视频生成模型[heading2]Image generation capabilities 图像生成功能[content]Sora is also capable of generating images.We do this by arranging patches of Gaussian noise in a spatial grid with a temporal extent of one frame.The model can generate images of variable sizes—up to 2048x2048 resolution.Sora也能够生成图像。我们通过在具有一个帧的时间范围的空间网格中排列高斯噪声的分块来实现这一点。该模型可以生成不同大小的图像——分辨率高达2048x2048。和MJ V6的对比博主:https://twitter.com/doganuraldesign/status/1758444092328194217
输入文本后会文生图,不满意可重复生成图片,图片满意后即可点击GENERATING生成3D很快你会获得一个快速生成的粗模右上可以选择是否对称、是锋利边缘还是光滑边缘,是否简单几何模式选择后可以查看模型是否满意,不满意可以redo,满意后选择confirm进行下一步,这里可以先选择产出的面数(开始扣积分)完成后下一步是生成材质,可选材质的复杂度以及参考图片的影响生成后,可以在左边查看,满意点击confirm左侧预览区可以选择多种形式查看进行到这里,模型基本就完成了可以选择对应的格式规格下载即可,压缩包里会有以下文件(obj格式+PBR材质)也可以发布到sketchfab
10:45最后但同样重要的是特征,这是我们用编码器提取的图像特征。通过传递它们,我们可以获得实际的下一个单词预测。这是一个非常简单的图像文本生成模型,但是这种迭代是11:05即使在非常大的语言生成模型中也非常相似,比如Google Bard。他们基本上是根据一些信息,一个一个地自回归地预测下一个单词,学习嵌入大量参数的知识。11:27在下一个视频中,我将带您浏览整个笔记本。然后,我们将检查该模型可以生成什么样的字幕。非常感谢您的收看,下个视频见。