Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

大模型生成UI方向进展

Answer

根据搜索结果，大模型在生成 UI 设计方面取得了以下进展：

出现了专门针对 UI 设计的生成式 AI 工具，如"即时 AI"。这类工具可以根据文字描述快速生成可编辑的 UI 设计稿，大大提高了设计效率。
国内外都有相关的大模型产品在发展，如 OpenAI 的 GPT-4、百度的文心一言等。这些大模型在理解语义、生成内容等方面不断进步，为 UI 设计工具提供了强大的基础能力。
新一代的生成式 UI 设计工具，如 Galileo AI，已经开始支持对生成结果进行自定义样式调整，如颜色、字体、圆角等。这种交互式的设计流程更符合实际需求。
大模型生成 UI 设计的方向正在从单纯的内容生成，向交互式的设计协作模式发展。用户可以通过对话方式不断优化设计，大大提高了设计质量。
总的来说，大模型技术正在推动 UI 设计工具从静态内容生成向动态、可交互的方向发展。未来设计师可以更高效地利用 AI 辅助完成设计工作。

综上所述，大模型在 UI 设计领域取得了显著进展，为设计师提供了更强大的创作工具和方法。这一趋势值得持续关注和研究。

Content generated by AI large model, please carefully verify (powered by aily)

References

质朴发言：大模型时代的产品长啥样&壁垒在哪？｜Z 沙龙第 2 期

手把手教你本地部署大模型以及搭建个人知识库

教程：深入浅出完整解析Stable Diffusion（SD）核心基础知识 - 知乎

红杉：生成式AI的第二阶段

生成式人工智能领域的 4 个突破点

最近招聘信息-持续更新中

Others are asking

ComfyUI 是一个基于节点流程式的 stable diffusion AI 绘图工具 WebUI，类似于集成了 stable diffusion 功能的 substance designer，通过将 stable diffusion 的流程拆分成节点，实现了更精准的工作流定制和完善的可复现性。其优势包括： 1. 对显存要求相对较低，启动速度快，出图速度快。 2. 具有更高的生成自由度。 3. 可以和 webui 共享环境和模型。 4. 可以搭建自己的工作流程，可以导出流程并分享给别人，报错时能清晰发现错误所在步骤。 5. 生成的图片拖进后会还原整个工作流程，模型也会选择好。劣势有： 1. 操作门槛高，需要有清晰的逻辑。 2. 生态没有 webui 多（常用的都有），也有一些针对 Comfyui 开发的有趣插件。官方链接：从 github 上下载作者部署好环境和依赖的整合包，按照官方文档按照即可：https://github.com/comfyanonymous/ComfyUI 。安装部署方面： 1. 地址：https://github.com/comfyanonymous/ComfyUI ，可以下载安装包也可以直接 Git clone https://github.com/comfyanonymous/ComfyUI.git ，或者下载安装包 file:ComfyUI.zip ，下载安装包或者点击链接下载并解压至本地除 C 盘外的任意盘。然后找到文件名称为 run_nvidia_gpu 的文件双击并启动。启动完成即进入基础界面。 2. 节点存放目录：comfyUI 的节点包括后面安装的拓展节点都存放在本目录下 D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\custom_nodes 。 3. 模型存放目录：大模型：D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\checkpoints 。 Lora：D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\loras 。 Vae：D:\\COMFYUI\\ComfyUI_windows_portable\\ComfyUI\\models\\vae 。 4. 模型共用：已经安装了 SDWebUI 的同学可以通过修改文件路径和 WebUI 共用一套模型即可，这样就不用重复下载模型了。找到已安装好的 ComfyUI 目录文件下的 extra_model_paths.yaml.example 文件，将后缀.example 删除，然后右键用记事本打开。此外，还可以直接在 Comfy UI 中训练 LoRA 模型。

以下是关于 AI 生成 UI 的相关内容：使用 Midjourney 生成 UI 界面：页面指令：指定生成某个页面（如首页、登录页等），只需添加页面指令描述，如“landing page”可生成社交平台的登录页设计，“Profile Page”可生成人力资源类产品的个人资料页。应用场景：Midjourney 产出的设计图视觉效果佳，适合在 APP 设计的初始阶段，如头脑风暴和风格探索中提供灵感和创意。但目前直接用于落地开发仍有距离，不过随着技术迭代，这个距离会逐渐缩短。多模态 4O 在 UI 设计中的应用：可以先借助 AI 生成设计概要概念，应用于 Web 应用创建和 UI 页面设计，也能直接生成 UI 界面。 Midjourney 商业实战案例中的 UI 设计：如数据图标、B 端图标设计、音乐软件 UI 设计等。但部分生成的 UI 设计存在不规范、文字乱的情况，只能作为风格参考。网上已有很多 AI 生成的 UI 设计软件开始内测。

comfyUI是什麼？

ComfyUI 是一个基于节点流程式的 stable diffusion AI 绘图工具 WebUI，您可以将其视为集成了 stable diffusion 功能的 substance designer。通过把 stable diffusion 的流程拆分成节点，实现了更精准的工作流定制和良好的可复现性。其具有以下优势： 1. 对显存要求相对较低，启动速度快，出图速度快。 2. 具有更高的生成自由度。 3. 可以和 webui 共享环境和模型。 4. 可以搭建自己的工作流程，可以导出流程并分享给别人，报错时能清晰发现错误所在步骤。 5. 生成的图片拖进后会还原整个工作流程，模型也会选择好。但也存在一些劣势： 1. 操作门槛高，需要有清晰的逻辑。 2. 生态没有 webui 多（常用的都有），不过也有一些针对 Comfyui 开发的有趣插件。 ComfyUI 是一个开源的图形用户界面，用于生成 AI 图像，主要基于 Stable Diffusion 等扩散模型。其工作原理包括： 1. Pixel Space（像素空间）：图的左边表示输入图像的像素空间，在 ComfyUI 中，对应于可能通过“图像输入”模块或直接从文本提示生成的随机噪声图像。生成过程结束时，系统会将处理后的潜在表示转换回像素空间，生成最终的图像。 2. Latent Space（潜在空间）：ComfyUI 中的许多操作都在潜在空间中进行，如 KSampler 节点就是在这个空间中执行采样过程。图像被映射到潜在空间后，扩散过程在这个空间中进行。在 ComfyUI 中，您可以通过节点调整对潜在空间的操作，如噪声添加、去噪步数等。 3. 扩散过程（Diffusion Process）：噪声的生成和逐步还原。扩散过程表示的是从噪声生成图像的过程。在 ComfyUI 中，这通常通过调度器（Schedulers）控制，典型的调度器有 Normal、Karras 等，它们会根据不同的采样策略逐步将噪声还原为图像。您可以通过 ComfyUI 中的“采样器”节点选择不同的调度器，来控制如何在潜在空间中处理噪声，以及如何逐步去噪回归到最终图像。时间步数在生成图像时，扩散模型会进行多个去噪步。您可以从 github 上下载作者部署好环境和依赖的整合包，按照官方文档安装即可：https://github.com/comfyanonymous/ComfyUI 。此外，开源项目作者 ailm 在 ComfyUI 上搭建了一个可以接入飞书的 AI 女友麦洛薇（mylover），实现了稳定人设，无限上下文，永久记忆，无缝联动 SD 绘图等功能，适合完全没有代码基础的小伙伴们复现并且按自己的想法修改。

以下是关于 UI 的 AI 软件的相关内容：方法 1【云端 Comfyui 出图 + AI 视频软件】作者：来来联系方式：laiweb3（添加请注明 AI 视频）相关账号：公众号/视频号/小红书/B 站：来来说 AI 作者标签：20 年设计师，10 年大学设计老师，电商设计公司创始人 10 年，AI 图书作者《一本书读懂 AI 绘画》《一本书读懂 AIGC 提示词》操作步骤：打开链接的工作流：https://www.esheep.com/app/5977 ，点击查看工作流，会出现登录或注册界面正常注册即可。如果已经登录会自动出现下面的界面。步骤 1：红色框选择生成图片的大模型，绿色框添加提示词，蓝色框填写反向提示词。步骤 2：红色框设置大小确保是 16:9 的比例，绿色框修改参数，参数不理解的话保持默认即可。步骤 3：红色框上传深度图。步骤 4：点击立即生成，最下面就会出现图片，在生成历史中下载图片即可。【ComfyUI】Blender + Stable Diffusion！作者：白马少年介绍：SD 实践派，出品精细教程发布时间：20230905 19:00 原文网址：https://mp.weixin.qq.com/s/vdm9L_xsZc8d3ZZj7CrLdw Blender 是一款免费开源的三维制作软件，和 SD 一样，具有极高的自由度，可以将很多功能包容进来。ComfyUI 的界面主要是节点操作，和 Blender 在工作流程上天然适配。最近，“只剩一瓶辣椒酱”和幻之境开发小组联合开发了一款基于 STABLE DIFFUSION ComfyUI 核心的 Blender AI 插件——无限圣杯。

UI相关的ai工具有哪些

以下是一些与 UI 相关的 AI 工具： 1. UIzard：利用 AI 技术生成用户界面，可根据提供的信息快速生成 UI 设计。 2. Figma：基于云的设计工具，提供自动布局和组件库，其社区开发的一些 AI 插件可增强设计流程。 3. Sketch：流行的矢量图形设计工具，插件系统中部分插件利用 AI 技术辅助设计工作。 4. UIGENT1：基于 Qwen2.5Coder7B 微调，能根据提示生成标准 HTML/CSS 代码，擅长基础前端页面。 5. Galileo AI：可根据文字或图片生成完整 UI 设计，并导出 HTML 和 Figma 文件。 6. 即时设计：https://js.design/ ，可在线使用的专业 UI 设计工具，注重云端文件管理和团队协作。 7. V0.dev：https://v0.dev/ ，Vercel Labs 推出的 AI 生成式用户界面系统，能通过文本或图像生成代码化的用户界面。 8. Wix：https://wix.com/ ，用户友好的 AI 工具，无需编码知识即可创建和自定义网站。 9. Dora：https://www.dora.run/ ，通过一个 prompt，借助 AI 3D 动画生成强大网站。请注意，部分内容由 AI 大模型生成，请仔细甄别。

Trae生成产品UI

以下是关于使用 Trae 生成产品 UI 的相关信息： 1. DeepSeek 驱动的网页金句卡片生成：先开发基础版本的浏览器插件，包括选择文字、自定义生成图片，图片底部包含文章标题和链接二维码。使用 AI Rules 的 Chat 模式完善产品需求（PRD），Trae 运行后会创建 readme 文档，可在其中修改，带有章节选择。使用 Builder 模式开发产品，在 AI Rules 里指定技术方案，在 readme 里指定产品需求，然后让 Trae 自动化开发。开发完成后在 Chrome 浏览器内加载扩展程序进行调试，第一次报错可能是未创建浏览器插件图标，将截图发给 Trae 处理后重新加载。但需注意 Claude 3.5 模型不具备直接生成图片的能力。 2. 保姆级使用指南：有控制按钮（开始、暂停、重新开始）和游戏说明。可生成任务清单应用，输入相关需求即可。能根据 UI 设计图自动生成项目代码，如输入“使用 html 技术实现如图大屏页面”，但生成效果可能不完美，可让 Trae 调整。总结：Trae 高效代码生成能力强，支持多技术栈，有动态调整潜力。 3. 智能纪要：基于 Tree 的海关归类项目及商业化探讨，包括固定随机种子、开发记忆大模型、搭建爬虫工作流、实现全参量归类、解决技术问题、项目成果展示和商业化探讨。利用 AI 实现工作流封装并面向 C 端的项目介绍，包括前端开发尝试和小程序落地实现，后端接入处理时不会接 API 可让 Trae 帮忙。

大模型的系统提示词

大模型的系统提示词主要包括以下方面： 1. 在“五津：一键生成‘摸鱼打工猫’视频”中，针对用户选择的主题和回答，总结用户的创作意图，如“打工猫摸鱼的 2 小时，在巴厘岛能看一场日落”，并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词，以数组形式输出到“tishici”，将用户意图输出到“biaoti”。 2. 在“云中江树：智能对决：提示词攻防中的 AI 安全博弈”中，系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意；模型侧对于有能力的厂商应增强安全性并平衡性能，开发者则要在开发中带着安全意识优化系统提示词，加入安全引导和禁止内容等；输出侧可使用传统防御和内容过滤手段，并针对大模型特点进行私有数据泄露等检查。此外，还提到间接注入和提示词泄露的情况，间接注入常发生在应用获取依赖外部数据资源时，攻击者通过隐藏恶意指令完成攻击；提示词泄露指试图操纵模型输出获取部分或全部系统提示词，大模型输出内容可分为系统提示词、用户提示和助手提示词三段，通过攻击手段可获取系统提示词。

通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash，这3个视觉理解大模型哪个最厉害？

以下是对通义千问 Qwen2.5VL 模型的介绍：版本：有 3B、7B 和 72B 三个尺寸版本。主要优势：视觉理解能力：在 13 项权威评测中夺得视觉理解冠军，全面超越 GPT4o 与 Claude3.5。视频理解能力：支持超 1 小时的视频理解，无需微调即可变身为 AI 视觉智能体，实现多步骤复杂操作。万物识别：擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。精准的视觉定位：采用矩形框和点的多样化方式对通用物体定位，支持层级化定位和规范的 JSON 格式输出。全面的文字识别和理解：提升 OCR 识别能力，增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析：设计了更全面的文档解析格式，称为 QwenVL HTML 格式，能够精准还原文档中的版面布局。增强的视频理解：引入动态帧率（FPS）训练和绝对时间编码技术，支持小时级别的超长视频理解，具备秒级的事件定位能力。开源平台： Huggingface：https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope：https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat：https://chat.qwenlm.ai 然而，对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型，目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容，因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看，其在视觉理解方面具有较强的能力和优势。

目前全世界最厉害的对视频视觉理解能力大模型是哪个

目前在视频视觉理解能力方面表现出色的大模型有： 1. 昆仑万维的 SkyReelsV1：它不仅支持文生视频、图生视频，还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL：在 13 项权威评测中夺得视觉理解冠军，全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解，无需微调即可变身为 AI 视觉智能体，实现多步骤复杂操作。擅长万物识别，能分析图像中的文本、图表、图标、图形和布局等。

目前全世界最厉害的视频视觉理解大模型是哪个

目前全世界较为厉害的视频视觉理解大模型有以下几个： 1. 昆仑万维的 SkyReelsV1：不仅支持文生视频、图生视频，是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元：语义理解能力出色，能精准还原复杂的场景和动作，如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5：全球最快的 AI 视频生成模型，Turbo 模式下可在 10 秒内生成视频，最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能，具备顶尖动漫生成能力。

目前全世界最厉害的视觉理解大模型是哪个

目前在视觉理解大模型方面，较为突出的有 DeepSeek 的 JanusPro 模型，它将图像理解和生成统一在一个模型中；还有通义千问的视觉理解模型，其价格有较大降幅。此外，Pixverse V3.5 是全球最快的 AI 视频生成模型，在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型，因为这取决于不同的评估标准和应用场景。

大模型对话产品的优劣

大模型对话产品具有以下优点： 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验，具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接，产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务，适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景，如私有领域知识问答、个性化聊天机器人、智能助手等。大模型对话产品也存在一些缺点： 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情，全靠用户脑补，导致用户上头期短，疲劳度高，长期留存低。 3. 无法回答私有领域问题（如公司制度、人员信息等）。 4. 无法及时获取最新信息（如实时天气、比赛结果等）。 5. 无法准确回答专业问题（如复杂数学计算、图像生成等）。

生成提示词的提示词

以下是关于生成提示词的相关内容：生成提示词的思路和方法：可以根据效果好的图片中的高频提示词去反推效果，结合不同字体效果的描述，打包到一组提示词中。提示词给到 AI 后，AI 会根据给定文字的文义，判断适合的情绪风格，然后给出适合情绪的字体和风格描述、情感氛围等，加上一些质量/品质词，形成输出提示词结构。为了让 AI 更能描述清晰风格，可以先给定多种参照举例。具体操作步骤：打开 AI 工具的对话框，将相关提示词完整复制粘贴到对话框。推荐使用 ChatGPT 4o。当 AI 回复后，发送您想要设计的文字。可以仅发送想要的文字，也可以发送图片（适合有多模态的 AI）让 AI 识别和反推。将 AI 回复的提示词部分的内容复制到即梦 AI。对生成提示词的一些观点：提示词生成提示词并非必要，不一定能生成最好的 Prompt 框架，修改过程可能耗时且不一定能修改好，不如花钱找人写。一句话生成完整符合需求的 Prompt 非常困难，只能大概给出框架和构思，需要更低成本地调整需求和修改 Prompt。不同生图工具生成提示词的特点：即使是简短的描述，生成的提示词也非常细节、专业。会解析需求，找出核心要点和潜在的诠释点，并给出不同的提示词方案。提示词构建更多在于增强，而不是发散，生成的内容更符合期望。同时生成中、英双版本，国内外工具通用无压力。 14 款 AI 生图工具实测对比：本次实测用到的工具包括国内版的即梦 3.0（https://jimeng.jianying.com/aitool/home）、WHEE（https://www.whee.com）、豆包（https://www.doubao.com/chat）、可灵（https://app.klingai.com/cn/texttoimage/new）、通义万相（https://tongyi.aliyun.com/wanxiang/creation）、星流（https://www.xingliu.art）、LibiblibAI（https://www.liblib.art），以及国外版的相关工具。

有没有能根据描述，生成对应的word模板的ai

目前有一些可以根据描述生成特定内容的 AI 应用和方法。例如：在法律领域，您可以提供【案情描述】，按照给定的法律意见书模板生成法律意见书。例如针对商业贿赂等刑事案件，模拟不同辩护策略下的量刑结果，对比并推荐最佳辩护策略，或者为商业合同纠纷案件设计诉讼策略等。在 AI 视频生成方面，有结构化的提示词模板，包括镜头语言（景别、运动、节奏等）、主体强化（动态描述、反常组合等）、细节层次（近景、中景、远景等）、背景氛围（超现实天气、空间异常等），以及增强电影感的技巧（加入时间变化、强调物理规则、设计视觉焦点转移等）。一泽 Eze 提出的样例驱动的渐进式引导法，可利用 AI 高效设计提示词生成预期内容。先评估样例，与 AI 对话让其理解需求，提炼初始模板，通过多轮反馈直至达到预期，再用例测试看 AI 是否真正理解。但需要注意的是，不同的场景和需求可能需要对提示词和模板进行针对性的调整和优化，以获得更符合期望的 word 模板。

如何自动生成文案

以下是几种自动生成文案的方法： 1. 基于其它博主开源的视频生成工作流进行优化：功能：通过表单输入主题观点，提交后自动创建文案短视频，创建完成后推送视频链接到飞书消息。涉及工具：Coze 平台（工作流、DeepSeek R1、文生图、画板、文生音频、图+音频合成视频、多视频合成）、飞书（消息）、飞书多维表格（字段捷径、自动化流程）。大体路径：通过 coze 创建智能体，创建工作流，使用 DeepSeek R1 根据用户观点创建文案，再创建视频；发布 coze 智能体到飞书多维表格；在多维表格中使用字段捷径，引用该智能体；在多维表格中创建自动化流程，推送消息给指定飞书用户。 2. 生成有趣的《图文短句》：实现原理：先看工作流：包括第一个大模型生成标题、通过“代码节点”从多个标题中获取其中一个（可略过）、通过选出的标题生成简介、通过简介生成和标题生成文案、将文案进行归纳总结、将归纳总结后的文案描述传递给图像流。再看图像流：包括提示词优化、典型的文生图。最终的 Bot 制作以及预览和调试。 3. 腾讯运营使用 ChatGPT 生成文案：步骤：通过 ChatGPT 生成文案，将这些文案复制到支持 AI 文字转视频的工具内，从而实现短视频的自动生成。市面上一些手机剪辑软件也支持文字转视频，系统匹配的素材不符合要求时可以手动替换。例如腾讯智影的数字人播报功能、手机版剪映的图文成片功能。这类 AI 视频制作工具让普罗大众生产视频变得更轻松上手。

如何通过输入一些观点，生成精彩的口播文案

以下是通过输入观点生成精彩口播文案的方法： 1. 基于其它博主开源的视频生成工作流进行功能优化，实现视频全自动创建。效果展示：可查看。功能：通过表单输入主题观点，提交后自动创建文案短视频，并将创建完成的视频链接推送至飞书消息。涉及工具：Coze平台（工作流、DeepSeek R1、文生图、画板、文生音频、图+音频合成视频、多视频合成）、飞书（消息）、飞书多维表格（字段捷径、自动化流程）。大体路径：通过 coze 创建智能体，创建工作流，使用 DeepSeek R1 根据用户观点创建文案，再创建视频。发布 coze 智能体到飞书多维表格。在多维表格中使用字段捷径，引用该智能体。在多维表格中创建自动化流程，推送消息给指定飞书用户。 2. 智能体发布到飞书多维表格：工作流调试完成后，加入到智能体中，可以选择工作流绑定卡片数据，智能体则通过卡片回复。选择发布渠道，重点是飞书多维表格，填写上架信息（为快速审核，选择仅自己可用），等待审核通过后即可在多维表格中使用。 3. 多维表格的字段捷径使用：创建飞书多维表格，添加相关字段，配置后使用字段捷径功能，使用自己创建的 Coze 智能体。表单分享，实现填写表单自动创建文案短视频的效果。 4. 自动化推送：点击多维表格右上角的“自动化”，创建所需的自动化流程。另外，伊登的最新 Deepseek+coze 实现新闻播报自动化工作流如下：第一步是内容获取，只需输入新闻链接，系统自动提取核心内容。开始节点入参包括新闻链接和视频合成插件 api_key，添加网页图片链接提取插件，获取网页里的图片，以 1ai.net 的资讯为例，添加图片链接提取节点，提取新闻主图，调整图片格式，利用链接读取节点提取文字内容，使用大模型节点重写新闻成为口播稿子，可使用 Deepseek R1 模型生成有吸引力的口播内容，若想加上自己的特征，可在提示词里添加个性化台词。

小红书图文批量生成

以下是关于小红书图文批量生成的详细内容：流量密码！小红书万赞英语视频用扣子一键批量生产，这是一个保姆级教程，小白都能看得懂。原理分析：决定搞之后，思考生成这种视频的底层逻辑，进行逆推。这种视频由多张带文字图片和音频合成，带文字图片由文字和图片生成，文字和图片都可由 AI 生成，音频由文字生成，文字来源于图片，也就是说，关键是把图片和文字搞出来。逻辑理清后，先找好看的模版，未找到好看的视频模版，最后看到一个卡片模版，先把图片搞出来，才有资格继续思考如何把图片变成视频，搞不出来的话，大不了不发视频，先发图片，反正图片在小红书也很火。拆模版：要抄这种图片，搞过扣子的第一反应可能是用画板节点 1:1 去撸一个，但扣子的画板节点很难用，Pass 掉。用 PS 不行，太死板不灵活，html 网页代码可以，非常灵活。经过 2 个多小时和 AI 的 battle，用 html 代码把图片搞出来了。这里不讲代码怎么写，直接抄就行。要抄，首先要学会拆，不管用什么方式批量生成这样的图片，都必须搞清楚里面有哪些是可以变化的参数，也就是【变量】，如主题、主题英文、阶段、单词数、图片、正文、翻译、普通单词、重点单词等。想方法：大概知道批量生成这样的图片需要搞清楚哪些参数，图片用 html 代码搞出来了。但问题是视频怎么搞，这种视频由多张不同的【带文字的图片】生成，比如读到哪句，哪句就高亮起来，图片也可以随着读到的句子变更。最后，视频就是用这样的图片一张张拼起来的。

ai如何什么生成表格

AI 生成表格通常可以通过以下技术实现： 1. 利用变分自编码器（VAEs）和序列到序列模型（Seq2Seq）等技术生成表格文件、表格公式，并清理、创建、转换和分析表格中的文本数据，例如表格结构设计、数据分析表、表格自动化等。 2. 借助一些办公软件中的 AI 插件，如飞书中的相关插件，先通过 AI 理解图片中的内容并填充到表格列中，然后利用自带插件总结生成相关指令。此外，在多模态数据生成中，结构化数据生成包括表格生成，多模态合成数据从大类来看有非结构化数据（图片、视频、语音等）和结构化数据（表格等）两大类。非结构化数据生成包括文本生成、图像生成、音频和语音生成、视频生成、3D 生成、合成数据生成等。

目前deepseek的进展

目前 DeepSeek 的进展如下：持续 5 天的“开源周”已进行到第 3 天。周一开源了专为英伟达 Hopper GPU 打造的高效 MLA 解码内核 FlashMLA，已正式投产使用。周二开源了专为混合专家系统（MoE）和专家并行（EP）设计的通信库 DeepEP。周三开源了支持稠密和 MoE 模型的 FP8 GEMM（通用矩阵乘法）计算库 DeepGEMM，可为 V3/R1 的训练和推理提供强大支持。总的来说，英伟达和 DeepSeek 开源的内容都是通过对英伟达 GPU 和集群的优化，来推动 AI 模型的高效计算和部署。华尔街分析师对 DeepSeek 的反应：展示出媲美领先 AI 产品性能的模型，但成本仅为其一小部分，在全球主要市场的 App Store 登顶。Jefferies 警告其技术可能打破资本开支狂热，Citi 对其技术突破提出质疑。高盛预测其可能改变科技巨头与初创公司的竞争格局，降低 AI 行业进入门槛。 DeepSeek 的实际使用体验：在文字能力上表现突出，尤其在中文场景中高度符合日常、写作习惯，但在专业论文总结方面稍弱。数学能力经过优化，表现不错；编程能力略逊于 GPT，据用户反馈。GRPO 算法替代传统 PPO，降低价值函数估计难度，提高语言评价场景的灵活性与训练速度。

上一周 ai有什么新的进展

以下是上一周 AI 的一些新进展：应用形态的重构方面，AI Agent 取得突破，为机器人赋予自主行动能力，AI 编程工具的进展或预示人机协作模式的变革。 2 月，OpenAI 发布视频生成模型 Sora，实现高质量文本生成视频，开创 AI 视频生成新纪元。 3 月，Suno 发布 V3 版本，AI 音乐生成进入生产力可用状态。 4 月，Meta 发布高性能开源大模型 Llama3，降低了 AI 技术的准入门槛。 5 月，GPT4 发布，RayBan 与 Meta 合作的智能眼镜销量突破百万，字节上线即梦 AI。 6 月，快手发布可灵，Apple Intelligence 发布。 9 月，OpenAI 发布 o1 预览版。 10 月，Rosetta 和 AlphaFold 算法的研发者因在蛋白质结构设计和预测中的突破性贡献获得诺贝尔化学奖，约翰·霍普菲尔德和杰弗里·辛顿因人工神经网络和深度学习的开创性贡献获诺贝尔物理学奖，Anthropic 大模型 Claude 3.5 Sonnet 获得“computer use”功能。 12 月，OpenAI 发布 o3 系列模型。此外，还有一些关于 AI 的讨论和话题，如把 350 万条 Midjourney 提示词放进一张可视化图里，2 套权威的 AI 术语表，天工新功能的定位靠近元宇宙，NotebookLM 与 AI 播客的关系，Bob 类似于更轻巧的能选多种大模型的桌面端应用“豆包”，Monica.im 的发展，物圆 TreLoop 的情况，对 AGI 距离的讨论，Arc 浏览器的状态，李开复关于 AI 应用爆发和 AGI 的观点，李继刚的 Prompt 玩法，OpenAI 研究副总裁离职，15 岁开发者的开源项目被收购，关于 AI 编程效率的讨论等。

请推荐最新的AI相关进展新闻

以下是一些最新的 AI 相关进展新闻：在医疗领域： ChatGPT 和 Google Bard 等技术极大加速了医疗健康生物制药的研究，AI 在抗癌、抗衰老、早期疾病防治等方面发挥着重要作用。例如，AI 提前三年诊断胰腺癌；两名高中生与医疗技术公司合作发现与胶质母细胞瘤相关的新靶基因；AI 帮助抗衰老，筛查出高效的药物候选物；利用 AI 寻找阿尔兹海默症的治疗方法；使用神经网络分析患者体液中的生物标志物以早期诊断帕金森。在技术应用方面： AI Agent 的突破让行业看到更多可能性，如机器人获得自主行动能力。AI 编程工具的进展预示着人机协作模式的变革。 2024 年 AI 关键进展时间线包括：2 月 OpenAI 发布视频生成模型 Sora；3 月 Suno 发布 V3 版本；4 月 Meta 发布高性能开源大模型 Llama3；5 月 GPT4 发布等。赛博月刊显示，AI 音频公司在效果和延迟方面取得突破，3D 世界生成领域处于初级阶段但有望在明年取得巨大进步，AI 应用的更新集中在搜索、知识库、编程等领域，越来越多应用公司受到资本青睐。

transformer是通往AGI的必经之路吗？什么是世界模型，当前有哪些进展

Transformer 并非通往 AGI 的必经之路。在已知的 token space 中，Transformer 符合一些条件，但在更通用的场景中不太符合。AI 本质包含一堆 scaling law，一个值得被 scale up 的架构是基础，且架构要支持不断加入更多数据。当前在数据方面，如限定问题的数据生成有进展，但通用问题还没有完全的解法。世界模型方面，目前的研究正在以指数级别的速度增长。对于语言这种有结构、有规则的指令系统，其逻辑受指向描述变化，如早期语言模型建模中用到的 RNN、LSTM 及当前 LLM 的 Transformer 模型结构，都是对语言序列性所体现逻辑结构的适配。同时也在思考是否存在其他形式的符号化表征及相应的建模结构，以及对于非碳基生物语言的使用情况等。未来通往 AGI 的道路并非简单，需要探寻 RL 与 LLM 的本质普遍性。

请帮我整理关于AI最新进展和应用的介绍内容

以下是关于 AI 最新进展和应用的介绍：医疗领域： ChatGPT 和 Google Bard 等技术极大加速了医疗健康生物制药的研究。AI 在抗癌、抗衰老、早期疾病防治等方面发挥着重要作用。提前三年诊断胰腺癌。两名高中生与医疗技术公司合作发现与胶质母细胞瘤相关的新靶基因。帮助抗衰老，筛查超过 80 万种化合物发现高效药物候选物。用于寻找阿尔兹海默症的治疗方法。帮助早期诊断帕金森。法律法规方面： AI 在许多领域已经取得重大进展和效率提升，如交通监控、银行账户欺诈检测、工业大规模安全关键实践等。 AI 具有巨大的潜力来改变社会和经济，可能产生与电力或互联网相当的影响。大型语言模型等技术进步带来了变革性的发展机会。基础通识课方面：流式训练方式提升了训练速度和质量，基于 Transformer 模型进行流匹配优于扩大模型。有多种 AI 生成工具，如能创作音乐的 so no 音频生成工具、创建个人 AI 智能体的豆包、生成播客的 Notebook LN。端侧大模型能部署在手机端等设备，通过压缩解决存储和性能问题。 AI 工程平台对模型和应用有要求，如 define 平台，coach 平台有新版本模板和众多插件工具，还有工作流。有魔搭社区等为大模型提供服务的平台。预告了 AI 建站，需安装基础软件帮助文科生和无基础人员建站。

新手如何更好使用该网站，主要了解人工智能或者AGI进展，主流软件的学习和应用

对于新手想要更好地使用该网站来了解人工智能或 AGI 进展以及主流软件的学习和应用，以下是一些相关内容： AE 软件：基本功能：可通过图层软件抠元素加插件做特效，如利用 auto field 自动填充工具，轨道遮罩功能让图层按特定形状变化等。与 AI 结合运用：如用 runway 生成烟花爆炸素材，结合 AE 的图层混合模式、遮罩等功能实现特效可控的画面。其他应用：用内容识别填充功能处理视频画面，如抹掉入镜的人；从素材网站获取粒子素材为画面添加氛围感。学习路径：可在 B 站找丰富的 AE 软件入门课程自学，也可从包图网下载工程文件学习。学习方法：通过拆解视频、留意路边广告特效、按层级逻辑思考画面运动来学习 AE，还可参考模板。与 AI 的关系：AI 出现后，AE 使用减少，有些动效可用 AI 完成。在短剧中的应用：在火焰、文字、光线等方面有少量应用。 AI 相关技术与活动： AI 音乐创作：通过输入更高级的词汇与 AI 音乐对话能产生更好效果，有 AI 音乐的版块、挑战、分享会和教程，可通过王贝加入 AI 音乐社区。数字人语音合成：介绍了声音克隆技术，提到了微软、阿里等的相关成果，常用的是 JPT service。 Config UI 的应用：能降低成本、提高效率，在图书出版、引流等方面有应用，岗位稀缺，社区有相关共学课程。社区共创项目：包括东京的 confii 生态大会、AI 文旅视频、娃卡奖、李普村共创故事、AI 春晚等活动。作业与报名：作业是询问对 AI 方向的兴趣和想做的项目，活动报名可通过填写名字和申请新增学校参与。线下寄送物料组织活动：会给大家寄送线下活动物料，在学校内组织。 AI 春晚即将开始：去年 300 人 30 天共创了 AI 春晚，今年的也即将开始，可报名参与多种岗位。 AIPO 活动及相关挑战：10 月 20 日的 AIPO 活动，可提前构思展示项目，有会话和视频相关的挑战赛。共学活动与技能提升：接下来 10 天有从零基础到建站等内容的讲解，回放会放在链接里，可先从练习提示词入手。硬件机器人材料购买：若搞硬件机器人，部分材料需尽快购买。自媒体发布与流量扶持：在小红书发布活动内容带特定标签有流量扶持，作品也可发布在 GitHub 等平台。活动奖项与历史玩法：设最佳创业奖和最佳投资奖各四个，有线下摆摊展示交流、IPO 路演等玩法，之前在多个城市举办过 AI 切磋大会。工具使用与新大赛预告：可使用多种 AI 工具，新的大赛即将开启，有百万奖金池，相关动态会在社区活动栏目公布。 AI 音乐和数字人语音合成： AI 音乐方面，提到草爷、格林 king、狗哥带大家入门，有相关课程与教程，且淘宝上有套壳工具抄袭。社区伙伴做的 AI 音乐专辑不错。数字人语音合成部分提到声音克隆，有新的声音克隆且音质很不错。提到了微软新出的成果、阿里的 Cozy voice（指出其泛化能力不强）、大家常用的 GPT solve it、刚举办的 AI 3D 活动。以小田的 config UI 基础工作流一日谈展开，讲述了多个案例，如许建拍摄场景图成本降低，郭佑萌在图书出版行业提升效率，影楼可进行换装等操作，文旅文创场景有有趣的合影生成方式，还提到该工作流岗位稀缺且社区有课程可供学习。 AJ 介绍平台资源，包括共学课程、专栏报告、数据等，还提及就业创业及一些企业专栏的内容。