Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

如何用AI开发APP

Answer

以下是用 AI 开发 APP 的步骤和建议:

  1. 基础小任务
    • 让 AI 按照最佳实践为您写一个 say hello 的示例程序,并解释每个文件的作用及程序运行的逻辑,以学会必备的调试技能。
    • 对于特定需求,如开发 chrome 插件,可要求 AI 生成包含典型文件和功能的简单示范项目,并讲解每个文件的作用和程序运行的逻辑。
    • 如果使用 o1-mini,可在提示词最后添加“请生成 create.sh 脚本,运行脚本就能直接创建插件所需要的所有文件。请教我如何运行脚本。”(Windows 机器则是 create.cmd),勤勉的 o1-mini 会生成代码并给出提示,方便一次性生成多个目录和文件。
  2. 明确项目需求
    • 通过与 AI 的对话逐步明确项目需求。
    • 让 AI 像高级且懂技术的产品经理一样向您提问,帮助梳理产品功能,尤其注意涉及技术方案选择的关键点,一问一答,由全局到细节逐步梳理。
    • 让 AI 帮助梳理出产品需求文档,在后续开发中每次新起聊天时将文档发给 AI 并告知在做的功能点。
  3. 逐步学习和开发
    • 按照项目规划,学习一个 POC,并将其应用到大项目中,再学一个 POC,再运用。
    • 遇到错误时,复制错误信息和相关代码给 AI 让其找错误并修复。对于可识图的 claude 或 GPT4o,截图、错误信息和代码三件套会很有用。
    • 当 AI 给出错误方案时,可找文档(让 GPT 提供文档链接或问 perplexity)或在 stackoverflow 上找答案(注意回答和评论的日期),然后将其提供给 AI 让其基于这些信息修复,此时它给的指引会更正确且详细。
    • 如有可能,找一位老师傅随时提供支援。

需要注意的是,从去年三月 GPT4 发布会上一个由手绘草图直接生成网站的 demo 惊艳众人开始,很多人认为程序员工种已进入倒计时,但现实依旧骨感。真正的应用有复杂的特殊需求,代码量也会超出 AI 单次吞吐量,AI 无法直接搞定。对于纯小白,如果需求远比 AI 直出的内容复杂,无法一次性直出,那就需要耐下性子,在 AI 的帮助下一步一步来,并在这个过程中学会一点点编程。

Content generated by AI large model, please carefully verify (powered by aily)

References

超越贪吃蛇——技术纯小白如何用 AI 开发真正的应用

推荐你从一个最最基础的小任务开始让AI先帮你按照best practice写一个say hello的示例程序,并解释每个文件的作用及程序运行的逻辑。这样,你可以通过最基础的绝对不会出错的小任务,来学会必备的调试技能。“我在学习写chrome插件。请选择最适合小白上手的技术栈,按照best practice为我生成一个简单的示范项目,但要包含尽可能全面的典型文件和功能。请为我讲解每个文件的作用和程序运行的逻辑。”此处要求AI按照best practice来写非常重要:文件一开始就有良好的组织,后续功能复杂了才不会乱套。还有一个偷懒小妙招:如果你用的是o1-mini,你可以在prompt最后添加这句:“请生成create.sh脚本,运行脚本就能直接创建插件所需要的所有文件。请教我如何运行脚本。”(如果windows机器则是create.cmd)足够勤勉的的o1-mini会为你生成一段超级长的代码,并给出提示,你只需要复制粘贴并执行,一次性生成十多个目录和文件,超方便。[heading2][heading1]2明确项目需求[content]你可以通过和AI的对话,来逐步明确项目需求。(如果你是训练有素的产品经理,可以忽略这一步)“我想要开发一个XXX。你能否像一个高级别的还懂技术的产品经理指导初级产品经理那样,向我提问,帮我梳理清产品功能,尤其要注意可能会涉及到技术方案选择的关键点。请一问一答,帮我由全局到细节逐步梳理。不要一口气问我太多问题。”来来回回的对话后,你可以让AI帮助你梳理出产品需求文档。这样的文档会包含影响技术方案选择的细节,比直接给AI一段口头的需求描述要准确地多。在后续开发的时候每次新起一个聊天就把文档发给AI并告知你现在在做第几点功能,会非常方便。[heading2]

超越贪吃蛇——技术纯小白如何用 AI 开发真正的应用

从去年三月GPT4发布会上一个由手绘草图直接生成网站的demo惊艳众人开始,很多人就认为程序员工种已进入倒计时。最近cursor和o1的出现,更是让非技术同学们热切期盼:是不是真的能再也不“就差一个程序员”了呀!很遗憾,现实依旧骨感。demo还停留在贪吃蛇,太小巧也太普通。真正的应用会有复杂得多的特殊需求,代码量也会超出AI单次吞吐量,AI根本无法直接搞定。(o1?o1的能力确实强了很多,但其实还是不够。后面找机会另写文章详解吧。)如果你请教号称“我不懂编程但靠XX开发了XXX”的技术小白该如何开始,多半会得知他们多少还是懂一些css或python。而纯小白,一开始通过cursor里的对话创建好起始文件后,往往会无从下手——到底要在哪里敲什么字符,才能触发一连串美妙的tab让AI开始自动工作?对于纯小白来说,如果你的需求远比AI直出的内容复杂,无法一次性直出。那就耐下性子,在AI的帮助下一步一步来,并在这个过程中学会一点点编程。[heading2]

超越贪吃蛇——技术纯小白如何用 AI 开发真正的应用

接下来就是真正的实践了。按照项目规划,学习一个POC,将其应用到大项目中;再学一个POC,再运用……当遇到错误的时候,复制错误信息,复制相关的代码,扔给AI让它找错误并修复。如果用可以识图的claude或GPT4o,截图+错误信息+代码三件套会非常好用。听上去简单,但其实坑非常非常多。例如开发chrome插件,现在应该开发manifest v3的版本(v2很快就不再支持了),但即便和AI反复强调要用v3里的功能,AI还是有可能会给你v2的代码,并且在出错后给出的修复也还是混杂了v2的方案。没办法,谁让它就是根据概率来的呢。这种时候,更有效的方式是:找文档(你可以让GPT给你文档链接,或者问perplexity),或者去stackoverflow上找答案(注意回答和评论的日期)。然后,把文档或找到的答案提供给AI,让它基于这些信息再来帮你修复。这时候,它给的指引会是正确的、且比stackoverflow的详细很多。当然在这一步,如果有可能,你还是找一个老师傅随时为你提供支援。[heading2]

Others are asking
如何让企业微信可以接上 AI?让我的企业微信号变成一个 AI 客服
要让企业微信接上 AI 并变成一个 AI 客服,可以参考以下内容: 1. 基于 COW 框架的 ChatBot 实现方案:这是一个基于大模型搭建的 Chat 机器人框架,可以将多模型塞进微信(包括企业微信)里。张梦飞同学写了更适合小白的使用教程,链接为: 。 可以实现打造属于自己的 ChatBot,包括文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等功能,以及常用开源插件的安装应用。 正式开始前需要知道:本实现思路需要接入大模型 API 的方式实现(API 单独付费)。 风险与注意事项:微信端因为是非常规使用,会有封号危险,不建议主力微信号接入;只探讨操作步骤,请依法合规使用,大模型生成的内容注意甄别,确保所有操作均符合相关法律法规的要求,禁止将此操作用于任何非法目的,处理敏感或个人隐私数据时注意脱敏,以防任何可能的滥用或泄露。 支持多平台接入,如微信、企业微信、公众号、飞书、钉钉等;多模型选择,如 GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等等;多消息类型支持,能处理文本、语音和图片,以及基于自有知识库进行定制的企业智能客服功能;多部署方法,如本地运行、服务器运行、Docker 的方式。 2. DIN 配置:先配置 FastGpt、OneAPI,装上 AI 的大脑后,可体验知识库功能并与 AI 对话。新建应用,在知识库菜单新建知识库,上传文件或写入信息,最后将拥有知识库能力的 AI 助手接入微信。
2025-05-09
围棋AI
围棋 AI 领域具有重要的研究价值和突破。在古老的围棋游戏中,AI 面临着巨大挑战,如搜索空间大、棋面评估难等。DeepMind 团队通过提出全新方法,利用价值网络评估棋面优劣,策略网络选择最佳落子,且两个网络以人类高手对弈和 AI 自我博弈数据为基础训练,达到蒙特卡洛树搜索水平,并将其与蒙特卡洛树搜索有机结合,取得了前所未有的突破。在复杂领域 AI 第一次战胜人类的神来之笔 37 步,也预示着在其他复杂领域 AI 与人类智能对比的进一步突破可能。此外,神经网络在处理未知规则方面具有优势,虽然传统方法在处理象棋问题上可行,但对于围棋则困难重重,而神经网络专门应对此类未知规则情况。关于这部分内容,推荐阅读《这就是 ChatGPT》一书,其作者备受推崇,美团技术学院院长刘江老师的导读序也有助于了解 AI 和大语言模型计算路线的发展。
2025-05-08
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
学AI上钉钉
以下是在钉钉上学 AI 的相关内容: 从 AI 助教到智慧学伴的应用探索: 登录钉钉客户端,在右上角依次选择钉钉魔法棒、AI 助理、创建 AI 助理。进入创建 AI 助理页面后,填写 AI 助理信息,设置完成即可创建成功。 AI 领导力向阳乔木:未提及具体的在钉钉上学 AI 的操作方法。 基于 COW 框架的 ChatBot 实现步骤: 创建应用: 进入,登录后点击创建应用,填写应用相关信息。 点击添加应用能力,选择“机器人”能力并添加。 配置机器人信息后点击发布,发布后点击“点击调试”,会自动创建测试群聊,可在客户端查看。点击版本管理与发布,创建新版本发布。 项目配置: 点击凭证与基础信息,获取 Client ID 和 Client Secret 两个参数。 参考项目,将相关配置加入项目根目录的 config.json 文件,并设置 channel_type:"dingtalk",注意运行前需安装依赖。 点击事件订阅,点击已完成接入,验证连接通道,会显示连接接入成功。 使用:与机器人私聊或将机器人拉入企业群中均可开启对话。
2025-04-19
AI术语解释
以下是一些常见的 AI 术语解释: Agents(智能体):一个设置了一些目标或任务,可以迭代运行的大型语言模型。与大型语言模型在像 ChatGPT 这样的工具中的通常使用方式不同,Agent 拥有复杂的工作流程,模型本质上可以自我对话,无需人类驱动每一部分的交互。属于技术范畴。 ASI(人工超级智能):尽管存在争议,但通常被定义为超越人类思维能力的人工智能。属于通识范畴。 Attention(注意力):在神经网络的上下文中,有助于模型在生成输出时专注于输入的相关部分。属于技术范畴。 Bias(偏差):AI 模型对数据所做的假设。“偏差方差权衡”是模型对数据的假设与给定不同训练数据的模型预测变化量之间必须实现的平衡。归纳偏差是机器学习算法对数据的基础分布所做的一组假设。属于技术范畴。 Chatbot(聊天机器人):一种计算机程序,旨在通过文本或语音交互模拟人类对话。通常利用自然语言处理技术来理解用户输入并提供相关响应。属于通识范畴。 CLIP(对比语言图像预训练):由 OpenAI 开发的 AI 模型,用于连接图像和文本,使其能够理解和生成图像的描述。属于技术范畴。 TPU(张量处理单元):谷歌开发的一种微处理器,专门用于加速机器学习工作负载。属于技术范畴。 Training Data(训练数据):用于训练机器学习模型的数据集。属于技术范畴。 Transfer Learning(迁移学习):机器学习中的一种方法,其中对新问题使用预先训练的模型。属于技术范畴。 Validation Data(验证集):机器学习中使用的数据集的子集,独立于训练数据集和测试数据集。用于调整模型的超参数(即架构,而不是权重)。属于技术范畴。 Knowledge Distillation(数据蒸馏):数据蒸馏旨在将给定的一个原始的大数据集浓缩并生成一个小型数据集,使得在这一小数据集上训练出的模型,和在原数据集上训练得到的模型表现相似。在深度学习领域中被广泛应用,特别是在模型压缩和模型部署方面。可以帮助将复杂的模型转化为更轻量级的模型,并能够促进模型的迁移学习和模型集成,提高模型的鲁棒性和泛化能力。属于技术范畴。 RAG(检索增强生成):检索增强生成。属于技术范畴。 Forward Propagation(前向传播):在神经网络中,输入数据被馈送到网络并通过每一层(从输入层到隐藏层,最后到输出层)以产生输出的过程。网络对输入应用权重和偏差,并使用激活函数生成最终输出。属于技术范畴。 Foundation Model(基础模型):在广泛数据上训练的大型 AI 模型,旨在适应特定任务。属于技术范畴。 GAN(通用对抗网络):一种机器学习模型,用于生成类似于某些现有数据的新数据。使两个神经网络相互对抗:一个“生成器”,创建新数据,另一个“鉴别器”试图将数据与真实数据区分开来。属于技术范畴。 Generative AI/Gen AI(生成式 AI):AI 的一个分支,专注于创建模型,这些模型可以根据现有数据的模式和示例生成新的原创内容,例如图像、音乐或文本。属于通识范畴。 GPU(图形处理单元):一种特殊类型的微处理器,主要用于快速渲染图像以输出到显示器。在执行训练和运行神经网络所需的计算方面也非常高效。属于产品范畴。
2025-04-18
AI阅读习惯养成APP
以下是为您提供的关于 AI 阅读习惯养成的相关内容: AI 稍后读助手的设计思路: 1. 简化“收集”: 实现跨平台收集功能,支持电脑(web 端)、安卓、iOS 多端操作。 输入一个 URL 即可完成收集,借鉴微信文件传输助手的方式,通过聊天窗口输入更符合用户习惯。 2. 自动化“整理入库”: 系统在入库时自动整理每条内容的关键信息,包括标题、摘要、作者、发布平台、发布日期、收集时间和阅读状态。 阅读清单支持跨平台查看,提高可访问性。 3. 智能“选择”推荐: 根据当前收藏记录和用户阅读兴趣进行相关性匹配,生成合适的阅读计划。 同在字节生态中的 Coze、飞书、飞书多维表格可以构建完整的 AI 工作流:通过飞书机器人与 Coze 搭建的智能体对话,在聊天窗口完成链接输入和阅读计划输出;由 Coze 调用大模型、插件完成内容整理和推荐;利用飞书多维表格存储和管理稍后读数据,无需开发插件和 APP 即可实现跨平台的稍后读收集与智能阅读计划推荐。 关于 DeepSeek R1 的纯强化学习: DeepSeek R1 引入纯强化学习(RL),不依赖大量人类标注数据,通过自我探索和试错学习。在“冷启动”阶段,通过少量人工精选的思维链数据初步引导,建立符合人类阅读习惯的推理表达范式,随后主要依靠强化学习,在奖励系统反馈下(对结果准确率与回答格式进行奖励)自主探索推理策略,不断提升回答准确性,实现自我进化。准确率奖励用于评估最终答案是否正确,格式奖励强制结构化输出,让模型把思考过程置于<think></think>标签之间。如 Alpha Zero 只训练三天就完胜 Alpha Go Lee,Alpha Go 结合监督学习和强化学习,受人类局限,Alpha Zero 纯强化学习,具有创造性风格。大模型 AI 在纯强化学习下展现出超出想象的成长潜力,DeepSeek R1 更注重学习推理底层策略,培养通用推理能力,实现跨领域知识迁移运用和推理解答。
2025-03-28
如何使用AI创作APP
以下是使用 AI 创作 APP 的一些方法和技巧: 1. 利用设计平台参考:不用语言描述界面样式,可在设计平台如站酷(国内)、Dribbble 和 Layers(海外)找喜欢的设计稿并上传图片让模型参考,重点描述静态图片无法表现的部分。 2. 引用在线图片:让模型生成界面时,若页面缺少图片,可要求其引用开源图片网站 unsplash 中的图片来填充需要图片的部分。 3. 引用在线图标库:对于页面中本该是图标的地方,可要求模型引用在线的图标库,如 Font Awesome 或 Material Icons,使界面更简洁整齐。 4. 优化前端样式代码:考虑 CSS 样式的美观度要求。 此外,对于 Cursor 及 MCP 的使用: 1. Cursor Rules:简单来说是为 Cursor 做角色定位,允许开发者设置特定指导原则和行为模式。首先设置通用规则,点击界面右上角小齿轮图标,在 cursor settings 中找到 Rules,将文本拷贝到 User Rules 后关闭页面。当涉及更专业开发时,可在特定项目中寻找或生成更专业的 Cursor Rules。 2. 制作第一个小作品:设置好 Cursor Rules 后,在右侧对话框中输入项目(可口语化),使用 claude3.7 模型等待代码生成,点击 Accept all 使代码生效,跟 AI 说运行项目,点击提示的 Run command 跳转到预览页面。若项目有问题,可让 AI 进一步美化。
2025-03-23
哪个APP或大模型写公文比较好
目前在写公文方面,以下是一些相关的信息: 大模型工具推荐:chatGPT 4.0、kimichat、智谱清言 4。 飞书文档带有文本纠错功能。 但对于专门用于写公文的 APP ,上述内容中未明确提及。
2025-03-21
推荐一些好用的文字转APP产品原型设计工具
以下为您推荐一些好用的文字转 APP 产品原型设计工具: 1. 即时设计:https://js.design/ 这是一款可在线使用的“专业 UI 设计工具”,为设计师提供更加本土化的功能和服务,相较于其他传统设计工具,更注重云端文件管理、团队协作,并将设计工具与更多平台整合,一站搞定全流程工作。 2. V0.dev:https://v0.dev/ Vercel Labs 推出的 AI 生成式用户界面系统。每个人都能通过文本或图像生成代码化的用户界面,它基于 Shadcn UI 和 Tailwind CSS 生成复制粘贴友好的 React 代码。 3. Wix:https://wix.com/ Wix 是一款用户友好的 AI 工具,可让您在没有任何编码知识的情况下轻松创建和自定义自己的网站,提供广泛的模板和设计供您选择,以及移动优化和集成电子商务功能等功能。Wix 建站工具通过拖放编辑、优秀模板和 250 多种 app,能帮助不同领域的用户创建所有种类的网站。 4. Dora:https://www.dora.run/ 使用 Dora AI,可以通过一个 prompt,借助 AI 3D 动画,生成强大网站。支持文字转网站,生成式 3D 互动,高级 AI 动画。 请注意,以上内容由 AI 大模型生成,请仔细甄别。您可以在版块里找到更多推荐的网站。
2025-03-12
不能用APP思维、传统数字平台思维去做大模型创业和人工智能创业,二者在底层逻辑和商业模式等方面完全不同
大模型创业和人工智能创业与 APP 思维、传统数字平台思维在底层逻辑和商业模式等方面存在显著差异。大模型和人工智能创业更注重数据的深度处理、算法的优化创新以及对复杂问题的解决能力。相比之下,APP 思维通常侧重于用户界面和功能的设计,以满足特定的用户需求;传统数字平台思维则更多关注平台的搭建和用户流量的获取与运营。在大模型和人工智能领域,技术的突破和创新是关键,需要投入大量资源进行研发,并且要面对更高的技术门槛和不确定性。而 APP 和传统数字平台的创业相对更侧重于市场推广和用户体验的优化。总之,不能简单地用 APP 思维和传统数字平台思维来指导大模型和人工智能创业。
2025-03-07
我是一个新手小白,帮构思一下关于如何学习AI的PPT .要求有包括豆包,AI数字人,KIMI,灵犀,如影,剪映,即梦等APP学习技术。都带上APP网址
以下是为您构思的关于如何学习 AI 的 PPT 大纲: 幻灯片 1:封面 标题:如何学习 AI 幻灯片 2:目录 1. AI 辅助 PPT 的原理和作用 2. 几款 PPT 生成工具(网站) 3. 相关 APP 介绍 幻灯片 3:AI 辅助 PPT 的原理和作用 1. 减轻排版工作的压力 2. 生成打底的内容,减轻人写内容的工作 3. 文章生成 PPT,让 AI 帮忙摘要内容,生成大纲列表 4. 主题生成 PPT,让 AI 根据主题扩充成大纲列表,乃至具体内容 5. 在特定场景下不用改直接用,如学生快速为小组展示配 PPT 幻灯片 4:AI 辅助 PPT 的流程 1. 用户输入 2. AI 输出 3. 排版 网站把 AI 输出的文本丢给 LLM,让它根据内容,在已有的 UI 组件中选择更适合的组件。按时间线,每页 PPT 的文字,选出整个 PPT 中,每一页的 UI 组件。有的网站,如 tome、gamma,配图也是由 GenAI 根据页面内容生成的。呈现 AI 生成的 PPT 结果,用户不满意可以自行选择模版 幻灯片 5:几款 PPT 生成工具(网站) 1. 讯飞智文:https://zhiwen.xfyun.cn/ (免费引导好) 2. Mindshow.fun :http://Mindshow.fun (Markdown 导入) 3. kimi.ai :http://kimi.ai (选 PPT 助手暂时免费效果好) 4. Tome.app :http://Tome.app (AI 配图效果好) 5. Chatppt.com :http://Chatppt.com (自动化程度高) 6. 百度文库:https://wenku.baidu.com (付费质量好) 幻灯片 6:相关 APP 介绍 1. 豆包 2. AI 数字人 3. KIMI 4. 灵犀 5. 如影 6. 剪映(图文成片,只需提供文案,自动配图配音) 7. 即梦 希望以上内容对您有所帮助!
2025-03-05
stable video diffusion开发
以下是关于 Stable Video Diffusion 开发的相关信息: SVD 介绍: 简介:Stable Video Diffusion 是 Stability AI 于 2023 年 11 月 21 日发布的视频生成式大模型,用于高分辨率、先进的文本到视频和图像到视频生成的潜在视频扩散模型。它支持多种功能,用户可调整多种参数,但对硬件要求较高,支持的图片尺寸较小,应用场景受限。 模型版本:开源了两种图生视频的模型,一种能生成 14 帧的 SVD,另一种是可以生成 25 帧的 SVDXL,发布时通过外部评估超越了人类偏好研究中领先的封闭模型。 主要贡献:提出系统的数据管理工作流程,将大量未经管理的视频集合转变为高质量数据集;训练出性能优于现有模型的文本到视频和图像到视频模型;通过特定领域实验探索模型中运动和 3D 理解的强先验,预训练的视频扩散模型可转变为强大的多视图生成器,有助于克服 3D 领域数据稀缺问题。 部署实战避坑指南: 直接使用百度网盘里准备好的资源,可规避 90%的坑。 若一直报显存溢出问题,可调低帧数或增加 novram 启动参数。 云部署实战中,基础依赖模型权重有两个 models–laion–CLIPViTH14laion2Bs32Bb79K 和 ViTL14.pt,需放到指定路径下。 总结: Sora 发布后,此前的视频生成模型相形见绌,但 Stable Video Diffusion 作为开源项目可在自己机器上自由创作无需充值。SVD 生成的视频画质清晰,帧与帧过渡自然,能解决背景闪烁和人物一致性问题,虽目前最多生成 4 秒视频,与 Sora 的 60 秒差距大,但在不断迭代。我们会持续关注其技术及前沿视频生成技术,尝试不同部署微调方式,介绍更多技术模型,更多精彩内容后续放出。 同时,您还可以加入「AIGCmagic 社区」群聊交流讨论,涉及 AI 视频、AI 绘画、Sora 技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群。
2025-04-15
stable diffusion开发公司
Stable Diffusion 是由初创公司 StabilityAI、CompVis 与 Runway 合作开发的。其核心技术来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach。该项目的技术基础主要来自于他们之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型(Latent Diffusion Model)研究。 Stable Diffusion 是一种基于潜在扩散模型(Latent Diffusion Models)的文本到图像生成模型,能够根据任意文本输入生成高质量、高分辨率、高逼真的图像。其原理包括使用新颖的文本编码器(OpenCLIP)将文本输入转换为向量表示,利用扩散模型将随机噪声图像逐渐变换为目标图像,在扩散过程中以文本向量和噪声图像作为条件输入给出变换的概率分布,最后使用超分辨率放大器将生成的低分辨率图像放大到更高分辨率。 Stable Diffusion 总共有 1B 左右的参数量,可以用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等丰富的任务。在文生图任务中,将一段文本输入到模型中,经过一定迭代次数输出符合文本描述的图片;图生图任务则在输入文本基础上再输入一张图片,模型根据文本提示对输入图片进行重绘。输入的文本信息通过 CLIP Text Encoder 模型编码生成与文本信息对应的 Text Embeddings 特征矩阵,用于控制图像生成。源代码库为 github.com/StabilityAI/stablediffusion ,当前版本为 2.1 稳定版(2022.12.7),其代码模型权重已公开发布,可以在大多数配备有适度 GPU 的电脑硬件上运行。
2025-04-15
runway的开发公司
Runway 是由一家总部位于旧金山的 AI 创业公司开发的。其在 2023 年初推出的 Gen2 代表了当前 AI 视频领域最前沿的模型。目前 Runway 支持在网页(https://runwayml.com/ )、iOS 访问,网页端目前支持 125 积分的免费试用额度(可生成约 105s 视频),iOS 则有 200 多,两端额度貌似并不同步。
2025-04-15
stable diffusion开发公司
Stable Diffusion 是由初创公司 Stability AI、CompVis 与 Runway 合作开发的。其核心技术来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach。该项目的技术基础主要来自于他们之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型(Latent Diffusion Model)研究。 Stable Diffusion 是一种基于潜在扩散模型(Latent Diffusion Models)的文本到图像生成模型,能够根据任意文本输入生成高质量、高分辨率、高逼真的图像。其原理包括使用新颖的文本编码器(OpenCLIP)将文本输入转换为向量表示,利用扩散模型将随机噪声图像逐渐变换为目标图像,在扩散过程中以文本向量和噪声图像作为条件输入给出变换概率分布,最后使用超分辨率放大器将生成的低分辨率图像放大到更高分辨率。 Stable Diffusion 总共有 1B 左右的参数量,可以用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等丰富的任务。其代码模型权重已公开发布,可以在大多数配备有适度 GPU 的电脑硬件上运行,当前版本为 2.1 稳定版(2022.12.7),源代码库为 github.com/StabilityAI/stablediffusion 。
2025-04-15
对于用cursor来开发,有没有好好用prompt来使cursor变得更加好用
以下是关于如何用 prompt 使 Cursor 变得更好用的相关内容: 在 prompt 方面,Devin 有一个特别有帮助的文档(https://docs.devin.ai/learnaboutdevin/prompting),它会教您什么样的 prompt 在与 Devin 沟通时最有效,比如明确定义成功的标准,如跑通某个测试或访问某个链接能对得上等。将同样的原则应用到 Cursor 中,会发现 Cursor 变得聪明很多,能自主验证任务完成情况并进行迭代。 Cursor 在生成单测方面表现出色。相对 GPT 等工具,Cursor 解决了上下文缺失和难以实现增量更新的问题。它可以向量化整个代码仓库,在生成单测代码时能同时提供目标模块及对应的上下游模块代码,生成结果更精确。例如,使用适当的 Prompt 能返回基于 Vitest 的结果,调整成本较小。 Cursor 支持使用.cursorrules 文件设定项目的系统提示词,针对不同语言可设定不同的 Prompt。@AIChain 花生做了一个 Cursor 插件解决提示语管理问题,可选择不同的.cursorrules 文件,还可从 https://cursor.directory/ 和 https://cursorlist.com/ 寻找提示词。此外,还有一个提示语小技巧,给已有的提示语追加上特定规则,可使模型在搜索资源和思考时默认使用英语,回复转换成中文,或更灵活地根据提问语言进行回复。
2025-04-14
我是一个前端开发人员,在工作中,我可以使用哪些ai工具提效
以下是一些适合前端开发人员在工作中提效的 AI 工具: 1. 辅助编程工具: GitHub Copilot:由 GitHub 联合 OpenAI 和微软 Azure 团队推出,支持多种语言和 IDE,能快速提供代码建议。 通义灵码:阿里巴巴团队推出,提供多种编程辅助能力。 CodeWhisperer:亚马逊 AWS 团队推出,由机器学习技术驱动,实时提供代码建议。 CodeGeeX:智谱 AI 推出的开源免费编程助手,基于 130 亿参数的预训练大模型。 Cody:Sourcegraph 推出的代码编写助手,借助强大的代码语义索引和分析能力。 CodeFuse:蚂蚁集团支付宝团队推出的免费 AI 代码助手。 Codeium:通过提供代码建议等帮助提高编程效率和准确性。 更多辅助编程 AI 产品,可查看:https://www.waytoagi.com/category/65 。每个工具功能和适用场景不同,可根据需求选择。 2. 测试用例生成:AI 在生成测试用例方面具有显著优势,能自动化和智能化生成高覆盖率的测试用例,减少人工编写时间和成本。通过合理应用 AI 工具,可提高测试效率、增强测试覆盖率和发现潜在问题,从而提升软件质量和用户体验。 3. 网页原型图生成工具: 即时设计:https://js.design/ ,可在线使用的「专业 UI 设计工具」,注重云端文件管理和团队协作。 V0.dev:https://v0.dev/ ,Vercel Labs 推出的 AI 生成式用户界面系统,能通过文本或图像生成代码化的用户界面。 Wix: ,用户友好,无需编码知识即可创建和自定义网站,提供广泛模板和设计选择,以及多种功能。 Dora:https://www.dora.run/ ,通过一个 prompt,借助 AI 3D 动画生成强大网站。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-04-14