Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

AI在3D制图方面有什么突破吗

Answer

AI 在 3D 制图方面有以下突破:

  • Stability AI 与 Tripo AI 合作发布了 TripoSR,能够将单图在半秒内变为 3D。
  • 生成式 AI 可以为游戏创建 2D 艺术、纹理、3D 模型,并协助关卡设计。在营销中,有望取代库存艺术、产品摄影和插图,且已在网页设计、室内设计和景观设计中有所应用。
  • Diffusion Model 像极具耐心的艺术家,通过逐步去噪实现高质量的图像生成和重构。
  • NeRF 像空间中的建筑师,能把一系列二维图像转化成逼真的三维场景,3DGS 作为三维形状生成领域的重要技术,专注于物体的结构和几何特征,能理解和重构三维物体的形状。在虚拟现实、游戏开发等领域,二者的结合能生成逼真的三维场景和高度定制的三维对象。

您可以通过以下链接获取更多详细信息:

Content generated by AI large model, please carefully verify (powered by aily)

References

Stability AI 与 Tripo AI 合作发布TripoSR:单图半秒变3D!(附论文)

[1864_1709618312.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/Dc6ebOZNNonwSLxA8cvc95KHnBg?allow_redirect=1)官网尝试效果[1874_1709618745.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/KKdjbP08ioKs03xNMD0ch8zEnmf?allow_redirect=1)用这个素材尝试[MJ使用V6制作3D素材](https://waytoagi.feishu.cn/wiki/UdwrwCYFMiHASVkHCWxcXgvpnRe)歸藏看了这个老哥用Midjourney V6生产3D素材,突发奇想,既然V6对中国传统元素的了解很详细,能不能也用来生产中国风3D素材贴图。试了一下居然真可以,这效果也太好了。建模直接照着做就行,要求低可以直接用https://3d.csm.ai/这种网站生成。图像生成是现在视觉媒体生成的绝对上游,上游质量的突破绝对会帮助视频、3D等下游带来巨大突破。https://twitter.com/op7418/status/1738614091349172544提示词模板:

艺术并未消亡,它只是由机器生成

生成性AI可以为[游戏](https://a16z.com/2022/11/17/the-generative-ai-revolution-in-games/)创建2D艺术、纹理、3D模型,并协助关卡设计。在营销中,它看似有望取代库存艺术、产品摄影和插图。我们已经看到它在网页设计、室内设计和景观设计中的应用。我们实际上才刚刚开始。如果一个用例需要创造性地生成内容,那么很难理解为什么生成AI不会颠覆它或至少成为这个流程的一部分。那么,这篇文章的要点是什么呢?尽管它在某种程度上集中于代码生成和图像生成,但我们怀疑这些结果更具普遍性。特别是,全面的创意努力——无论是视觉的、文字的还是音乐的——都可能在系统构建之前就被AI打破。除了我们以上使用的正确性论点外,将所有先前的艺术品组合和重新组合可能足以满足创意输出的实际范围。例如,音乐和电影行业历史上生产了无数流行专辑和电影的仿制品。完全可以想象,生成模型随着时间的推移可能有助于自动化这些功能。然而,Stable Diffusion和DALL-E 2产生的众多图像中引人注目的一点是,它们真的很好,并且真正有趣。可以轻松地设想一个AI模型产生具有吸引力和真实感的电影海报、广告和插图。

展望2025,AI行业有哪些创新机会? | 峰瑞报告

理解了如何“解构”,接下来就是如何“重构”。这是Diffusion Model(扩散模型)、NeRF(神经辐射场)、3DGS(3D高斯溅射)和DiT(扩散Transformer)算法技术能大显身手的地方。* Diffusion Model:逐步去噪的艺术家Diffusion Model像一个极具耐心的艺术家。它从一个充满噪声的图像,一层一层地去掉噪声,最终还原出一张清晰的图像。通过这种去噪生成的方式,Diffusion Model实现了高质量的图像生成和重构。不过,这个过程对人类来说简直不可思议,我们通常是先画轮廓再上色,而Diffusion Model却偏偏反过来:从一片混沌开始,越“去”越清晰,最终完成艺术创作。看到它的成果,人类艺术家可能都得自叹弗如!*NeRF与3DGS:三维世界的建筑师和雕塑家NeRF则更像是一个空间中的建筑师,它可以把一系列二维图像,转化成逼真的三维场景。NeRF的厉害之处在于,它可以从有限的二维图像中推测出场景的三维结构,类似于人类的空间感知。而与NeRF相辅相成的是3DGS(3D高斯喷溅),作为三维形状生成领域的重要技术,它专注于物体的结构和几何特征,能够理解和重构三维物体的形状,类似于“雕塑家”。3DGS通过将三维场景表示为高斯分布的集合,实现高效的渲染和重建。它能够从图像或简单的形状提示中生成精细的三维模型,例如,不仅能生成符合要求的椅子,还能展现出真实、丰富的细节。在虚拟现实、游戏开发等领域,这种建筑师和雕塑家的结合,不仅能生成逼真的三维场景,还能生成高度定制的三维对象。*DiT:视频世界的导演

Others are asking
如何让企业微信可以接上 AI?让我的企业微信号变成一个 AI 客服
要让企业微信接上 AI 并变成一个 AI 客服,可以参考以下内容: 1. 基于 COW 框架的 ChatBot 实现方案:这是一个基于大模型搭建的 Chat 机器人框架,可以将多模型塞进微信(包括企业微信)里。张梦飞同学写了更适合小白的使用教程,链接为: 。 可以实现打造属于自己的 ChatBot,包括文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等功能,以及常用开源插件的安装应用。 正式开始前需要知道:本实现思路需要接入大模型 API 的方式实现(API 单独付费)。 风险与注意事项:微信端因为是非常规使用,会有封号危险,不建议主力微信号接入;只探讨操作步骤,请依法合规使用,大模型生成的内容注意甄别,确保所有操作均符合相关法律法规的要求,禁止将此操作用于任何非法目的,处理敏感或个人隐私数据时注意脱敏,以防任何可能的滥用或泄露。 支持多平台接入,如微信、企业微信、公众号、飞书、钉钉等;多模型选择,如 GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等等;多消息类型支持,能处理文本、语音和图片,以及基于自有知识库进行定制的企业智能客服功能;多部署方法,如本地运行、服务器运行、Docker 的方式。 2. DIN 配置:先配置 FastGpt、OneAPI,装上 AI 的大脑后,可体验知识库功能并与 AI 对话。新建应用,在知识库菜单新建知识库,上传文件或写入信息,最后将拥有知识库能力的 AI 助手接入微信。
2025-05-09
围棋AI
围棋 AI 领域具有重要的研究价值和突破。在古老的围棋游戏中,AI 面临着巨大挑战,如搜索空间大、棋面评估难等。DeepMind 团队通过提出全新方法,利用价值网络评估棋面优劣,策略网络选择最佳落子,且两个网络以人类高手对弈和 AI 自我博弈数据为基础训练,达到蒙特卡洛树搜索水平,并将其与蒙特卡洛树搜索有机结合,取得了前所未有的突破。在复杂领域 AI 第一次战胜人类的神来之笔 37 步,也预示着在其他复杂领域 AI 与人类智能对比的进一步突破可能。此外,神经网络在处理未知规则方面具有优势,虽然传统方法在处理象棋问题上可行,但对于围棋则困难重重,而神经网络专门应对此类未知规则情况。关于这部分内容,推荐阅读《这就是 ChatGPT》一书,其作者备受推崇,美团技术学院院长刘江老师的导读序也有助于了解 AI 和大语言模型计算路线的发展。
2025-05-08
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
Ai在设备风控场景的落地
AI 在设备风控场景的落地可以从以下几个方面考虑: 法律法规方面:《促进创新的人工智能监管方法》指出,AI 的发展带来了一系列新的安全风险,如对个人、组织和关键基础设施的风险。在设备风控中,需要关注法律框架是否能充分应对 AI 带来的风险,如数据隐私、公平性等问题。 趋势研究方面:在制造业中,AI Agent 可用于生产决策、设备维护、供应链协调等。例如,在工业设备监控与预防性维护中,Agent 能通过监测传感器数据识别异常模式,提前通知检修,减少停机损失和维修成本。在生产计划、供应链管理、质量控制、协作机器人、仓储物流、产品设计、建筑工程和能源管理等方面,AI Agent 也能发挥重要作用,实现生产的无人化、决策的数据化和响应的实时化。
2025-04-20
ai视频
以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总: 4 月 11 日: Pika 上线 Pika Twists 能力,可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中,结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术,可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术,实现从单张图片快速生成超逼真的 3D 头像,在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage,通过图片生成可自由拼装 3D 场景,再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型,无缝支持各种视频生成任务(文本/图像/视频到视频)。 4 月 9 日: ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下,可生成完整的 1 分钟视频。 4 月 14 日: 字节发布一款经济高效的视频生成基础模型 Seaweed7B。 可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。
2025-04-20
cad制图的ai工具
以下是一些可以用来画 CAD 图的 AI 工具: 1. CADtools 12:这是一个 Adobe Illustrator 插件,为 AI 添加了 92 个绘图和编辑工具,包括图形绘制、编辑、标注、尺寸标注、转换、创建和实用工具。 2. Autodesk Fusion 360:是 Autodesk 开发的一款集成了 AI 功能的云端 3D CAD/CAM 软件,能帮助用户创建复杂的几何形状和优化设计。 3. nTopology:基于 AI 的设计软件,可帮助用户创建复杂的 CAD 模型,包括拓扑优化、几何复杂度和轻量化设计等。 4. ParaMatters CogniCAD:基于 AI 的 CAD 软件,能根据用户输入的设计目标和约束条件自动生成 3D 模型,适用于拓扑优化、结构设计和材料分布等领域。 5. 生成设计工具:一些主流 CAD 软件,如 Autodesk 系列、SolidWorks 等,提供了基于 AI 的生成设计工具,可根据用户输入的设计目标和约束条件自动产生多种设计方案。 对于 CAD 初学者,建议先学习基本的 3D 建模技巧,然后尝试使用这些 AI 工具来提高设计效率。 关于 AI 生成 CAD 图的相关资料,您可以参考以下几个方面: 1. 学术论文:通过 Google Scholar、IEEE Xplore、ScienceDirect 等学术数据库进行搜索。 2. 专业书籍:查找与 AI 在 CAD 领域相关的专业书籍。 3. 在线课程和教程:参加 Coursera、edX、Udacity 等平台上的 AI 和 CAD 相关课程,在 YouTube 等视频平台上查找教程和演示视频。 4. 技术论坛和社区:加入相关的技术论坛和社区,如 Stack Overflow、Reddit 的 r/AI 和 r/CAD 等,与其他专业人士交流和学习。 5. 开源项目和代码库:探索 GitHub 等开源平台上的 AI 和 CAD 相关项目,例如 OpenAI 的 GPT3、AutoGPT 等 AI 模型在 CAD 设计中的应用。 6. 企业案例研究:研究 Autodesk、Siemens 等公司在 AI 在 CAD 设计中的应用案例。 此外,1 月 25 日的 Xiaohu.AI 日报中提到: 1. AdamCAD:通过简单的语言描述生成复杂的 CAD 图纸,支持直接 3D 打印。适用于工业零部件设计、产品外壳设计以及快速制作 3D 打印原型。 链接: 2. Llasa3B:语音克隆的黑科技
2025-04-10
用AI绘制图表
以下是一些可用于 AI 绘制图表的工具和平台,以及使用步骤和示例: 工具和平台: 1. Creately 简介:在线绘图和协作平台,利用 AI 功能简化图表创建过程,适合绘制流程图、组织图、思维导图等。 功能:智能绘图功能,可自动连接和排列图形;丰富的模板库和预定义形状;实时协作功能,适合团队使用。 官网:https://creately.com/ 2. Whimsical 简介:专注于用户体验和快速绘图的工具,适合创建线框图、流程图、思维导图等。 功能:直观的用户界面,易于上手;支持拖放操作,快速绘制和修改图表;提供多种协作功能,适合团队工作。 官网:https://whimsical.com/ 3. Miro 简介:在线白板平台,结合 AI 功能,适用于团队协作和各种示意图绘制,如思维导图、用户流程图等。 功能:无缝协作,支持远程团队实时编辑;丰富的图表模板和工具;支持与其他项目管理工具(如 Jira、Trello)集成。 官网:https://miro.com/ 4. Lucidchart 简介:强大的在线图表制作工具,集成了 AI 功能,可以自动化绘制流程图、思维导图、网络拓扑图等多种示意图。 功能:拖放界面,易于使用;支持团队协作和实时编辑;丰富的模板库和自动布局功能。 官网:https://www.lucidchart.com/ 5. Microsoft Visio 简介:专业的图表绘制工具,适用于复杂的流程图、组织结构图和网络图。其 AI 功能可以帮助自动化布局和优化图表设计。 功能:集成 Office 365,方便与其他 Office 应用程序协同工作;丰富的图表类型和模板;支持自动化和数据驱动的图表更新。 官网:https://www.microsoft.com/enus/microsoft365/visio/flowchartsoftware 6. Diagrams.net 简介:免费且开源的在线图表绘制工具,适用于各种类型的示意图绘制。 功能:支持本地和云存储(如 Google Drive、Dropbox);多种图形和模板,易于创建和分享图表;可与多种第三方工具集成。 官网:https://www.diagrams.net/ 使用步骤: 1. 选择工具:根据具体需求选择合适的 AI 绘图工具。 2. 创建账户:注册并登录该平台。 3. 选择模板:利用平台提供的模板库,选择适合需求的模板。 4. 添加内容:根据需求,添加并编辑图形和文字。利用 AI 自动布局功能优化图表布局。 5. 协作和分享:如果需要团队协作,可以邀请团队成员一起编辑。完成后导出并分享图表。 示例: 假设需要创建一个项目管理流程图,可以按照以下步骤使用 Lucidchart: 1. 注册并登录:https://www.lucidchart.com/ 2. 选择模板:在模板库中搜索“项目管理流程图”。 3. 编辑图表:根据项目需求添加和编辑图形和流程步骤。 4. 优化布局:利用 AI 自动布局功能,优化图表的外观。 5. 保存和分享:保存图表并与团队成员分享,或导出为 PDF、PNG 等格式。 利用这些 AI 工具,您可以快速、高效地创建专业的示意图,满足各种工作和项目需求。请注意,内容由 AI 大模型生成,请仔细甄别。
2025-03-18
如何利用ai进项数据分析并制图
利用 AI 进行数据分析并制图可以参考以下步骤: 1. 明确数据需求和目标:确定您想要分析的数据内容和期望得到的图表类型,例如柱状图、饼图等。 2. 数据准备:确保数据的准确性和完整性,查看数据列名是否与预期一致。 3. 选择合适的 AI 工具:如一些具备数据分析和绘图功能的软件或平台。 4. 分析数据:对数据进行深入研究,例如将多选答案进行合理拆分和统计。 5. 生成图表:根据分析结果,使用 AI 工具生成相应的图表,并注意图表的标题、标签和字体等显示效果。 6. 调整和优化:如果生成的图表不符合要求,需要进一步调整和优化,如重新分析数据、选择不同的图表类型等。 在实际操作中,例如在“教师的 AI 减负指南生成式人工智能在教学中的应用”中,对于“此前您是否使用过生成式 AI 大语言模型?”这样的问题,可以统计不同选择的次数并绘制柱状图或饼图。对于“AI 助教在以下哪些方面对您的学习有帮助?”这样的多选问题,需要将答案合理拆分后进行统计和制图。 在 AI 绘图方面,如参加相关比赛,需要明确创作主题,确定主体,增加叙事感,注意图片的构图、色彩和光影等构成因素,合理运用构图方式,如点中心构图、九宫格构图等。推荐在 AI 绘图中使用中景及以上景别。
2025-03-18
如何用AI制图
以下是关于如何用 AI 制图的相关内容: 一、AI 绘图工具推荐 1. Creately 简介:在线绘图和协作平台,利用 AI 功能简化图表创建过程,适合绘制流程图、组织图、思维导图等。 功能:智能绘图功能,可自动连接和排列图形;丰富的模板库和预定义形状;实时协作功能,适合团队使用。 官网:https://creately.com/ 2. Whimsical 简介:专注于用户体验和快速绘图的工具,适合创建线框图、流程图、思维导图等。 功能:直观的用户界面,易于上手;支持拖放操作,快速绘制和修改图表;提供多种协作功能,适合团队工作。 官网:https://whimsical.com/ 3. Miro 简介:在线白板平台,结合 AI 功能,适用于团队协作和各种示意图绘制,如思维导图、用户流程图等。 功能:无缝协作,支持远程团队实时编辑;丰富的图表模板和工具;支持与其他项目管理工具(如 Jira、Trello)集成。 官网:https://miro.com/ 二、使用 AI 绘制示意图的步骤 1. 选择工具:根据具体需求选择合适的 AI 绘图工具。 2. 创建账户:注册并登录该平台。 3. 选择模板:利用平台提供的模板库,选择适合需求的模板。 4. 添加内容:根据需求,添加并编辑图形和文字。利用 AI 自动布局功能优化图表布局。 5. 协作和分享:如果需要团队协作,可以邀请团队成员一起编辑。完成后导出并分享图表。 此外,还有关于 AI 绘图的其他相关内容: 1. AI 梦一丹一世界比赛要求说明:参加由麦乐园和摩达社区发起的比赛,须用摩搭平台和麦橘超然模型作为底膜训练 Lora,提交训练好的 Lora 及用其生成的六张以上高质量、展现完整世界观的作品。 2. 作图思路分享:作图分三步,一是明确创作主题即锚点,根据 Lora 风格确定创作方向;二是确定主体,联想主体的角色设定;三是增加叙事感,让画面有一到两个及以上角色,制造反差和联想。 3. 图片构成因素:好看的图片的构成因素包括构图、色彩以及光影。 4. 创作有趣作品:通过运用反差制造有冲击力的画面,创作出有叙事感和趣味性的作品。 5. 构图的介绍与分析:构图指在框架或空间内元素的摆放位置、形状、物体形状及纹理等,好的构图能引导观看者并创造和谐平衡。构图分类包括景别(远景、全景、中景、近景、特写)和拍摄视角(俯视、平视、仰视,正面、侧面、背面)。构图要素有主体、陪体、前景、背景、点线面,合理运用可丰富画面。构图方式如点中心构图、九宫格构图、三分法构图、对称构图、对角线构图、曲线构图、框架构图、三角形构图等。在 AI 绘图中,推荐中景及以上景别,全身景别可能需开 AD 跳以确保作图质量。 6. AI 作图的创作方法与实操演示:趣味性通过反差、反逻辑、超现实方式带来视觉冲击,美感需在美术基础不出错前提下形式与内容结合。纹身图创作要点强调人机交互,对输出图片根据想象进行二次和多次微调,确定情绪、风格等锚点再发散联想。提示词编写方法用自然语言详细描述画面内容,避免废话词,Flux 对提示词的理解和可控性强。实操演示准备以未发布的 Lora 为例,按赛题需求先确定中式或日式怪诞风格的创作引子。人物创作过程从汉服女孩入手,逐步联想其颜色、发型、妆容、配饰、表情、背景等元素编写提示词。 7. 关于中式风格图像生成的讨论:包括人物图像生成、动物图像生成、景观图像生成等方面的尝试和分析。
2025-03-16
中文可用的ai制图
以下是一些中文可用的 AI 制图工具及使用步骤: 1. Creately 简介:在线绘图和协作平台,利用 AI 功能简化图表创建过程,适合绘制流程图、组织图、思维导图等。 功能:智能绘图功能,可自动连接和排列图形;丰富的模板库和预定义形状;实时协作功能,适合团队使用。 官网:https://creately.com/ 2. Whimsical 简介:专注于用户体验和快速绘图的工具,适合创建线框图、流程图、思维导图等。 功能:直观的用户界面,易于上手;支持拖放操作,快速绘制和修改图表;提供多种协作功能,适合团队工作。 官网:https://whimsical.com/ 3. Miro 简介:在线白板平台,结合 AI 功能,适用于团队协作和各种示意图绘制,如思维导图、用户流程图等。 功能:无缝协作,支持远程团队实时编辑;丰富的图表模板和工具;支持与其他项目管理工具(如 Jira、Trello)集成。 官网:https://miro.com/ 使用 AI 绘制示意图的步骤: 1. 选择工具:根据具体需求选择合适的 AI 绘图工具。 2. 创建账户:注册并登录该平台。 3. 选择模板:利用平台提供的模板库,选择适合需求的模板。 4. 添加内容:根据需求添加并编辑图形和文字,利用 AI 自动布局功能优化图表布局。 5. 协作和分享:若需要团队协作,可邀请团队成员一起编辑。完成后导出并分享图表。 此外,还有以下相关信息: AI 作图的创作方法与实操演示:趣味性可通过反差、反逻辑、超现实方式带来视觉冲击,美感需在美术基础不出错前提下形式与内容结合。纹身图创作要强调人机交互,对输出图片根据想象进行二次和多次微调,确定情绪、风格等锚点再发散联想。以魔法少女为例,发散联想其服饰、场景、相关元素等,并可采用反逻辑反差方式。提示词编写要用自然语言详细描述画面内容,避免废话词,Flux 对提示词的理解和可控性强。实操演示准备按赛题需求先确定中式或日式怪诞风格的创作引子,从汉服女孩入手,逐步联想其颜色、发型、妆容、配饰、表情、背景等元素编写提示词。还包括人物、动物、景观图像生成的讨论。 美图 WHEe 推出中文 AI 海报生成工具:支持文字可编辑图层,用户可拖动文字位置、更改字体并控制排版。内置模板,操作简单,适合小白与专业用户,效率提升显著。目前仍在内测中,支持体验申请。官网:http://whee.com 内测申请:https://oc.meitu.com/whee/5924/index.html 原推文:https://x.com/imxiaohu/status/1881235335595872470
2025-03-06
如何控制图生图的形象和动作呢
要控制图生图的形象和动作,可以参考以下方法: 1. 使用 ControlNet 插件: 姿态约束类预处理器:包含了所有人物信息的预处理器,可将图片发送到图生图,通过“缩放后留白”和提高重绘幅度改变背景,再次发送到图生图使用 ControlNet 中 tile 模型细化,最后使用 SD 放大插件。 自定义动作骨架:在【扩展】【加载扩展列表】中搜索【posex】安装插件,或将插件文件夹拷贝至指定目录,确保软件是最新版本并重启。重启后点击“将图片发送至 ControlNet”,可通过拖动鼠标左键旋转视角、中键缩放视角、右键拖动视角,玩坏了可点击重置镜头和动作。 2. 参考风格 reference:首先进入文生图,填写提示词生成一张图。然后将图片拖入到 ControlNet 中,预处理器选择 reference only,控制模型选择“均衡”,保真度数值越高对图片的参考越强。可以通过添加关键词的方式来改变人物的服装、表情、动作等。 3. 利用 ControlNet 控制姿势:大模型和关键词正常填写生成想要的小姐姐照片,接着鼠标滑到最下面点击“ControlNet”,上传指定姿势的照片并点击“启用”,在“预处理器”和“模型”里选择“openpose”,点击“预览预处理结果”,最后点击生成照片。
2025-02-28
大模型技术突破
大模型技术在以下方面取得了突破: 1. 语言翻译方面: 突破了传统翻译模型的局限,大幅提升了翻译质量,为翻译技术的广泛应用带来机遇。 能够通过深度的上下文分析,理解语言背后的真正含义,适应不同语境,避免词不达意、语境脱节的问题,精准捕捉并传达原文意图,尤其在处理隐喻、习语或文化特征的文本时表现出色。 能生成更加流畅、自然且地道的翻译,接近母语水平,保持原文的语言风格和情感色彩,更具亲和力和感染力。 具有强大的适应性,能够根据不同的翻译场景灵活调整策略,在多场景翻译中表现得更具灵活性和精准度。 能够深入理解语言背后的文化内涵,避免因文化差异导致的误解或偏差,在专业领域能提供更加专业且符合行业标准的翻译结果。 2. 在 OpenAI o1 方面: 带来了自我反思与错误修正能力,能意识到之前犯错并自动进行修正,对于长链条思考及解决复杂任务非常重要,相当于越过了锁住大模型能力的很高的门槛。
2025-04-14
2025年4月以来有什么突破性的ai技术?
以下是 2025 年 4 月以来的一些突破性 AI 技术及相关进展: 在图片和超短视频的精细操控方面,包括表情、细致动作以及视频与文字的匹配有了新的突破。 有一定操控能力的生成式短视频在风格化和动漫风方面最先成熟,真人风格稍晚。 AI 音频能力有长足进展,带感情的 AI 配音基本成熟。 “全真 AI 颜值网红”出现,可以稳定输出视频并直播带货。 游戏 AI NPC 有里程碑式进展,出现新的游戏生产方式。 AI 男/女朋友聊天基本成熟,在记忆方面有明显突破,能较好模拟人的感情,产品加入视频音频,粘性提升并开始出圈。 实时生成的内容开始在社交媒体内容、广告中出现。 AI Agent 有明确进展,办公场景“AI 助手”开始有良好使用体验。 2025 年 4 月的具体进展包括: 真格基金的戴雨森认为,AI 时代即将迎来各行业的“李世石时刻”。OpenAI 的 o1 和 DeepSeek 的 R1 模型分别在后训练和开源创新方面展现了强大潜力,推动了强化学习的应用。 马斯克在最新演讲中警告 AI 可能只是为取悦企业而非追求真相,并强调教育中 AI 的个性化应用将深远影响学习。他预测特斯拉 Robotaxi 将在 6 月实现完全自动驾驶,同时期待神经连接技术能帮助失明者重见光明。 此外,《人工智能指数报告 2025》(AI Index Report 2025)由斯坦福大学人工智能研究院(HAI)发布,报告涵盖了 AI 在技术性能、经济影响、政策治理、教育、公众舆论、科学与医学等多个维度的最新进展。关键发现包括:AI 技术性能持续突破,在新设立的高难度基准测试上表现大幅提升;AI 日益融入日常生活,如 FDA 批准的 AI 医疗设备增多,自动驾驶服务扩展;企业全面拥抱 AI,美国私营 AI 投资增加,使用 AI 的企业比例上升;中美 AI 竞争加剧,美国主导 AI 模型数量,中国模型在质量上迅速追赶;负责任 AI(RAI)发展不均。报告地址:https://hai.stanford.edu/aiindex/2025aiindexreport 。
2025-04-13
人工智能生成内容(AIGC)的突破、对齐及产业培育,感悟
以下是关于人工智能生成内容(AIGC)的突破、对齐及产业培育的感悟: 一、原理与概念 1. 人工智能(AI):是一种目标,让机器展现智慧,简称 AI。 2. 生成式人工智能(GenAI):目标是让机器产生复杂有结构的内容,简称 GenAI。 3. 机器学习:一种手段,让机器自动从资料中找到公式,包括监督学习、无监督学习、强化学习。 监督学习:有标签的训练数据,学习输入和输出之间的映射关系,包括分类和回归。 无监督学习:学习的数据没有标签,算法自主发现规律,如聚类。 强化学习:从反馈里学习,最大化奖励或最小化损失,类似训小狗。 4. 深度学习:一种更厉害的手段,参照人脑有神经网络和神经元(因有很多层所以叫深度),神经网络可用于多种学习方式。 5. 大语言模型(LLM):是一类具有大量参数的“深度学习”模型。 6. ChatGPT:是 AIGC 技术的一个应用实例,是美国 OpenAI 公司开发的基于大型语言模型的对话机器人,能根据用户输入生成连贯且相关的文本回复。 二、AIGC 的特点与应用 AIGC 是利用人工智能技术生成内容的新型生产方式,包括文本、图像、音频和视频等内容。其技术可用于多种应用,如自动撰写新闻文章、生成艺术画作、创作音乐、制作视频游戏内容等。 三、相关概念的关系与区别 AGI、GenAI、AIGC 几个概念有所区别与联系,具体可参考相关图示。更多概念可问 Kimi、通义千问、文心一言等大模型。 四、技术里程碑 2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型,它完全基于自注意力机制处理序列数据,不依赖于循环神经网络或卷积神经网络。
2025-03-01
突破deepseek r1
DeepSeek R1 是一款具有震撼性突破的 AI 模型,由一家纯粹的中国公司开发。其突破之处包括: 1. 强大:具有比肩 O1 的推理能力,暂时无出其右。 2. 便宜:参数少,训练开销与使用费用大幅降低。 3. 开源:任何人都可自行下载与部署,提供论文详细说明训练步骤与窍门,还有可运行在手机上的 mini 模型。 4. 免费:官方提供的服务完全免费,任何人随时随地可用。 5. 联网:是暂时唯一支持联网搜索的推理模型(O1 尚不支持)。 6. 本土:由没有海外经历甚至没有资深从业经验的本土团队开发完成。 如果您看到相关信息,您可以采取以下行动: 1. 直接访问网页链接或使用移动 APP 马上用起来。 2. 使劲用、疯狂用,尝试用它基本取代传统搜索,把各种需要请教的问题都拿去问它。 3. 去看看别人是怎么用的,试试其他大模型,了解 AI 擅长和不擅长的方面,以及如何调教,继续解锁与迭代属于自己的用法与更多工具。 获取字节火山 DeepSeek 系列 API 的完整教程及使用方法如下: 1. 2 月 14 日 8 点直播进行中:火山引擎解决方案专家带大家在 Coze 搭建满血版 R1 bot,直播结束可看回放:。 2. 学习文档:。 3. 模板更新了: 可以复制。 使用时的注意事项: 如果发布到公共空间,其他人用的是您的 API,要注意 Token 消耗(也可以设置成仅自己使用)。如果想搭建联网及复杂的工作流,可以看完整搭建教程:。创建账号时,如果是普通账号,请自行升级或注册专业号后使用。创建智能体时,点击创建,先完成一个智能体的创建。如果在最上面的教程里已经创建好自己的推理点,那么直接在 Bot 编排里就可以直接看到和选择创建好的推理模型,测试可用后直接发布。
2025-02-23
近6个月ai有什么较大的突破
在近 6 个月,AI 有以下较大的突破: 1. 在人工智能行业,过去 12 个月里流量增长显著。从 2022 年 9 月到 2023 年 8 月,研究的工具访问量从 2.418 亿次增长到 28 亿次,增长了 10.7 倍。其中,最近 6 个月每月平均流量为 33 亿。这一飞跃从去年 11 月 ChatGPT 成为最快达到 100 万用户的平台开始,2023 年 5 月达到峰值约 41 亿。 2. 在医疗保健领域,尽管像 ChatGPT 等产品反映的技术突破显著,但也强调了其不足。例如 GPT4 在美国医学执照考试中超过及格分数 20 分,但在各方面表现并非都出色。 3. 企业对生成式 AI 的资源配置和态度发生显著变化。过去几个月,企业对生成式 AI 的预算几乎增加两倍,更多应用部署在较小的开源模型上,更多业务从早期实验转移到生产环境中。
2025-01-20
通用人工智能技术取得显著突破,中美竞争加剧
以下是为您整理的相关内容: 2024 年 7 月 1 日: 微软 AI CEO Mustafa Suleyman 在阿斯彭思想节上表示,AI 的发展将持续对社会产生深远影响。他强调中美在技术竞争中应该寻求合作,而不仅仅是竞争。在谈到监管时,他认为监管并非邪恶,历史上技术都曾被成功监管。对于 AGI(通用人工智能),他认为应该认真对待与之相关的安全风险,并建立全球治理机制。 小伙伴整理了关于阿里 D20 的 PPT,内容主要是 AI 在设计、教育、出海方向上的内容。 举办了 AI 切磋大会,共 12 地小伙伴线下参与,一起 AI 出图、出视频、做音乐等,动手实践,享受创造的乐趣,目标是让每个人都能玩转 AI。 2024 年 11 月 6 日: 李开复在采访中表达了对 AGI(通用人工智能)霸权的担忧,指出如果美国形成 AGI 垄断,将对全球科技生态产生深远影响。他认为,中国在研发廉价模型和推理引擎方面具备优势,尽管技术上可能落后,但在应用和落地速度上可与美国竞争。他强调,追求 AGI 的同时,中国应寻找另一条生态护城河的发展路径,确保多样化应用和更广泛的市场参与。 作者艾木三号提到,Geoffrey Hinton 强调词嵌入是理解自然语言的关键,通过将文字符号转化为向量,模型能进行有效的信息编码和推理。类比能力使得模型能够发现不同事物间的共同结构,从而展现创造力。
2025-01-14
如果你是一个AI领域的专家,我有个问题关于应用AI来学习的:假设我有一个网上的课程,然后我把这个网上的课程全部视频都下载下来,然后输入给AI,让AI来学习,如果以后我问AI关于这方面的问题的话,AI能像课程老师一样思考,来回答我的问题吗
以下是关于您提问的相关内容: AI 的学习方式与人类有相似之处,也有不同之处。在医疗保健领域,为产生真正的改变,AI 应像人类一样学习。成为某个领域顶尖人才通常从多年密集信息输入开始,如正规学校教育和学徒实践,通过面对面学习获取书本外的信息。对于 AI 来说,当前学习方式及技术人员对待方式存在问题,应通过堆叠模型训练,而非仅依靠大量数据和生成模型。例如先训练生物学、化学模型,再添加特定数据点。开发具有潜在空间层次结构的堆叠 AI 模型,能反映对基本元素的理解和预测能力,可能会平行于人类教育范例发展,也可能专门发展出新型专业知识。创建特定领域的专家 AI 可能比全能 AI 更容易,且需要多个专家 AI 提供多样意见。同时,应让 AI 接触现实世界互动,避免复制危险偏见。但不能因恐惧传播人类偏见而限制探索 AI 帮助民主化人类专家知识的意愿。 然而,您所提到的将网上课程视频全部下载输入给 AI 让其学习,然后期望它像课程老师一样回答问题,目前的技术和情况还不能完全保证实现。AI 的学习和回答能力取决于其训练数据、模型结构和算法等多种因素。
2025-04-13
有没有很对汽车三维建模方面的AI应用 介绍介绍
以下是一些与汽车三维建模相关的 AI 应用: Vibe Draw:可以根据草图进行 3D 建模。 PhysTwin:能够通过视频创建交互式物理数字孪生。 GroomLight:用于重打光的人体头发外观建模的混合逆向渲染。
2025-04-11
有没有很对汽车三维建模方面的AI应用 介绍介绍
以下是一些与汽车三维建模相关的 AI 应用: Vibe Draw:可以根据草图进行 3D 建模。 PhysTwin:能够通过视频创建交互式物理数字孪生。 GroomLight:用于重打光的人体头发外观建模的混合逆向渲染。
2025-04-11
目前的大模型ai工具中 你觉得文本处理 写作这方面那个工具最强 最像人
目前在大模型 AI 工具中,对于文本处理和写作方面,以下是一些相关信息: 生成式人工智能的工作原理:在整体的人工智能领域,监督学习用于标记事物,一直占据很大比例。现在生成式 AI 快速崛起,强化学习与无监督学习也是重要工具。生成式 AI 由监督学习技术搭建,大语言模型使用监督学习不断预测下一个词语来生成文本,这需要大量数据。 大语言模型的应用:运用大语言模型写故事、修改文本很有用,但它可能编造故事产生错误信息,需要鉴别信息准确。网络搜索与大语言模型的区别在于网络搜索可追寻信息来源,大语言模型能提供建议与策略。 写作方面:使用大模型工具如 LLM 来写作,集思广益、头脑风暴非常有用。网页版聊天时提供更多信息,翻译也可使用 LLM,但其效果受网络文本量影响。 推荐的大模型工具:chatGPT 4.0、kimichat、智谱清言 4 等。一些国产模型如智谱和文心可以文生图。 相关工具:除了 Snapbox 外,还有 OpenCAT 等类似工具可供选择。有多种文本处理与总结工具,如 kimi 网页总结助手、ChatHub 等,以及翻译插件与 AI 对话插件、沉浸式翻译插件等。Memo Al 可以对音频视频进行转文字、字幕翻译、语音合成等,并由多种 AI 模型提炼内容精华总结、生成思维导图。 综合来看,不同的大模型工具在文本处理和写作方面各有特点,难以简单地确定哪一个最强、最像人,具体取决于您的需求和使用场景。
2025-04-01
minimax侧重在哪些方面
MiniMax 侧重在以下几个方面: 1. 语音技术: 快速克隆:仅需 10 秒音频即可克隆语音,智能情感系统精准捕捉细腻情感变化。 多维预置语音:提供 300+语音选项,支持 17 种语言(不断扩展),涵盖口音、性别、年龄、风格等。 专业音效:支持房间音效、电话滤镜,输出接近录音室级别。 2. 通用人工智能: 成立于 2021 年 12 月,是通用人工智能时代基础设施建设者和内容应用创造者。 拥有文本、语音、视觉多种模态融合的通用大模型引擎能力并打通产品全链路。 自研了整套端到端 AGI 引擎系统。 3. 团队组成:核心技术研发成员均来自全球知名高校和全球顶尖科技公司,拥有世界顶尖自然语言处理、语音、计算机视觉、计算机图形学等工业界和学术界经验,拥有多项全球领先的人工智能领域研究成果,具有上百个全球发明专利,1/3 的团队成员拥有世界顶尖技术实验室的博士学位。 相关链接: 免费试用: API 平台:
2025-03-28
详细讲解一下ragflow框架,同时对比一下ragflow与常规知识库有什么优势,在graphrag的实现方面ragflow又是怎么做的?
RAG(检索增强生成)是一种有效的解决方案,下面为您详细讲解: RAG 工作流程: 1. 检索(Retrieval):如同在图书馆中,系统会从知识库或文档集合中找出与用户问题相关的内容。 2. 增强(Augmented):对检索到的信息进行筛选和优化,挑出最相关和有用的部分。 3. 生成(Generation):将整合的信息生成自然流畅、易于理解的回答。 RAG 类似于一个超级智能的图书馆员,综合起来: 1. 检索:从庞大知识库中找到相关信息。 2. 增强:筛选优化确保找到最相关部分。 3. 生成:整合信息给出连贯回答。 RAG 的优势: 1. 成本效益:相比训练和维护大型专有模型,实现成本更低。 2. 灵活性:能利用多种数据源,包括结构化和非结构化数据,迅速适应不同领域和变化的数据。 3. 可扩展性:随时增加或更新知识库内容,无需重新训练模型。 RAG 与常规知识库的对比优势: 常规知识库可能存在知识更新不及时、数据来源单一等问题。而 RAG 能够从多种数据源获取信息,并且可以根据用户的实时需求进行检索和优化,生成更贴合需求的回答。 在 GraphRAG 的实现方面,目前提供的内容中未明确提及相关具体实现方式。 同时需要注意的是,RAG 也存在一些缺点,比如相比于专有模型的方案,回答准确性可能不够。
2025-03-28