直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

多模态的AI工具有哪些

回答

以下是一些多模态的 AI 工具:

  • GPT-4V-Act:这是一个多模态 AI 助手,能够模拟人类通过鼠标和键盘进行网页浏览。它可以识别网页上的元素并理解其功能,目的是自动完成一些人工操作任务以提高效率。主要特点包括有限的视觉处理能力、自动标记、鼠标和键盘操作等,但目前存在一些功能暂不支持。
  • Sora:是第一个能够根据人类指令生成长达一分钟视频的模型,标志着在生成式 AI 研究和开发中的重大突破。
  • DiT:能将视频分解为一帧帧图像并逐帧去噪生成流畅连贯的视频,不仅能生成高质量逐帧图像,还能在时间维度上保持一致性。
  • Topview.ai:是一款面向海外市场的多模态转换工具,作为 AI 驱动的营销视频生成工具,可自动实现模态转换,帮助社交媒体达人将素材一键转换为爆款商业短视频。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

Han:基于现有能力项目应用的思考

|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间||-|-|-|-|-|-|-|-|-|-|-|-|-|-||GPT-4V-Act:一个多模态AI助手,能够像人类一样模拟通过鼠标和键盘进行网页浏览。|基于AI的能力+项目目标人群+服务内容类型=以后互联网项目产品的原型设计自动化生成的效果会更符合用户使用习惯,同时以后广告位的出现的位置和时机,频率也更有效果。|AI学习模型|它可以模拟人类浏览网页时的行为,如点击链接、填写表单、滚动页面等。<br>它通过视觉理解技术识别网页上的元素,就像人眼一样,能够“看到”按钮、文本框、图片等,并理解它们的功能和用途。<br>这个工具的目的是让AI能够自动完成一些需要人工操作的任务,从而提高工作效率,帮助人们更容易地使用各种网页界面。|主要特点:<br>1、视觉处理:能够处理视觉信息,但支持程度有限。<br>2、自动标记:使用JS DOM自动标记器为UI元素分配数字ID,支持COCO数据格式的导出。<br>3、鼠标和键盘操作:能够执行点击和输入字符操作。<br>4、特殊键码输入:目前还不支持输入特殊键码(如回车、页面上移、页面下移)。<br>5、其他功能:滚动、提示用户提供更多信息、记住与任务相关的信息等功能也尚未支持。|工作原理:<br>GPT

Sora:大型视觉模型的背景、技术、局限性和机遇综述 【官方论文】

自2021年以来,AI领域的一个重要焦点是能够解释人类指令的生成式语言和视觉模型,即多模态模型。例如,CLIP[18]是一种开创性的视觉-语言模型,它将变压器架构与视觉元素相结合,使其能够在大量的文本和图像数据集上进行训练。通过从一开始就整合视觉和语言知识,CLIP可以在多模态生成框架中充当图像编码器。另一个值得注意的例子是Stable Diffusion[19],这是一个多才多艺的文本到图像AI模型,以其适应性和易用性而受到赞誉。它采用变压器架构和潜在扩散技术来解码文本输入,并生成各种风格的图像,进一步展示了多模态AI的进步。随着2022年11月ChatGPT的发布,我们在2023年见证了商业文本到图像产品的出现,如Stable Diffusion[19]、Midjourney[20]、DALL-E 3[21]。这些工具使用户能够用简单的文本提示生成高分辨率和高质量的新图像,展示了AI在创意图像生成方面的潜力。然而,从文本到图像过渡到文本到视频由于视频的时间复杂性而具有挑战性。尽管工业界和学术界做出了许多努力,但大多数现有的视频生成工具,如Pika[22]和Gen-2[23],仅限于生成几秒钟的短视频片段。在这种背景下,Sora代表了一个重大突破,类似于ChatGPT在NLP领域的影响。Sora是第一个能够根据人类指令生成长达一分钟的视频的模型,标志着对生成式AI研究和开发产生深远影响的里程碑。为了便于轻松访问最新的视觉生成模型进展,最新的作品已被汇编并提供在附录和我们的GitHub中。

展望2025,AI行业有哪些创新机会? | 峰瑞报告

如果说Diffusion Model是画家,NeRF是建筑师,3DGS是雕塑家,那么DiT就像是电影导演。它将视频分解成一帧帧图像,然后逐帧去噪,从而生成流畅和连贯的视频。DiT在视频表达上的优势不仅在于生成逐帧的高质量的图像,更重要的是它能在时间维度上保持一致性。通俗地说,DiT不仅负责拍好“每一张照片”,还负责把“照片”串成流畅的视频,从而避免传统视频生成算法中容易出现的画面跳动问题。多模态的无限可能在这些解构与重构技术的支持下,AI正在向多模态灵活转换的方向迈进。未来的多模态生成技术不仅可以将文本转换成图像、将图像转换成文字,还可以实现更多模态之间的无缝衔接。需要强调的是,“模态”这一概念不仅限于前述的几种类型或格式,还可以进一步扩展。例如,AlphaFold 3能够生成蛋白质的三维结构,Notebook LLM将文档转换为两人对话形式的播客,这些都属于模态转换的范畴。多模态在医疗保健、交通、教育、营销和娱乐等领域具有广泛的应用前景。例如,在医疗领域,AI可以结合医学图像、临床记录和实验室测试结果,提供更准确的诊断和治疗建议。在营销领域,峰瑞资本投资的特看科技面向海外市场推出Topview.ai,这是一款多模态转换工具。作为AI驱动的营销视频生成工具,它可以自动实现模态转换,帮助社交媒体达人将输入的提示词或者商品详情页链接等素材,一键转换为爆款商业短视频。Topview.ai利用AI分析热门营销视频的脚本和画面,解构其结构和模式。通过将这些数据输入大型语言模型和多模态模型进行微调,形成一个简便易用的AI视频生成工具。

其他人在问
如何让企业微信可以接上 AI?让我的企业微信号变成一个 AI 客服
要让企业微信接上 AI 并变成一个 AI 客服,可以参考以下内容: 1. 基于 COW 框架的 ChatBot 实现方案:这是一个基于大模型搭建的 Chat 机器人框架,可以将多模型塞进微信(包括企业微信)里。张梦飞同学写了更适合小白的使用教程,链接为: 。 可以实现打造属于自己的 ChatBot,包括文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等功能,以及常用开源插件的安装应用。 正式开始前需要知道:本实现思路需要接入大模型 API 的方式实现(API 单独付费)。 风险与注意事项:微信端因为是非常规使用,会有封号危险,不建议主力微信号接入;只探讨操作步骤,请依法合规使用,大模型生成的内容注意甄别,确保所有操作均符合相关法律法规的要求,禁止将此操作用于任何非法目的,处理敏感或个人隐私数据时注意脱敏,以防任何可能的滥用或泄露。 支持多平台接入,如微信、企业微信、公众号、飞书、钉钉等;多模型选择,如 GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等等;多消息类型支持,能处理文本、语音和图片,以及基于自有知识库进行定制的企业智能客服功能;多部署方法,如本地运行、服务器运行、Docker 的方式。 2. DIN 配置:先配置 FastGpt、OneAPI,装上 AI 的大脑后,可体验知识库功能并与 AI 对话。新建应用,在知识库菜单新建知识库,上传文件或写入信息,最后将拥有知识库能力的 AI 助手接入微信。
2025-05-09
围棋AI
围棋 AI 领域具有重要的研究价值和突破。在古老的围棋游戏中,AI 面临着巨大挑战,如搜索空间大、棋面评估难等。DeepMind 团队通过提出全新方法,利用价值网络评估棋面优劣,策略网络选择最佳落子,且两个网络以人类高手对弈和 AI 自我博弈数据为基础训练,达到蒙特卡洛树搜索水平,并将其与蒙特卡洛树搜索有机结合,取得了前所未有的突破。在复杂领域 AI 第一次战胜人类的神来之笔 37 步,也预示着在其他复杂领域 AI 与人类智能对比的进一步突破可能。此外,神经网络在处理未知规则方面具有优势,虽然传统方法在处理象棋问题上可行,但对于围棋则困难重重,而神经网络专门应对此类未知规则情况。关于这部分内容,推荐阅读《这就是 ChatGPT》一书,其作者备受推崇,美团技术学院院长刘江老师的导读序也有助于了解 AI 和大语言模型计算路线的发展。
2025-05-08
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
Ai在设备风控场景的落地
AI 在设备风控场景的落地可以从以下几个方面考虑: 法律法规方面:《促进创新的人工智能监管方法》指出,AI 的发展带来了一系列新的安全风险,如对个人、组织和关键基础设施的风险。在设备风控中,需要关注法律框架是否能充分应对 AI 带来的风险,如数据隐私、公平性等问题。 趋势研究方面:在制造业中,AI Agent 可用于生产决策、设备维护、供应链协调等。例如,在工业设备监控与预防性维护中,Agent 能通过监测传感器数据识别异常模式,提前通知检修,减少停机损失和维修成本。在生产计划、供应链管理、质量控制、协作机器人、仓储物流、产品设计、建筑工程和能源管理等方面,AI Agent 也能发挥重要作用,实现生产的无人化、决策的数据化和响应的实时化。
2025-04-20
ai视频
以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总: 4 月 11 日: Pika 上线 Pika Twists 能力,可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中,结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术,可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术,实现从单张图片快速生成超逼真的 3D 头像,在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage,通过图片生成可自由拼装 3D 场景,再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型,无缝支持各种视频生成任务(文本/图像/视频到视频)。 4 月 9 日: ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下,可生成完整的 1 分钟视频。 4 月 14 日: 字节发布一款经济高效的视频生成基础模型 Seaweed7B。 可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。
2025-04-20
多模态应用
以下是一些多模态应用的案例: 1. 电商领域: 拍立淘:由淘宝推出,用户拍照即可识别商品并直接进入购物页面,简化购物搜索步骤。 探一下:支付宝推出的图像搜索引擎,拍照后 AI 能识别并搜索相关商品或信息。 2. 创意领域: 诗歌相机:拍照能生成一首诗,还能打印,将诗意与现代技术结合,并做成硬件形式。 3. 技术平台: 阿里云百炼大模型平台为企业侧提供各种原子级别能力,包括多模态能力。 4. 其他应用场景: 融图:如把图二中的机器人合成到图一的环境中,保持比例、细节、光影和氛围感统一。 小红书风格卡片:使用特定风格生成关于特定内容的卡片。 Logo 转 3D 效果:将图标改成 3D 立体、毛玻璃、毛绒等效果。 示意图转卡通漫画:把示意图转成幼儿园小朋友能看懂的漫画并配中文说明。 遥感理解(图像数据):识别图中的建筑物并用色块标注。 包装图直出效果:生成图片对应的包装侧面效果图。 参考生成海报图:参考小红书封面生成 PPT 设计相关封面图。 三维建模模拟:将图片转化为 3D max 建模渲染界面并加入 UI 界面。 手办三视图:保留人物样貌、神态,制作成特定要求的 3D 手办三视图。
2025-04-18
多模态是什么,
多模态指多数据类型交互,能够提供更接近人类感知的场景。大模型对应的模态包括文本、图像、音频、视频等。 随着生成式 AI 和大模型的发展,我们逐渐进入多模态灵活转换的新时代,即能用 AI 实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换,这一变革依靠一系列革新性的算法。 在感知不同模态数据时,AI 借助高维向量空间来理解,不再局限于传统的单一模态处理方式,将图像或文字“压缩”成抽象的向量,捕捉深层关系。 Gemini 模型本身就是多模态的,展示了无缝结合跨模态的能力,在识别输入细节、聚合上下文以及在不同模态上应用等方面表现出强大性能。
2025-04-13
多模态Agent最新动态
以下是关于多模态 Agent 的最新动态: 《质朴发言:视觉语言理解模型的当前技术边界与未来应用想象|Z 研究第 2 期》 近期,生成式 AI 领域的浪潮催化了多模态模型的探索,研究人员不断尝试使用更多模态数据的编码,以训练出能够理解和处理多种类型数据的模型。本份研究报告集中讨论了基于 Transformer 架构的视觉语言模型,报告范围专注于视觉和语言之间的交互,不考虑单纯的视觉到视觉的计算机视觉任务。 从 2022 年 11 月 18 日到 2023 年 7 月 26 日,多模态 Agents 迅速增长。 LLM 多模态 agent 是将现有技术融合的新尝试,是一种集成了多种模态数据处理能力的 AI 技术。 优点:高度的灵活性和扩展性,可根据不同任务需求调用最合适的模型处理任务,适应多样化任务和数据类型,优化资源使用,提升效率;无需训练,系统开发周期快,成本低。 局限性:调试和工程化难度较高,维护和升级成本高;多个组件紧密耦合,单点故障可能导致整个系统风险增加;没有涌现出新的能力。 适用场景:需要综合处理视频、语音和文本等多种信息的复杂环境,如自动驾驶汽车;高度交互和灵活的用户界面,如客户服务机器人或交互式娱乐应用。 《2024 年度 AI 十大趋势报告》 随着大模型对图像和视频信息的处理能力快速提升,预计 2025 年将开始出现更为综合性的多模态交互,AI 能够通过物联网、特定信息等多种感知通道进行协同。 多模态输入和输出使 AI 交互性更强、交互频次更高,适用场景也更加丰富,AI 产品整体水平显著提升。 Agent 作为融合感知、分析、决策和执行能力的智能体,能够根据用户历史行为和偏好,主动提供建议、提醒并个性化执行能力,为用户提供高度个性化的任务。从 2025 年开始,AI Agent 即将广泛投入使用。 从个性化推荐到直接生成个性化内容,AIGC 能够使用户体验的个性化程度有明显提升,这将帮助产品进一步完善用户体验,并通过提高用户忠诚度和迁移成本,实现差异化定价和进一步的服务增值,对产品的差异化竞争有重大意义。目前,基于 AIGC 的高度个性化已经在 AI 教育、AI 陪伴、AI 营销领域有明显进展。在硬件端搭载的多款 AI 智能助手也已开始以高度个性的个人助理作为宣传重点。
2025-03-31
Qwen 多模态模型哪一个最顶?
目前阿里发布的 Qwen 多模态模型中,Qwen2.5VL 较为突出。它可处理长达数小时的视频,并在电脑上执行自动化任务。提供 3B、7B、72B 三种规模,旗舰版对标 GPT4o、Claude 3.5 Sonnet。具备全文档解析能力,支持手写、表格、图表、化学公式等多场景识别,还可操作电脑或手机界面,执行自动化任务,如点击按钮、填表等。详情可参考:https://www.xiaohu.ai/c/xiaohuai/qwen25vl285cee 。此外,Qwen2.5Max 也是阿里通义千问的大型专家模型(MoE),基于 SFT 和 RLHF 策略训练,在多项基准如 Arena Hard、LiveBench、LiveCodeBench、GPQADiamond 上超越 DeepSeek V3,引发社区关注。更多体验方式包括支持官方 Chat、API 接口、Hugging Face Demo 等,详情可参考:https://qwenlm.github.io/blog/qwen2.5max/ 、https://chat.qwenlm.ai 、https://alibabacloud.com/help/en/modelstudio/gettingstarted/firstapicalltoqwen?spm=a2c63.p38356.helpmenu2400256.d_0_1_0.1f6574a72ddbKE 、https://huggingface.co/spaces/Qwen/Qwen2.5MaxDemo 。
2025-03-25
如何构建多模态知识库?
构建多模态知识库可以参考以下步骤: 1. 图像知识库方面:通过多模态的能力对图片信息进行检索理解。效果测试时,上传一张图片,在图像数据库里找到相关信息,然后结合内容进行回复。 2. 构建图片索引: 新建结构化数据表时,将图片索引所在列的字段类型设置为 link。需注意新建数据表后,无法再新增或修改字段类型为 link。 创建结构化知识库时,对于需要建立图片索引的 link 类型字段,在旁边的下拉列表中选择图片。创建知识库后,无法再新建或修改图片索引。 3. 多模态知识库还包括构建图片型索引需结构化数据表,字段类型设置为 link,以实现 FAQ 中向用户推送图片信息。
2025-03-19
多模态达模型排行
以下是一些常见的多模态模型排行及相关信息: 1. 智谱·AI 开源模型: CogAgent18B:基于 CogVLM17B 改进的开源视觉语言模型,拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,在 CogVLM 功能基础上具备 GUI 图像的 Agent 能力。代码链接:。 CogVLM17B:强大的开源视觉语言模型(VLM),在多模态权威学术榜单上综合成绩第一,在 14 个数据集上取得了 stateoftheart 或者第二名的成绩。代码链接:。 Visualglm6B:开源的支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM6B,具有 62 亿参数;图像部分通过训练 BLIP2Qformer 构建起视觉模型与语言模型的桥梁,整体模型共 78 亿参数。代码链接:。 2. Gemini 模型:Gemini Ultra 在表 7 中的各种图像理解基准测试中都是最先进的,在回答自然图像和扫描文档的问题,以及理解信息图表、图表和科学图解等各种任务中表现出强大的性能。在 zeroshot 评估中表现更好,超过了几个专门在基准训练集上进行微调的现有模型,适用于大多数任务。在 MMMU 基准测试中取得了最好的分数,比最先进的结果提高了 5 个百分点以上,并在 6 个学科中的 5 个学科中超过了以前的最佳结果。 3. 多模态思维链提示方法:Zhang 等人(2023)提出了一种多模态思维链提示方法,多模态 CoT 模型(1B)在 ScienceQA 基准测试中的表现优于 GPT3.5。
2025-03-18
根据简历,模拟面试的工具
以下是一些根据简历进行模拟面试的工具: 1. Kimi 新出的常用语功能中有“【🎤面试模拟】”,它可以作为私人面试 mock 伙伴,根据简历信息和求职岗位进行模拟面试。 2. 通过让 ChatGPT 接入 Siri 可以模拟前端电话面试。具体操作是首先按照特定文章接入,然后在手机上唤起 ChatGPT 版本的 Siri 并设定身份和对话目的,如让其作为一位来面试的前端高级开发工程师,接着依次提问。 3. ChatGPT 可以更高效地辅助复习面试,您可以把问题给到 ChatGPT 让它帮您生成答案,并展示 demo 和解释,帮助您更好地掌握知识。相关文档在线地址:https://xzfeinterview.gitbook.io/feinterview/readme
2025-04-18
作为一个想要使用AI工具提升工作效率的AI小白,我已经学习了怎么编写prompt,接下来我应该学习什么
如果您已经学习了如何编写 prompt ,接下来可以学习以下内容: 1. 理解 Token 限制:形成“当前消耗了多少 Token”的自然体感,把握有效记忆长度,避免在超过限制时得到失忆的回答。同时,编写 Prompt 时要珍惜 Token ,秉承奥卡姆剃刀原理,精简表达,尤其是在连续多轮对话中。 熟练使用中英文切换,若 Prompt 太长可用英文设定并要求中文输出,节省 Token 用于更多对话。 了解自带方法论的英文短语或句子,如“Chain of thought”。 2. 学习精准控制生成式人工智能:重点学习提示词技术,编写更清晰、精确的指令,引导 AI 工具产生所需结果。 探索构建智能体(AI Agents),将工作单元切割开,赋予其特定角色和任务,协同工作提高效率。 在实际应用中遵循准则,如彻底变“懒人”、能动嘴不动手、能让 AI 做的就不自己动手、构建自己的智能体、根据结果反馈调整智能体、定期审视工作流程看哪些部分可用更多 AI 。 3. 若想进一步提升: 学习搭建专业知识库、构建系统知识体系,用于驱动工作和个人爱好创作。 注重个人能力提升,尤其是学习能力和创造能力。 您还可以结合自身生活或工作场景,想一个能简单自动化的场景,如自动给班级孩子起昵称、排版运营文案、安排减脂餐、列学习计划、设计调研问卷等。选一个好上手的提示词框架开启第一次有效编写,比如从基础的“情境:”开始。
2025-04-15
那些ai工具可以world转pdf
以下是一些可以将 Word 转换为 PDF 的 AI 工具: 1. DeepL(网站):点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件):安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 3. Calibre(电子书管理应用):下载并安装 calibre,并安装翻译插件「Ebook Translator」。 4. 谷歌翻译(网页):使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 5. 百度翻译(网页):点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。 6. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 内容由 AI 大模型生成,请仔细甄别。
2025-04-15
作图的ai工具
以下是一些常见的作图 AI 工具: 绘制软件架构视图(逻辑视图、功能视图、部署视图)的工具: Lucidchart:流行的在线绘图工具,支持多种图表创建,有拖放界面方便创建架构图。 Visual Paradigm:全面的 UML 工具,提供多种架构视图创建功能。 ArchiMate:开源建模语言,与 Archi 工具配合可创建逻辑视图。 Enterprise Architect:强大的建模、设计和生成代码工具,支持多种架构视图创建。 Microsoft Visio:广泛使用的图表和矢量图形应用程序,有丰富模板。 draw.io(diagrams.net):免费在线图表软件,支持多种视图创建。 PlantUML:文本到 UML 转换工具,可通过描述文本生成逻辑视图相关图表。 Gliffy:基于云的绘图工具,支持创建架构图。 Archi:免费开源工具,用于创建 ArchiMate 和 TOGAF 模型。 Rational Rose:IBM 的 UML 工具,支持逻辑视图和部署视图创建。 绘制 CAD 图的工具: CADtools 12:Adobe Illustrator 插件,添加绘图和编辑工具。 Autodesk Fusion 360:集成 AI 功能的云端 3D CAD/CAM 软件。 nTopology:基于 AI 的设计软件,帮助创建复杂 CAD 模型。 ParaMatters CogniCAD:基于 AI 的 CAD 软件,自动生成 3D 模型。 主流 CAD 软件(如 Autodesk 系列、SolidWorks 等)中的生成设计工具。 此外,Controlnet 的作者 lllyasviel(张吕敏)在 Github 上发布了全新的开源 AI 绘画工具 Fooocus,可像 Stable diffusion WebUI 一样部署到本地免费使用,且有类似 midjourney 的便捷操作界面。
2025-04-15
装修设计可以使用哪些AI工具
以下是一些可用于装修设计的 AI 工具: 1. 酷家乐装修设计软件:利用图像生成和机器学习技术,为用户提供装修设计方案,用户可根据喜好选择和调整。 2. CADtools 12:Adobe Illustrator 插件,为 AI 添加 92 个绘图和编辑工具,包括图形绘制、编辑、标注、尺寸标注、转换、创建和实用工具。 3. Autodesk Fusion 360:集成了 AI 功能的云端 3D CAD/CAM 软件,能创建复杂几何形状和优化设计。 4. nTopology:基于 AI 的设计软件,可创建复杂 CAD 模型,包括拓扑优化、几何复杂度和轻量化设计等。 5. ParaMatters CogniCAD:基于 AI 的 CAD 软件,能根据用户输入的设计目标和约束条件自动生成 3D 模型,适用于拓扑优化、结构设计和材料分布等领域。 6. 生成设计工具:一些主流 CAD 软件,如 Autodesk 系列、SolidWorks 等,提供基于 AI 的生成设计工具,可根据输入自动产生多种设计方案。 7. HDAidMaster:云端工具,在建筑、室内和景观设计领域表现出色,搭载自主训练的建筑大模型 ArchiMaster。 8. Maket.ai:面向住宅行业,在户型和室内软装设计方面有探索,能根据输入自动生成户型图。 9. ARCHITEChTURES:AI 驱动的三维建筑设计软件,在住宅设计早期引入标准和规范约束生成的设计结果。 10. Fast AI 人工智能审图平台:形成全自动智能审图流程,将建筑全寿命周期内信息集成,实现数据汇总与管理。 但每个工具都有特定应用场景和功能,建议根据具体需求选择合适的工具。
2025-04-15