Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

3d模型

Answer

以下是关于 3D 模型生成的相关信息: **Tripo AI**: - 文生 3D 模型: - 在「Create」界面底部输入框输入提示词(不支持中文),不会写提示词可点击输入框左侧的</>按钮随机生成并自动填入。 - 填写好提示词后,点击右侧的「Create」生成 3D 模型,每次会生成 4 个基础模型,不满意可点击最下方白色的「Retry」按钮重新生成。 - 若有满意模型,点击单个模型下方黄色的「Refine」精修,在「My Models」中可查看精修进度,一般 5 分钟左右完成。 - 图生 3D 模型: - 点击输入框右侧的图标上传图片生成 3D 模型,一次生成一个基础模型,支持Retry 重生成和 Refine 精修。 **Rodin Gen 1**: - 输入文本后文生图,不满意可重复生成图片,图片满意后点击GENERATING 生成 3D。 - 很快获得一个快速生成的粗模,右上可选择是否对称、是锋利边缘还是光滑边缘、是否简单几何模式。 - 选择后查看模型是否满意,不满意可 redo,满意后选择 confirm 进行下一步,可先选择产出的面数(开始扣积分)。 - 下一步生成材质,可选材质的复杂度以及参考图片的影响,生成后在左边查看,满意点击 confirm。 - 左侧预览区可以选择多种形式查看,模型基本完成后可选择对应的格式规格下载,压缩包里会有 obj 格式和 PBR 材质,也可以发布到 sketchfab。 **工具汇总**: - 从文本生成 3D: - Make-A-Character:一键生成 3D 数字人,可自定义面部特征,生成逼真 3D 角色,基于真实人类扫描数据,使用 Unreal Engine 渲染,支持中英文提示,兼容多个行业应用。链接:https://x.com/xiaohuggg/status/1743986486780076279?s=20 - Rodin Gen-1:拥有 1.5B 参数,可实现 3D-to-3D 生成,生成 3D 模型及物理基础渲染材质,支持 3D LoRA 技术,类似于 Stable Diffusion。链接:https://x.com/xiaohuggg/status/1743638052097184102?s=20 - Skybox AI 0.9 版本更新:可以从文本提示或草图生成 360 度 3D 世界,使用 NeRF 技术,增强图像的空间深度和真实感,提供不同分辨率的 3D 网格下载。链接:https://x.com/xiaohuggg/status/1739926702158225859?s=20 - 扫描物体生成 3D 模型:使用 APP 扫描物体,完成 3D 全貌捕获,创建 AR QR 码,展示物体于任何地点,苹果新品官网展示中应用此技术。链接:https://x.com/xiaohuggg/status/1739259052448944139?s=20
Content generated by AI large model, please carefully verify (powered by aily)

References

Tripo AI入门手册:AI 3D创作,从未如此简单

顾名思义就是用一段文字生成3D模型,仅需1步[Tripo文生教程.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/Qe0YbxHvNoGjQKxIUHkcHuHBnXc?allow_redirect=1)在「Create」界面底部的输入框中,可以输入自己的提示词(此处不支持中文哦)。不会写提示词的伙伴也不用担心,点击输入框左侧的</>按钮可以随机生成提示词并自动填入输出入框中。提示词填写好以后,点击右侧的「Create」来生成3D模型。每次会生成4个基础模型,如果不满意,可以点击最下方白色的「Retry」按钮,重新生成4个基础模型。如果有满意的模型,只需要点击单个模型下方黄色的「Refine」,就可以精修此模型了。在「My Models」中可以看到精修进度,一般5 min左右就可以完成。[heading1]四、图生3D模型[content]顾名思义就是用一张图片生成3D模型,仅需1步[Tripo图生教程.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/IBmxbag9Ho8zARxvcRWcKxRKnif?allow_redirect=1)点击输入框右侧的图标,可以上传图片来生成3D模型。图生3D一次只会生成一个基础模型,同样支持Retry重生成和Refine精修。至于效果嘛,自己体验吧。

Rodin Gen 1:接近生产级别的的3D生成模型

输入文本后会文生图,不满意可重复生成图片,图片满意后即可点击GENERATING生成3D很快你会获得一个快速生成的粗模右上可以选择是否对称、是锋利边缘还是光滑边缘,是否简单几何模式选择后可以查看模型是否满意,不满意可以redo,满意后选择confirm进行下一步,这里可以先选择产出的面数(开始扣积分)完成后下一步是生成材质,可选材质的复杂度以及参考图片的影响生成后,可以在左边查看,满意点击confirm左侧预览区可以选择多种形式查看进行到这里,模型基本就完成了可以选择对应的格式规格下载即可,压缩包里会有以下文件(obj格式+PBR材质)也可以发布到sketchfab

工具汇总:AI生成3D模型工具介绍

2⃣️?Make-A-Character:一键生成3D数字人:-可自定义面部特征,生成逼真3D角色。-基于真实人类扫描数据,使用Unreal Engine渲染。-支持中英文提示,兼容多个行业应用。?https://x.com/xiaohuggg/status/1743986486780076279?s=202⃣️?Rodin Gen-1:3D原生生成模型:-拥有1.5B参数,可实现3D-to-3D生成。-生成3D模型及物理基础渲染材质。-支持3D LoRA技术,类似于Stable Diffusion。?https://x.com/xiaohuggg/status/1743638052097184102?s=203⃣️?Skybox AI 0.9版本更新:可以从文本提示或草图生成360度3D世界。使用NeRF技术,增强图像的空间深度和真实感。提供不同分辨率的3D网格下载。?https://x.com/xiaohuggg/status/1739926702158225859?s=201⃣️?扫描物体生成3D模型:使用APP扫描物体,完成3D全貌捕获。创建AR QR码,展示物体于任何地点。苹果新品官网展示中应用此技术。?https://x.com/xiaohuggg/status/1739259052448944139?s=20

Others are asking
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14