与知识库对话 - WayToAGI

直达「通往AGI之路」飞书知识库 →

首页/全部问答

VIT模型是什么

VIT 模型是视觉变压器（Vision Transformer）模型。在计算机视觉领域，在深度学习革命之前，传统图像生成技术依赖手工制作特征，能力有限。生成对抗网络、变分自编码器等的引入是重要转折点，后续如流模型、扩散模型等进一步提高了图像生成质量。过去十年，生成式计算机视觉模型发展多样，在自然语言处理中成功应用的变压器架构被引入计算机视觉，如视觉变压器（ViT）和 Swin 变压器。 Zhai 等人展示了有足够训练数据的 ViT 模型的性能计算前沿大致遵循（饱和）幂律。谷歌研究提出了高效稳定训练 22B 参数 ViT 的方法，使用冻结模型产生嵌入，然后在顶部训练薄层可实现出色性能。在语音合成方面，VITS（Variational Inference with adversarial learning for endtoend TexttoSpeech）是一种结合变分推理、标准化流和对抗训练的高表现力语音合成模型。与 Tacotron 和 FastSpeech 不同，VITS 直接将字符或音素映射为波形，不需要额外声码器重建波形，是真正的端到端语音合成模型。它通过隐变量而非之前的频谱串联语音合成中的声学模型和声码器，利用随机时长预测器提高合成语音的多样性，输入同样文本能合成不同声调和韵律的语音，合成音质较高，还可借鉴 FastSpeech 单独对音高等特征建模以提升质量，是非常有潜力的语音合成模型。

如何通过AGI，生成有一定操控能力的风格化、动漫风生成式短视频，如何做，几个步骤

以下是生成有一定操控能力的风格化、动漫风生成式短视频的步骤： 1. 项目规划：确定短视频的主题和目标观众，制定详细的制作计划。 2. 剧本创作：编写故事脚本，设计角色和场景以及创意。可参考相关剧本创作资料，如：https://waytoagi.feishu.cn/wiki/G11fwW8bmiVLe6kYLgYc2iGin6e ；捏剧本 Bot（捏剧本离谱村专用 https://www.coze.cn/store/bot/7367669913697239052?panel=1&bid=6cs144r404016 。 3. 分镜头脚本：根据脚本制作分镜头脚本，确定每个镜头的画面和动作。 4. 资源准备：准备动画制作所需的素材，包括背景、角色和音效。 5. 画面图片制作：利用 AI 出图工具，比如通过 ChatGPT、MJ、SD 等工具快速生成高质量的图片。 6. 视频制作：利用 AI 工具制作动画，通过 RUNWAY、Luma、Dreamina 等平台快速生成高质量的动画。 7. 后期剪辑：添加音效、配音和字幕，进行最终的剪辑和合成。 8. 发布和推广：将完成的动画短片发布到各大平台，并进行推广和宣传。此外，在实际制作中，还可以参考一些成功案例，如山西文旅宣传片的制作，运用 Defense 及 SD 制作黄河长城等 AI 艺术字；为陕西文旅做的 40 秒黑神话悟空风格 AI 短片，用 SD 结合 Control Lite 处理钟楼等。郑州 AI 文旅片工作流总体分为分镜脚本、单帧图片制作、图片细节修复与生成视频、视频风格化处理、剪辑合成五个步骤。

如何通过AGI，生成有一定操控能力的风格化、动漫风生成式短视频

目前关于通过 AGI 生成有一定操控能力的风格化、动漫风生成式短视频，以下是一些相关信息： 2024 年内，有一定操控能力的生成式短视频中，风格化、动漫风最先成熟，真人稍晚。同时，在 2024 年还会有其他相关进展，如 AI 音频能力长足进展，带感情的 AI 配音基本成熟；“全真 AI 颜值网红”出现，可以稳定输出视频，可以直播带货；游戏 AI NPC 有里程碑式进展，出现新的游戏生产方式；AI 男/女朋友聊天基本成熟，记忆上有明显突破，可以较好模拟人的感情，产品加入视频音频，粘性提升并开始出圈；实时生成的内容开始在社交媒体内容、广告中出现；AI Agent 有明确进展，办公场景“AI 助手”开始有良好使用体验；AI 的商业模式开始有明确用例，如数据合成、工程平台、模型安全等；可穿戴全天候 AI 硬件层出不穷，虽然大多数不会成功；中国 AI 达到或超过 GPT4 水平，美国出现 GPT5，世界上开始现“主权 AI”；华为昇腾生态开始形成，国内推理芯片开始国产替代（训练替代要稍晚）；AI 造成的 DeepFake、诈骗、网络攻击等开始进入公众视野，并引发担忧；AI 立法、伦理讨论仍然大规模落后于技术进展。 2025 2027 年，AI 3D 技术、物理规则成熟，正常人无法区别 AI 生成还是实景拍摄；全真 AI 虚拟人成熟，包含感情的 AI NPC 成熟，开放世界游戏成熟，游戏中几乎无法区别真人和 NPC；AR/VR 技术大规模商用；接近 AGI 的技术出现；人与 AI 配合的工作方式成为常态，很多日常决策开始由 AI 来执行；AI 生产的数据量超过全人类生产数据量，“真实”成为稀缺资源；具身智能、核聚变、芯片、超导、机器人等技术有明显进展突破；“人的模型”出现，出现“集中化 AGI”与“个人 AGI”的历史分叉；AI 引发的社会问题开始加重，结构性失业开始出现；AGI 对于地缘政治的影响开始显露。

当前应用AGI，作为一个普通的人，如何挖掘赚钱的机会

以下是关于普通人在 AGI 应用中挖掘赚钱机会的一些分析和建议：从历史角度看，在 IT 产业中，只有微软的操作系统曾接近垄断并获得超额收益，这并非必然，与当时的多种因素相关。在大模型时代，这种情况能否重演存在不确定性。在 2024 年，一些可能的赚钱机会包括：图片超短视频的精细操控，如表情、细致动作、视频文字匹配方面。生成有一定操控能力的风格化、动漫风生成式短视频，真人稍晚。 AI 音频能力的长足进展，如带感情的 AI 配音基本成熟。 “全真 AI 颜值网红”出现，用于直播带货。游戏 AI NPC 有里程碑式进展，带来新的游戏生产方式。 AI 男/女朋友聊天基本成熟，记忆有突破，加入视频音频，粘性提升并开始出圈。实时生成的内容在社交媒体内容、广告中出现。 AI Agent 有明确进展，办公场景“AI 助手”有良好使用体验。 AI 的商业模式在数据合成、工程平台、模型安全等方面开始有明确用例。从长远来看，到 2025 2027 年： AI 3D 技术、物理规则成熟，全真 AI 虚拟人成熟，AR/VR 技术大规模商用。人与 AI 配合的工作方式成为常态，很多日常决策由 AI 执行。基于国产芯片的软硬件联合优化固件生态是明确的机会。但同时需要注意，AGI 可能会造成极端垄断，提供前所未有的中心化操控能力。在这种情况下，作为个体需要思考应对策略。

现在有什么好的Ai软件可以使用吗

以下是一些好用的 AI 软件：对于画 CAD 图，有以下工具： CADtools 12：Adobe Illustrator 插件，添加 92 个绘图和编辑工具。 Autodesk Fusion 360：集成 AI 功能的云端 3D CAD/CAM 软件。 nTopology：基于 AI 可创建复杂 CAD 模型。 ParaMatters CogniCAD：根据输入自动生成 3D 模型。主流 CAD 软件的生成设计工具：如 Autodesk 系列、SolidWorks 等。帮助建筑设计师审核规划平面图的工具： HDAidMaster：云端工具，在建筑、室内和景观设计领域表现出色。 Maket.ai：面向住宅行业，能自动生成户型图。 ARCHITEChTURES：AI 驱动的三维建筑设计软件。 Fast AI 人工智能审图平台：全自动智能审图流程，实现数据汇总与管理。此外，还有以下一些 AI 应用： AI 游戏道具推荐系统：根据玩家需求推荐游戏道具。 AI 天气预报分时服务：提供精准的分时天气预报。 AI 医疗病历分析平台：分析医疗病历，辅助诊断。 AI 会议发言总结工具：自动总结会议发言内容。 AI 书法作品临摹辅助工具：帮助书法爱好者进行临摹。

如何才能做到用AI制作超级搞笑、引发共鸣、结合当前热点的段子，类似于脱口秀台词，需要几个步骤，怎么做

以下是用 AI 制作类似于脱口秀台词的超级搞笑、引发共鸣且结合当前热点段子的步骤： 1. 明确主题和热点：确定您想要围绕的当前热点话题，以及段子的大致主题和方向。 2. 构思创意：思考有趣、独特且能引发共鸣的情节和表述方式。 3. 生成台词：利用 AI 工具，输入相关的提示词，如描述您想要的幽默风格、情感色彩、语言特点等，让 AI 生成初步的台词。 4. 剪辑流程：对生成的台词进行筛选和整理，确定镜号、内容和对应的 Prompt。例如，像“男人躺在云中，四肢伸展，表情惬意”这样的具体描述。 5. 优化和完善：检查生成的段子是否足够搞笑、是否能引发共鸣、是否紧密结合了热点，对不满意的部分进行修改和优化。

把自己的肖像，做成数字人，需要几个步骤，怎么做

把自己的肖像做成数字人，一般需要以下几个步骤： 1. 创建视频内容：通过输入文稿内容，确定数字人播出的内容。 2. 生成数字人：在剪映中，打开右侧窗口顶部的“数字人”选项，选取免费且适合的数字人形象，如“婉婉青春”。软件会播放数字人的声音，可判断是否需要，然后点击右下角的“添加数字人”，剪映会生成对应音视频并添加到当前视频轨道中。左下角会提示渲染完成时间，之后可点击预览查看效果。还可以使用以下工具： HEYGEN：点击网址注册后，进入数字人制作，选择Photo Avatar上传自己的照片，然后按步骤操作，写上视频文案并选择配音音色，也可自行上传音频，最后点击Submit得到数字人视频。 DID：点击网址，点击右上角的Create vedio，选择人物形象，可添加自己的照片或使用给定形象，配音时可选择提供文字选择音色或上传音频，最后点击Generate vedio生成视频。 KreadoAI：点击网址注册后获得120免费k币，选择“照片数字人口播”功能，点击开始创作，选择自定义照片，配音时可选择提供文字选择音色或上传音频，打开绿幕按钮，点击背景添加背景图，最后点击生成视频。 3. 增加背景图片（可选）：在剪映中，可直接删除先前导入的文本内容，为视频增加背景图片。点击左上角的“媒体”菜单并点击“导入”按钮，选择本地图片上传，将图片添加到视频轨道上，拖动轨道右侧竖线使其与视频对齐，选中轨道后调整背景图尺寸和数字人位置。需要注意的是，不同工具可能有各自的特点和限制，您可以根据自己的需求和偏好选择合适的工具和方法。

产品经理入门AI产品必备的知识

以下是产品经理入门 AI 产品必备的知识： 1. 入门级：能通过 WaytoAGI 等开源网站或一些课程了解 AI 的概念。使用 AI 产品并尝试动手实践应用搭建。 2. 研究级：技术研究路径和商业化研究路径。对某一领域有认知，可根据需求场景选择解决方案，或利用 Hugging face 等工具手搓出一些 AI 应用来验证想法。 3. 落地应用：有一些成功落地应用的案例，如产生商业化价值。对于 AI 产品经理，还需要： 1. 懂得技术框架，不一定要了解技术细节，但要对技术边界有认知，最好能知道一些优化手段和新技术的发展。 2. 关注场景、痛点、价值。 AI PM 掌握算法知识的必要性： 1. 理解产品核心技术，从而做出更合理的产品决策。 2. 与技术团队有效沟通，减少信息不对称带来的误解。 3. 评估技术可行性，在产品规划阶段做出更准确的判断。 4. 把握产品发展方向，更好地应对 AI 技术的迅速发展。 5. 提升产品竞争力，发现产品的独特优势，提出创新的产品特性。 6. 提升数据分析能力，处理和分析 AI 算法涉及的数据。 AI 提示词工程师岗位技能要求： 1. 本科及以上学历，计算机科学、人工智能、机器学习相关专业背景。 2. 熟悉 ChatGPT、Llama、Claude 等 AI 工具的使用及原理，并具有实际应用经验。 3. 熟练掌握 ChatGPT、Midjourney 等 AI 工具的使用及原理。 4. 负责制定和执行 AI 项目，如 Prompt 设计平台化方法和模板化方法。 5. 了解并熟悉 Prompt Engineering，包括常见的 Prompt 优化策略（例如 CoT、Fewshot 等）。 6. 对数据驱动的决策有深入的理解，能够基于数据分析做出决策。 7. 具有创新思维，能够基于业务需求提出并实践 AI first 的解决方案。 8. 对 AI 技术与算法领域抱有强烈的好奇心，并能付诸实践。 9. 对 AIGC 领域有深入的理解与实际工作经验，保持对 AI 技术前沿的关注。 10. 具备一定的编程和算法研究能力，能应用新的 AI 技术和算法于对话模型生成。 11. 具有一定的编程基础，熟练使用 Python、Git 等工具。

AGI 即强人工智能或通用人工智能，是指具有人类水平的智能和理解能力的 AI 系统。它有以下特点和相关信息：与弱人工智能不同，强人工智能能够完成任何人类可以完成的智力任务，适用于不同的领域，同时拥有某种形式的意识或自我意识。目前还只是一个理论概念，还没有任何 AI 系统能达到这种通用智能水平。 OpenAI 内部会议分享了 AGI 的五个发展等级，分别为：聊天机器人：具备基本对话能力，主要依赖预设脚本和关键词匹配，用于客户服务和简单查询响应。推理者：具备人类推理水平，能够解决复杂问题，如 ChatGPT，能够根据上下文和文件提供详细分析和意见。智能体：不仅具备推理能力，还能执行全自动化业务，但目前许多 AI Agent 产品在执行任务后仍需人类参与，尚未达到完全智能体的水平。创新者：能够协助人类完成新发明，如谷歌 DeepMind 的 AlphaFold 模型，可以预测蛋白质结构，加速科学研究和新药发现。组织：最高级别的 AI，能够自动执行组织的全部业务流程，如规划、执行、反馈、迭代、资源分配和管理等。更多信息请见（AGI）。

AI如何辅助做建筑设计

以下是一些能够辅助建筑设计的 AI 工具： 1. HDAidMaster：这是一款云端工具，建筑师能在平台上使用主流的 AIGC 功能进行有趣的集卡式方案创作，在建筑、室内和景观设计领域表现出色，搭载了自主训练的建筑大模型 ArchiMaster，软件的 UI 和设计成果颜值在线。 2. Maket.ai：主要面向住宅行业，在户型和室内软装设计方面有 AI 技术探索，设计师输入房间面积需求和土地约束，软件能自动生成户型图并查看详细设计结果。 3. ARCHITEChTURES：AI 驱动的三维建筑设计软件，提供全新设计模式，在住宅设计早期能引入标准和规范约束 AI 生成的设计结果，保证设计合规性。 4. Fast AI 人工智能审图平台：形成全自动智能审图流程，从住宅设计图构件开始，集自动导入、区域划分、构件识别、强条审查和自动导出结果于一体，为建筑信息自动建模打下基础，实现建筑全寿命周期内信息集成与管理。每个工具都有特定应用场景和功能，建议根据具体需求选择合适的工具。