直达「 通往AGI之路 」飞书知识库 →
首页/全部问答
VIT模型是什么
VIT 模型是视觉变压器(Vision Transformer)模型。 在计算机视觉领域,在深度学习革命之前,传统图像生成技术依赖手工制作特征,能力有限。生成对抗网络、变分自编码器等的引入是重要转折点,后续如流模型、扩散模型等进一步提高了图像生成质量。过去十年,生成式计算机视觉模型发展多样,在自然语言处理中成功应用的变压器架构被引入计算机视觉,如视觉变压器(ViT)和 Swin 变压器。 Zhai 等人展示了有足够训练数据的 ViT 模型的性能计算前沿大致遵循(饱和)幂律。谷歌研究提出了高效稳定训练 22B 参数 ViT 的方法,使用冻结模型产生嵌入,然后在顶部训练薄层可实现出色性能。 在语音合成方面,VITS(Variational Inference with adversarial learning for endtoend TexttoSpeech)是一种结合变分推理、标准化流和对抗训练的高表现力语音合成模型。与 Tacotron 和 FastSpeech 不同,VITS 直接将字符或音素映射为波形,不需要额外声码器重建波形,是真正的端到端语音合成模型。它通过隐变量而非之前的频谱串联语音合成中的声学模型和声码器,利用随机时长预测器提高合成语音的多样性,输入同样文本能合成不同声调和韵律的语音,合成音质较高,还可借鉴 FastSpeech 单独对音高等特征建模以提升质量,是非常有潜力的语音合成模型。
2024-12-09
如何通过AGI,生成有一定操控能力的风格化、动漫风生成式短视频,如何做,几个步骤
以下是生成有一定操控能力的风格化、动漫风生成式短视频的步骤: 1. 项目规划:确定短视频的主题和目标观众,制定详细的制作计划。 2. 剧本创作:编写故事脚本,设计角色和场景以及创意。可参考相关剧本创作资料,如:https://waytoagi.feishu.cn/wiki/G11fwW8bmiVLe6kYLgYc2iGin6e ;捏剧本 Bot(捏剧本离谱村专用 https://www.coze.cn/store/bot/7367669913697239052?panel=1&bid=6cs144r404016 。 3. 分镜头脚本:根据脚本制作分镜头脚本,确定每个镜头的画面和动作。 4. 资源准备:准备动画制作所需的素材,包括背景、角色和音效。 5. 画面图片制作:利用 AI 出图工具,比如通过 ChatGPT、MJ、SD 等工具快速生成高质量的图片。 6. 视频制作:利用 AI 工具制作动画,通过 RUNWAY、Luma、Dreamina 等平台快速生成高质量的动画。 7. 后期剪辑:添加音效、配音和字幕,进行最终的剪辑和合成。 8. 发布和推广:将完成的动画短片发布到各大平台,并进行推广和宣传。 此外,在实际制作中,还可以参考一些成功案例,如山西文旅宣传片的制作,运用 Defense 及 SD 制作黄河长城等 AI 艺术字;为陕西文旅做的 40 秒黑神话悟空风格 AI 短片,用 SD 结合 Control Lite 处理钟楼等。郑州 AI 文旅片工作流总体分为分镜脚本、单帧图片制作、图片细节修复与生成视频、视频风格化处理、剪辑合成五个步骤。
2024-12-09
如何通过AGI,生成有一定操控能力的风格化、动漫风生成式短视频
目前关于通过 AGI 生成有一定操控能力的风格化、动漫风生成式短视频,以下是一些相关信息: 2024 年内,有一定操控能力的生成式短视频中,风格化、动漫风最先成熟,真人稍晚。 同时,在 2024 年还会有其他相关进展,如 AI 音频能力长足进展,带感情的 AI 配音基本成熟;“全真 AI 颜值网红”出现,可以稳定输出视频,可以直播带货;游戏 AI NPC 有里程碑式进展,出现新的游戏生产方式;AI 男/女朋友聊天基本成熟,记忆上有明显突破,可以较好模拟人的感情,产品加入视频音频,粘性提升并开始出圈;实时生成的内容开始在社交媒体内容、广告中出现;AI Agent 有明确进展,办公场景“AI 助手”开始有良好使用体验;AI 的商业模式开始有明确用例,如数据合成、工程平台、模型安全等;可穿戴全天候 AI 硬件层出不穷,虽然大多数不会成功;中国 AI 达到或超过 GPT4 水平,美国出现 GPT5,世界上开始现“主权 AI”;华为昇腾生态开始形成,国内推理芯片开始国产替代(训练替代要稍晚);AI 造成的 DeepFake、诈骗、网络攻击等开始进入公众视野,并引发担忧;AI 立法、伦理讨论仍然大规模落后于技术进展。 2025 2027 年,AI 3D 技术、物理规则成熟,正常人无法区别 AI 生成还是实景拍摄;全真 AI 虚拟人成熟,包含感情的 AI NPC 成熟,开放世界游戏成熟,游戏中几乎无法区别真人和 NPC;AR/VR 技术大规模商用;接近 AGI 的技术出现;人与 AI 配合的工作方式成为常态,很多日常决策开始由 AI 来执行;AI 生产的数据量超过全人类生产数据量,“真实”成为稀缺资源;具身智能、核聚变、芯片、超导、机器人等技术有明显进展突破;“人的模型”出现,出现“集中化 AGI”与“个人 AGI”的历史分叉;AI 引发的社会问题开始加重,结构性失业开始出现;AGI 对于地缘政治的影响开始显露。
2024-12-09
当前应用AGI,作为一个普通的人,如何挖掘赚钱的机会
以下是关于普通人在 AGI 应用中挖掘赚钱机会的一些分析和建议: 从历史角度看,在 IT 产业中,只有微软的操作系统曾接近垄断并获得超额收益,这并非必然,与当时的多种因素相关。在大模型时代,这种情况能否重演存在不确定性。 在 2024 年,一些可能的赚钱机会包括: 图片超短视频的精细操控,如表情、细致动作、视频文字匹配方面。 生成有一定操控能力的风格化、动漫风生成式短视频,真人稍晚。 AI 音频能力的长足进展,如带感情的 AI 配音基本成熟。 “全真 AI 颜值网红”出现,用于直播带货。 游戏 AI NPC 有里程碑式进展,带来新的游戏生产方式。 AI 男/女朋友聊天基本成熟,记忆有突破,加入视频音频,粘性提升并开始出圈。 实时生成的内容在社交媒体内容、广告中出现。 AI Agent 有明确进展,办公场景“AI 助手”有良好使用体验。 AI 的商业模式在数据合成、工程平台、模型安全等方面开始有明确用例。 从长远来看,到 2025 2027 年: AI 3D 技术、物理规则成熟,全真 AI 虚拟人成熟,AR/VR 技术大规模商用。 人与 AI 配合的工作方式成为常态,很多日常决策由 AI 执行。 基于国产芯片的软硬件联合优化固件生态是明确的机会。 但同时需要注意,AGI 可能会造成极端垄断,提供前所未有的中心化操控能力。在这种情况下,作为个体需要思考应对策略。
2024-12-09
现在有什么好的Ai软件可以使用吗
以下是一些好用的 AI 软件: 对于画 CAD 图,有以下工具: CADtools 12:Adobe Illustrator 插件,添加 92 个绘图和编辑工具。 Autodesk Fusion 360:集成 AI 功能的云端 3D CAD/CAM 软件。 nTopology:基于 AI 可创建复杂 CAD 模型。 ParaMatters CogniCAD:根据输入自动生成 3D 模型。 主流 CAD 软件的生成设计工具:如 Autodesk 系列、SolidWorks 等。 帮助建筑设计师审核规划平面图的工具: HDAidMaster:云端工具,在建筑、室内和景观设计领域表现出色。 Maket.ai:面向住宅行业,能自动生成户型图。 ARCHITEChTURES:AI 驱动的三维建筑设计软件。 Fast AI 人工智能审图平台:全自动智能审图流程,实现数据汇总与管理。 此外,还有以下一些 AI 应用: AI 游戏道具推荐系统:根据玩家需求推荐游戏道具。 AI 天气预报分时服务:提供精准的分时天气预报。 AI 医疗病历分析平台:分析医疗病历,辅助诊断。 AI 会议发言总结工具:自动总结会议发言内容。 AI 书法作品临摹辅助工具:帮助书法爱好者进行临摹。
2024-12-09
如何才能做到用AI制作超级搞笑、引发共鸣、结合当前热点的段子,类似于脱口秀台词,需要几个步骤,怎么做
以下是用 AI 制作类似于脱口秀台词的超级搞笑、引发共鸣且结合当前热点段子的步骤: 1. 明确主题和热点:确定您想要围绕的当前热点话题,以及段子的大致主题和方向。 2. 构思创意:思考有趣、独特且能引发共鸣的情节和表述方式。 3. 生成台词:利用 AI 工具,输入相关的提示词,如描述您想要的幽默风格、情感色彩、语言特点等,让 AI 生成初步的台词。 4. 剪辑流程:对生成的台词进行筛选和整理,确定镜号、内容和对应的 Prompt。例如,像“男人躺在云中,四肢伸展,表情惬意”这样的具体描述。 5. 优化和完善:检查生成的段子是否足够搞笑、是否能引发共鸣、是否紧密结合了热点,对不满意的部分进行修改和优化。
2024-12-09
把自己的肖像,做成数字人,需要几个步骤,怎么做
把自己的肖像做成数字人,一般需要以下几个步骤: 1. 创建视频内容:通过输入文稿内容,确定数字人播出的内容。 2. 生成数字人: 在剪映中,打开右侧窗口顶部的“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。软件会播放数字人的声音,可判断是否需要,然后点击右下角的“添加数字人”,剪映会生成对应音视频并添加到当前视频轨道中。左下角会提示渲染完成时间,之后可点击预览查看效果。 还可以使用以下工具: HEYGEN:点击网址注册后,进入数字人制作,选择Photo Avatar上传自己的照片,然后按步骤操作,写上视频文案并选择配音音色,也可自行上传音频,最后点击Submit得到数字人视频。 DID:点击网址,点击右上角的Create vedio,选择人物形象,可添加自己的照片或使用给定形象,配音时可选择提供文字选择音色或上传音频,最后点击Generate vedio生成视频。 KreadoAI:点击网址注册后获得120免费k币,选择“照片数字人口播”功能,点击开始创作,选择自定义照片,配音时可选择提供文字选择音色或上传音频,打开绿幕按钮,点击背景添加背景图,最后点击生成视频。 3. 增加背景图片(可选):在剪映中,可直接删除先前导入的文本内容,为视频增加背景图片。点击左上角的“媒体”菜单并点击“导入”按钮,选择本地图片上传,将图片添加到视频轨道上,拖动轨道右侧竖线使其与视频对齐,选中轨道后调整背景图尺寸和数字人位置。 需要注意的是,不同工具可能有各自的特点和限制,您可以根据自己的需求和偏好选择合适的工具和方法。
2024-12-09
产品经理入门AI产品必备的知识
以下是产品经理入门 AI 产品必备的知识: 1. 入门级: 能通过 WaytoAGI 等开源网站或一些课程了解 AI 的概念。 使用 AI 产品并尝试动手实践应用搭建。 2. 研究级: 技术研究路径和商业化研究路径。 对某一领域有认知,可根据需求场景选择解决方案,或利用 Hugging face 等工具手搓出一些 AI 应用来验证想法。 3. 落地应用: 有一些成功落地应用的案例,如产生商业化价值。 对于 AI 产品经理,还需要: 1. 懂得技术框架,不一定要了解技术细节,但要对技术边界有认知,最好能知道一些优化手段和新技术的发展。 2. 关注场景、痛点、价值。 AI PM 掌握算法知识的必要性: 1. 理解产品核心技术,从而做出更合理的产品决策。 2. 与技术团队有效沟通,减少信息不对称带来的误解。 3. 评估技术可行性,在产品规划阶段做出更准确的判断。 4. 把握产品发展方向,更好地应对 AI 技术的迅速发展。 5. 提升产品竞争力,发现产品的独特优势,提出创新的产品特性。 6. 提升数据分析能力,处理和分析 AI 算法涉及的数据。 AI 提示词工程师岗位技能要求: 1. 本科及以上学历,计算机科学、人工智能、机器学习相关专业背景。 2. 熟悉 ChatGPT、Llama、Claude 等 AI 工具的使用及原理,并具有实际应用经验。 3. 熟练掌握 ChatGPT、Midjourney 等 AI 工具的使用及原理。 4. 负责制定和执行 AI 项目,如 Prompt 设计平台化方法和模板化方法。 5. 了解并熟悉 Prompt Engineering,包括常见的 Prompt 优化策略(例如 CoT、Fewshot 等)。 6. 对数据驱动的决策有深入的理解,能够基于数据分析做出决策。 7. 具有创新思维,能够基于业务需求提出并实践 AI first 的解决方案。 8. 对 AI 技术与算法领域抱有强烈的好奇心,并能付诸实践。 9. 对 AIGC 领域有深入的理解与实际工作经验,保持对 AI 技术前沿的关注。 10. 具备一定的编程和算法研究能力,能应用新的 AI 技术和算法于对话模型生成。 11. 具有一定的编程基础,熟练使用 Python、Git 等工具。
2024-12-09
什么是AGI
AGI 即强人工智能或通用人工智能,是指具有人类水平的智能和理解能力的 AI 系统。 它有以下特点和相关信息: 与弱人工智能不同,强人工智能能够完成任何人类可以完成的智力任务,适用于不同的领域,同时拥有某种形式的意识或自我意识。 目前还只是一个理论概念,还没有任何 AI 系统能达到这种通用智能水平。 OpenAI 内部会议分享了 AGI 的五个发展等级,分别为: 聊天机器人:具备基本对话能力,主要依赖预设脚本和关键词匹配,用于客户服务和简单查询响应。 推理者:具备人类推理水平,能够解决复杂问题,如 ChatGPT,能够根据上下文和文件提供详细分析和意见。 智能体:不仅具备推理能力,还能执行全自动化业务,但目前许多 AI Agent 产品在执行任务后仍需人类参与,尚未达到完全智能体的水平。 创新者:能够协助人类完成新发明,如谷歌 DeepMind 的 AlphaFold 模型,可以预测蛋白质结构,加速科学研究和新药发现。 组织:最高级别的 AI,能够自动执行组织的全部业务流程,如规划、执行、反馈、迭代、资源分配和管理等。 更多信息请见(AGI)。
2024-12-09
AI如何辅助做建筑设计
以下是一些能够辅助建筑设计的 AI 工具: 1. HDAidMaster:这是一款云端工具,建筑师能在平台上使用主流的 AIGC 功能进行有趣的集卡式方案创作,在建筑、室内和景观设计领域表现出色,搭载了自主训练的建筑大模型 ArchiMaster,软件的 UI 和设计成果颜值在线。 2. Maket.ai:主要面向住宅行业,在户型和室内软装设计方面有 AI 技术探索,设计师输入房间面积需求和土地约束,软件能自动生成户型图并查看详细设计结果。 3. ARCHITEChTURES:AI 驱动的三维建筑设计软件,提供全新设计模式,在住宅设计早期能引入标准和规范约束 AI 生成的设计结果,保证设计合规性。 4. Fast AI 人工智能审图平台:形成全自动智能审图流程,从住宅设计图构件开始,集自动导入、区域划分、构件识别、强条审查和自动导出结果于一体,为建筑信息自动建模打下基础,实现建筑全寿命周期内信息集成与管理。 每个工具都有特定应用场景和功能,建议根据具体需求选择合适的工具。
2024-12-09