知識ベースとの対話 - WayToAGI

「AGIへの道」飛書ナレッジベースへ直行 →

ホーム/すべての質問

以下是小白用 AI 做一部电影大片的保姆级攻略： 1. GPT：内容创作目的是做未来战争游戏的预告片，先让 GPT 写出视频内容，再细化每个分镜需要的内容，最后提炼响亮的名字，输出宣传片朋友圈宣传文案。具体步骤：让 GPT 生成视频内容。给宣传片起个响亮的名字。让 GPT 写出分镜需要的画面。确定画面后到 Pika Labs 生成。 2. 魔音工坊：配音把 GPT 写的视频脚本生成配音，可以用魔音工坊（新用户 1 天免费体验）。选择喜欢的主播，调整语速、语调和停顿，然后导出音频文件。 3. 剪映：剪辑把下载的视频、配音全部导入剪映，进行剪辑，处理特效、转场、动画的效果（剪映技巧可去 B 站搜索攻略），然后导出。这部 AI 生成的大片名为《黎明之翼 Wings of Dawn》，是一部游戏预告片。讲述的是 2068 年机械统治，人类危在旦夕，只有反抗才能夺回未来。一支名叫“黎明之翼“的民间组织，在美女领袖 Lisa 的带领下，用智慧与勇气在黑暗中闪耀，拯救人类的故事。本片所有图片、视频、文案、配音，包括简介，均由 AI 生成，耗时 3 小时。作者：晴岚，即刻同名，微信：telgesang。背景：最近在研究 AI+营销的各种玩法，优化运营和产品的工作流，欢迎感兴趣的伙伴一起交流探讨。文章源地址：https://mp.weixin.qq.com/s/YR25kgPMaa8_cbXIntI96A （作者授权发布）

AI一次最多可以生成多少文字

目前国内外的大模型在生成内容时，一次生成 1000 字以内的质量较为稳定，默认情况下一般为 700 800 字。超过 1000 字，生成的文本质量就可能开始下降。例如通过“文本改写”场景测试能直观反映这一情况。不过，Claude 在长文本生成能力上相对较强，有试过其单次输出 2800 字。如果想要使用 AI 生成长文章，建议分段落让其完成，以保证生成文章的质量。对于长文章的解读或改写，也可采用分段方式，让 AI 逐项完成，每个段落长度控制在 700 800 字左右效果最佳。此外，对于复杂任务，可拆分成工作流，比如写文章任务可拆分为搜集材料、生成大纲、逐段填充内容、润色、起爆款标题、吸睛开篇金句等。

AI 在医疗领域有广泛的应用： 1. 医学影像分析：可用于分析 X 射线、CT 扫描和 MRI 等医学图像，辅助诊断疾病。 2. 药物研发：能加速药物研发过程，如识别潜在药物候选物和设计新治疗方法。 3. 个性化医疗：通过分析患者数据，为每个患者提供个性化治疗方案。 4. 机器人辅助手术：用于控制手术机器人，提高手术精度和安全性。在医疗健康生物制药的研究方面，AI 也发挥着重要作用，取得了一些最新进展： 1. 提前三年诊断胰腺癌。 2. 两名高中生与医疗技术公司合作发现与胶质母细胞瘤相关的新靶基因。 3. 帮助筛选抗衰老的高效药物候选物。 4. 用于寻找阿尔兹海默症的治疗方法。 5. 帮助早期诊断帕金森。为了在医疗保健中产生真正的改变，AI 应像人类一样学习。成为医疗领域顶尖人才通常需要多年密集信息输入和实践学习，AI 也应投资创建模型生态系统，如“专家”AI，通过分层训练模型，而非仅依靠大量数据和生成模型解决所有问题。就像医学生从基础课程开始，科学家需要多年化学和生物学学习及实践指导，这种学习方式有助于培养处理细微差别决策的直觉。

作为汽车厂家的供应链，应学习哪些AI工具来为车厂服务

作为汽车厂家的供应链，以下是一些值得学习的 AI 工具： 1. 自动驾驶相关工具：如用于图像识别、传感器数据分析和决策制定的工具，以支持自动驾驶技术在汽车生产中的应用。 2. 车辆安全系统工具：例如能够分析来自摄像头和传感器数据，以增强车辆安全性能的工具，如自动紧急制动、车道保持辅助和盲点检测系统等。 3. 个性化用户体验工具：可以根据驾驶员偏好和习惯调整车辆设置的工具，如座椅位置、音乐选择和导航系统等。 4. 预测性维护工具：通过分析车辆实时数据来预测潜在故障和维护需求的工具，有助于提高车辆可靠性和效率。 5. 生产自动化工具：在汽车制造过程中用于自动化生产线、提高生产效率和质量控制的工具。 6. 销售和市场分析工具：能够分析市场趋势、消费者行为和销售数据，以帮助制定营销策略和优化产品定价的工具。 7. 电动化和能源管理工具：在电动汽车的电池管理和充电策略中发挥作用，优化电池使用和充电时间的工具。 8. 共享出行服务工具：如用于优化路线规划、调度车辆和定价策略，提高服务效率和用户满意度的工具。 9. 语音助手和车载娱乐工具：如 AI 驱动的语音助手，允许驾驶员通过语音命令控制车辆功能、获取信息和娱乐内容。 10. 车辆远程监控和诊断工具：可以远程监控车辆状态，提供实时诊断和支持的工具。此外，在 CAD 绘图方面，存在一些辅助或自动生成 CAD 图的 AI 工具和插件，如： 1. CADtools 12：Adobe Illustrator 插件，添加了 92 个绘图和编辑工具。 2. Autodesk Fusion 360：集成了 AI 功能的云端 3D CAD/CAM 软件。 3. nTopology：基于 AI 的设计软件，可创建复杂的 CAD 模型。 4. ParaMatters CogniCAD：根据设计目标和约束条件自动生成 3D 模型。 5. 主流 CAD 软件中的生成设计工具：如 Autodesk 系列、SolidWorks 等提供的工具。但使用这些 CAD 相关的 AI 工具通常需要一定的 CAD 知识和技能，对于初学者，建议先学习基本的 3D 建模技巧。

汽车厂家的供应链应该学习AI哪些内容

汽车厂家的供应链可以学习以下 AI 相关内容： 1. 可信 AI 工具：如保障技术和技术标准，用于支持供应链风险管理。通过描述制造商应采取的确保 AI 系统安全的措施，技术标准可为采购者和用户提供信心，鼓励 AI 的采用。 2. 应用案例：自动驾驶技术：利用 AI 进行图像识别、传感器数据分析和决策制定，实现自主导航和驾驶。车辆安全系统：增强车辆安全性能，如自动紧急制动、车道保持辅助和盲点检测等。个性化用户体验：根据驾驶员偏好和习惯调整车辆设置。预测性维护：分析车辆实时数据，预测潜在故障和维护需求。生产自动化：用于汽车制造的自动化生产线，提高生产效率和质量控制。销售和市场分析：分析市场趋势、消费者行为和销售数据，制定营销策略和优化产品定价。电动化和能源管理：在电动汽车的电池管理和充电策略中发挥作用。共享出行服务：优化路线规划、调度车辆和定价策略。语音助手和车载娱乐：通过语音命令控制车辆功能、获取信息和娱乐内容。车辆远程监控和诊断：远程监控车辆状态，提供实时诊断和支持。

多轮对话怎么做

多轮对话的实现方式如下： 1. 核心思路是让 AI 和您对目标的理解达成共识，保持一致，然后再开始创作，这样能增加创作的可控性。比如通过对生成图像的理解诱导和迭代来实现。 2. 有效的部分包括：约束的弹性，在探索阶段给 AI 一定自由空间，而 prompt 一般是强约束的，更适合确定性的目标或者用于总结阶段。情绪，情绪化能局部提升 AI 效能。共识，您的理解和 AI 的理解要高度一致，在高共识性的背景下，调整和控制会更有效。 3. 注意事项：如果经历很多轮的对话，可能会导致此次对话超过模型的 token 限制，ChatGPT 会遗忘之前的内容。建议当经历多轮对话后，可以新建一个聊天窗口，把完整的代码和需求背景输入给 ChatGPT，重新开启新的提问。在自然的人类语言交流中，多轮对话常常伴随着指代问题的产生。为了提升对话系统的性能和用户体验，需要开发提示词来解决多轮对话中的指代消解问题，并确保模型能够在连续的交流中提供准确、连贯的回答。由于“指代消解”需要多轮对话来完成，单次交互无法达成，所以需要将测试形式进行转换，先解决“指代消解”的问题，然后再进行下一轮答复。

0基础如何学习AI，并找到合适的工作

对于 0 基础学习 AI 并找到合适工作，以下是一些建议： 1. 基础知识学习：了解 AI 的基本概念，包括人工智能、机器学习（监督学习、无监督学习、强化学习）、深度学习、生成式 AI 等。学习相关技术名词的含义和关系，例如神经网络、神经元、大语言模型等。 2. 学习资源：可以通过通俗易懂的视频来学习，比如了解什么是 AI 大模型及其原理。 3. 技术原理：掌握 Transformer 模型，它基于自注意力机制处理序列数据，比传统的循环神经网络或卷积神经网络更适合处理文本的长距离依赖性。 4. 实践与项目：从简单的项目入手，如使用 Scratch 项目进行编程练习。逐渐参与更复杂的实践项目，积累经验。 5. 就业准备：根据目标工作的要求，有针对性地提升技能。制作优秀的简历和项目作品集，展示自己的能力和成果。需要注意的是，学习 AI 需要时间和努力，并且要不断跟进领域的最新发展。

以下是关于 AI 制作 PPT 的相关信息： 1. May 体验了 gamma、AIPPT、islide AI 生成 PPT 的产品，认为 gamma 最好用，只要提供内容框架，生成的 PPT/网页审美水平最高。 2. 卓 sir 制作 PPT 的流程是先让 GPT4 生成 PPT 大纲，然后把大纲导入到 WPS 当中，启用 WPS AI 一键生成 PPT，再添加动画和手动修改细节。其中，让 GPT4 生成符合要求的大纲最花时间。 3. 熊猫 Jay 编写了超全的 AI 工具生成 PPT 的思路和使用指南，介绍了市面上受欢迎的 5 款 AI PPT 工具：MindShow、爱设计、闪击、Process ON、WPS AI。其因企业内部培训编写的文章效果不错，还获得了 1000 元红包奖励。

怎样制作数字人

以下是制作数字人的方法和相关工具：方法：在剪映中生成数字人：在剪映右侧窗口顶部打开“数字人”选项，选取免费且适合的数字人形象，如“婉婉青春”。选择后软件会播放其声音，可判断是否需要，点击右下角“添加数字人”将其添加到当前视频中，软件会生成对应音视频并添加到轨道中，左下角会提示渲染完成时间，之后可点击预览查看效果。增加背景图片：删除先前导入的文本内容，点击左上角“媒体”菜单并点击“导入”按钮选择本地图片上传，将图片添加到视频轨道上（会覆盖数字人），拖动轨道最右侧竖线使其与视频对齐，选中背景图片轨道，在显示区域拖动图片角将其放大到合适尺寸，并将数字人拖动到合适位置。增加字幕：点击文本智能字幕识别字幕，点击开始识别，软件会自动将文字智能分段并形成字幕。完成后点击右上角“导出”按钮导出视频备用。工具： HeyGen：AI 驱动的平台，可创建逼真的数字人脸和角色，使用深度学习算法生成高质量肖像和角色模型，适用于游戏、电影和虚拟现实等应用。 Synthesia：AI 视频制作平台，允许创建虚拟角色并进行语音和口型同步，支持多种语言，可用于教育视频、营销内容和虚拟助手等场景。 DID：提供 AI 拟真人视频产品服务和开发，上传人像照片和输入要说的内容，平台的 AI 语音机器人将自动转换成语音，合成逼真的会开口说话的视频。更多数字人工具请访问网站查看：https://www.waytoagi.com/category/42 。请注意，这些工具的具体功能和可用性可能会变化，使用时请遵守相关使用条款和隐私政策，并注意对生成内容的版权和伦理责任。

什么是多模态模型

多模态模型是指能够处理和融合多种不同模态信息（如视觉、语言、音频等）的模型。智谱·AI 推出了具有视觉和语言双模态的模型，例如： CogAgent18B：基于 CogVLM17B 改进的开源视觉语言模型，拥有 110 亿视觉参数和 70 亿语言参数，支持 11201120 分辨率的图像理解，具备 GUI 图像的 Agent 能力。 CogVLM17B：强大的开源视觉语言模型（VLM），在多模态权威学术榜单上综合成绩优异，能实现视觉语言特征的深度融合。 Visualglm6B：开源的支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM6B，图像部分通过训练 BLIP2Qformer 构建起视觉模型与语言模型的桥梁。 RDM：Relay Diffusion Model，级联扩散模型，可以从任意给定分辨率的图像快速生成，而无需从白噪声生成。 Gemini 模型本身也是多模态的，展示了无缝结合跨模态能力，能从表格、图表或图形中提取信息和空间布局，具有强大的推理能力，在识别输入中的细微细节、在空间和时间上聚合上下文，以及在一系列视频帧和/或音频输入上应用这些能力方面表现出色。