直达「 通往AGI之路 」飞书知识库 →
首页/全部问答
Way to AGI 近期更新
以下是 Way to AGI 的近期更新: Runway 官方镜头提示词相关: 官方镜头指南:https://help.runwayml.com/hc/enus/ 相关文章:articles/30586818553107Gen3AlphaPromptingGuide 生图官网:https://app.runwayml.com/videotools/teams/aimwisetonix/aitools/generativevideo 互动:最下面有个小互动,一起生文字“WaytoAGI”回头剪辑到一起 适合参加本期 video battle:https://waytoagi.feishu.cn/wiki/CufGwGyeXiomZnkiLTwcIgd3nnb 官方效果: https://waytoagi.feishu.cn/wiki/Eun9wqDgii1Q7GkoUvCczYjln7r Gen3 Alpha 上线,具有无限潜力,创建传达场景的强烈提示是生成与概念一致视频的关键,涵盖不同示例结构、关键字和提示。 观点方面: 作者 Allen 认为热爱与行动是通往 AGI 之路。 更新日志:补充对共创模式的思考,删减部分内容。 端午假期实践了三篇教程,难度从低到高排序为: 1. https://waytoagi.feishu.cn/wiki/QWQ0w1QOZiNZz9kreQecY4hYn4c (入门级网速好的话,一个小时能搞定) 2. https://waytoagi.feishu.cn/wiki/XnvIwd8NkiDefHkmbobcCfsBnKg 3. https://waytoagi.feishu.cn/wiki/YeBiwZx2TiyNLMk8pdjcmdQfnjd 关于加强写作能力的训练,准备调整工作流,先把初稿发在飞书上(可能是原来 2 篇或 3 篇的集合,有一些不方便说的也先发在初稿,后续再删),获取大家反馈后再拆分细化。 自我介绍:Allen,一个小镇青年,是 WaytoAGI 共创者。
2024-10-12
Function Calling
Function Calling 是一种将模型的能力与外部工具和 API 连接起来的方法。 在 OpenAI 方面,当地时间 6 月 13 日发布函数调用及其他 API 更新。开发人员可向 gpt40613 和 gpt3.5turbo0613 描述函数,让模型智能输出包含调用函数所需参数的 JSON 对象。例如,本地写函数执行 this.app.mysql.select,让 GPT 与函数调用结合,控制返回 JSON 格式,使 prompt 定制更简单,AI 输出更可控。 在谷歌 Gemini 方面,在从事金融业务的用例中,如搜索欧元兑美元的当前汇率,需做好配置,使用 Gemini 1.5 Flash 模型。函数调用为 AI 系统带来诸多优势,如简化用户体验、减少错误发生可能性、为更高级自动化开辟道路,能处理如酒店预订或制定旅行计划等复杂操作,重新定义了人与技术的互动方式。
2024-10-12
有哪些大模型?
大型模型主要分为两类: 1. 大型语言模型:专注于处理和生成文本信息,例如 GPT3 拥有 1750 亿参数。主要用于自然语言处理任务,如文本翻译、文本生成、情感分析等,通过分析大量的文本数据来理解和生成自然语言。常见的算法有基于统计的 Word2Vec、GloVe,基于深度网络的 CNN、RNN/LSTM,基于神经网络的 BERT 等。 2. 大型多模态模型:能够处理包括文本、图片、音频等多种类型的信息。可以应用于更广泛的领域,例如图像识别与描述、视频分析、语音识别与生成等。 以下是一些多模态大模型: 1. InstructBLIP:基于预训练的 BLIP2 模型进行训练,在 MM IT 期间仅更新 QFormer。通过引入指令感知的视觉特征提取和相应的指令,能够提取灵活多样的特征。 2. PandaGPT:是一种开创性的通用模型,能够理解 6 种不同模式的指令并根据指令采取行动,包括文本、图像/视频、音频、热、深度和惯性测量单位。 3. PaLIX:使用混合 VL 目标和单峰目标进行训练,包括前缀完成和屏蔽令牌完成。这种方法对于下游任务结果和在微调设置中实现帕累托前沿都是有效的。 4. VideoLLaMA:引入了多分支跨模式 PT 框架,使 LLM 能够在与人类对话的同时处理给定视频的视觉和音频内容,使视觉与语言以及音频与语言保持一致。 5. 视频聊天 GPT:专门为视频对话设计的模型,能够通过集成时空视觉表示来生成有关视频的讨论。 6. Shikra:Chen 等人介绍了一种简单且统一的预训练 MMLLM,专为参考对话(涉及图像中区域和对象的讨论的任务)而定制。该模型展示了值得称赞的泛化能力,可以有效处理看不见的设置。 7. DLP:提出 PFormer 来预测理想提示,并在单模态句子数据集上进行训练。这展示了单模态训练增强 MM 学习的可行性。
2024-10-12
生成人物图像哪个AI最好
以下为一些生成人物图像较好的 AI 工具及相关信息: PhotoMaker:可以根据文字描述生成人物照片,能混合不同人物特征创造新形象,还能改变照片中人物的性别、年龄。网址:https://photomaker.github.io 。 在人物构图的视角选择方面,有以下几种常见视角: 正视角:拍摄对象正对着相机的姿态,使人像呈现出正面的视角。咒语关键词:Front view 。生成思路:正视角的年轻女孩。生成咒语:young girl,front view,ar 16:9 。 后视角:从被摄对象的背后拍摄的视角,以被摄对象的背部为主要构图元素。咒语关键词:Back view angle & Back angle 。生成思路:后视角的年轻女孩。生成咒语:young girl,back view angle,ar 16:9 。 侧视角:观察或拍摄物体或场景时从侧面的角度观察,可用于展示物体的形状和轮廓,或创造深度和距离的感觉。咒语关键词:Side view & Shoulder level view 。生成思路:侧视角的年轻女孩。生成咒语:young girl,Side view,ar 16:9 。 仰视角:观察或拍摄物体或场景时从底部的角度观察,通常会让物体看起来更为庞大和高大,具有一定的视觉冲击力和震撼效果。咒语关键词:Bottom view & Low angle view 。生成思路:仰视角的年轻女孩。生成咒语:young girl,low angle view,ar 16:9 。 俯视角。 此外,还有 Sam Altman 与 Bill Gates 关于 GPT 的未来讨论,以及 Portkey AI 网关这一连接多种 AI 模型的工具。
2024-10-12
比较一下豆包和文心一言
以下是豆包和文心一言的一些比较信息: 豆包: 是字节跳动官方网页版产品。 在中文大模型基准测评 2023 年度报告的 SuperCLUE 基准传统安全能力专项中表现优秀。 文心一言: 由百度全新一代知识增强大语言模型,于 2023 年 3 月 16 日正式发布,10 月 17 日发布 V4.0 版本。 目前已有 7000 万用户。 在计算、逻辑推理、生成与创作、传统安全这 4 大基础能力上排名国内第一。在代码、知识与百科、语言理解与抽取、工具使用能力上排名国内前三。各项能力表现均衡且绝大部分能力有很高水平,综合来看是国内非常有竞争力的大模型。 能力栈较为广泛,可应用的场景较多。重点推荐在查询搜索知识应用、任务拆解规划 Agent、文案写作以及代码编写及纠错等方面的应用。由于在逻辑推理方面的不俗表现,可以重点关注在科学研究、教育、工业方面的落地能力。 此外,文心一言和豆包在国内都有一定的知名度,且文心一言与 Kimi 智能助手、通义千问等都是国内免费的 APP。
2024-10-12
文心一言怎么样
文心一言是百度推出的知识增强大语言模型,已进行多个版本迭代,于 2023 年 10 月 17 日发布 V4.0 版本,目前已有 7000 万用户。 在一些评测中,其表现如下: 在律师答辩状 prompt 评测中: 输入起诉状后,直接给出起诉状范本,未理解 prompt 输出答辩状,提示后输出存在主体少、不专业、错误多等问题,但在提示输出应诉方案时,能按 prompt 结构输出,内容简洁可作框架。 在对当事人提供的证据发表质证意见或制定诉讼方案的评测中: 欢迎语按 prompt 指示输出,对证据分析专业,格式和内容上的质证意见表现出色,结束语和签署委托代理协议的回复也很好。 在中文大模型基准测评 2023 年度报告的 SuperCLUE 基准传统安全能力评测中: 文心一言 4.0 在计算、逻辑推理、生成与创作、传统安全这 4 大基础能力上排名国内第一,在代码、知识与百科、语言理解与抽取、工具使用能力上排名国内前三,各项能力表现均衡且水平较高,能力栈广泛,可应用场景多,重点推荐在查询搜索知识应用、任务拆解规划 Agent、文案写作以及代码编写及纠错等方面的应用,在逻辑推理方面表现不俗,可关注在科学研究、教育、工业方面的落地能力。
2024-10-12
提示词
以下是关于提示词的全面介绍: 一、什么是提示词(Prompt) 在 AI 视频生成中,Prompt 指的是用于指导或引导 AI 模型生成特定视频内容的描述性文本或指令。简单来说,您需要在 Prompt 中描述您想要生成的视频画面。Prompt 一般包含描述性文字、指令参数、情感氛围、参考风格这几个方面。 二、提示词语言 推荐使用英文输入,PixVerse 对英文的理解能力最佳,效果最好。如果您对英文不熟悉,也可以使用自己的语言,PixVerse 的模型可以处理任何语言输入。 三、提示工程 提示工程(Prompt Engineering)是人工智能领域中,特别是在自然语言处理(NLP)和大型语言模型(LLMs)的上下文中,一个相对较新的概念。它涉及设计和优化输入提示(prompts),以引导 AI 模型生成特定类型的输出或执行特定的任务。 提示工程的关键点包括: 1. 精确性:通过精确的提示,可以提高 AI 模型输出的相关性和准确性。 2. 创造性:提示工程需要创造性地思考如何构建问题或请求,以激发 AI 模型的特定能力。 3. 迭代:通常需要多次尝试和调整提示,以获得最佳结果。 4. 上下文理解:提示需要包含足够的上下文信息,以便 AI 模型能够理解并执行所需的任务。 提示词通常指的是直接输入到 AI 模型中的问题、请求或指示,它们是提示工程的一部分。提示词可以非常简单,如“给我总结这篇文章的主要观点”,或者更复杂,如设计一个包含多个步骤和条件的复杂任务。 提示词是实际输入到 AI 系统中的具体文本,用以引导模型的输出。提示工程则是一个更广泛的概念,它不仅包括创建提示词,还涉及理解模型的行为、优化提示以获得更好的性能、以及创造性地探索模型的潜在应用。提示工程的目标是最大化 AI 模型的效用和性能,而提示词是实现这一目标的手段之一。在实际应用中,提示工程可能包括对 AI 模型的深入分析、用户研究、以及对特定任务的定制化提示设计。 四、提示词相关目录 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-10-12
AI在中小学教育中能够提供的支持
AI 在中小学教育中能够提供以下支持: 1. 辅助学生完成课程和任务:可控地引导学生,将部分课程和任务借助 AI 来完成。 2. 培养学生能力:限制部分课程的 AI 使用,以培养学生独立思考和解决问题的能力。 3. 帮助获取信息和学习:可以要求 AI 解释概念,用于自学学习,但要注意对关键数据根据其他来源仔细检查。 4. 协助教师工作:帮助教师节省时间和提高生产力,如备课。 5. 个性化学习计划:分析学生表现,根据知识差距和个人学习风格创建定制的学习路径。 6. 课程开发与学习沉浸:生成图像、文本和视频,转化为补充教育材料、作业和练习题,提供虚拟学习场景。 7. 社会互动与沟通:与新的 AI 工具结合,为学生提供更好的口语和展示沟通的准备工具。 然而,AI 备课与优秀的人类教师相比仍有差距,如缺乏课时设计和合理的教学目标梯度,人机融合是未来的趋势。
2024-10-12
AI小白如何开始
对于 AI 小白,可以按照以下步骤开始: 1. 从基础小任务入手: 让 AI 按照最佳实践(best practice)为您写一个 say hello 的示例程序,并解释每个文件的作用及程序运行的逻辑,通过这种基础且绝对不会出错的小任务,学会必备的调试技能。 比如在学习写 chrome 插件时,可以要求 AI 选择最适合小白上手的技术栈,生成简单的示范项目,包含尽可能全面的典型文件和功能,并讲解每个文件的作用和程序运行的逻辑。如果使用 o1mini,还可以在提示词最后添加“请生成 create.sh 脚本,运行脚本就能直接创建插件所需要的所有文件。请教我如何运行脚本。”(在 Windows 机器上则是 create.cmd),o1mini 会生成一段长代码并给出提示,复制粘贴并执行,可一次性生成多个目录和文件。 2. 明确项目需求: 通过和 AI 的对话,逐步明确项目需求。如果您是训练有素的产品经理,可以忽略这一步。 可以要求 AI 像高级且懂技术的产品经理指导初级产品经理那样,向您提问,帮您梳理产品功能,尤其注意涉及技术方案选择的关键点,一问一答,由全局到细节逐步梳理。之后让 AI 帮助梳理出产品需求文档,在后续开发时每次新起聊天把文档发给 AI 并告知在做第几点功能,会更方便。 需要注意的是,如果您的需求远比 AI 直出的内容复杂,无法一次性直出,那就耐下性子,在 AI 的帮助下一步一步来,并在这个过程中学会一点点编程。
2024-10-12
提取视频文案与台词的AI工具或平台有哪些?
目前常见的可以提取视频文案与台词的 AI 工具或平台有: 1. 剪映:不仅是一款视频编辑软件,也具备一定的视频内容识别和提取文字的功能。 2. 网易见外工作台:提供视频转写等服务。 但需要注意的是,不同工具或平台的提取效果和准确性可能会有所差异,您可以根据自己的需求进行选择和尝试。
2024-10-12