Navigate to WaytoAGI Wiki →
Home/All Questions
学习AI
以下是新手学习 AI 的方法和建议: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,如图像、音乐、视频等,可根据兴趣选择特定模块深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习后,实践是巩固知识的关键,尝试使用各种产品做出作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解其工作原理和交互方式,获得对 AI 在实际应用中表现的第一手体验,并激发对 AI 潜力的认识。 对于中学生学习 AI,建议如下: 1. 从编程语言入手学习: 可以从 Python、JavaScript 等编程语言开始,学习编程语法、数据结构、算法等基础知识,为后续的 AI 学习打下基础。 2. 尝试使用 AI 工具和平台: 可以使用 ChatGPT、Midjourney 等 AI 生成工具,体验 AI 的应用场景。 探索一些面向中学生的 AI 教育平台,如百度的“文心智能体平台”、Coze 智能体平台等。 3. 学习 AI 基础知识: 了解 AI 的基本概念、发展历程、主要技术如机器学习、深度学习等。 学习 AI 在教育、医疗、金融等领域的应用案例。 4. 参与 AI 相关的实践项目: 参加学校或社区组织的 AI 编程竞赛、创意设计大赛等活动。 尝试利用 AI 技术解决生活中的实际问题,培养动手能力。 5. 关注 AI 发展的前沿动态: 关注 AI 领域的权威媒体和学者,了解 AI 技术的最新进展。 思考 AI 技术对未来社会的影响,培养对 AI 的思考和判断能力。 记住,学习 AI 是一个长期的过程,需要耐心和持续的努力。不要害怕犯错,每个挑战都是成长的机会。随着时间的推移,您将逐渐建立起自己的 AI 知识体系,并能够在这一领域取得成就。完整的学习路径建议参考「通往 AGI 之路」的布鲁姆分类法,设计自己的学习路径。
2024-12-11
AI大模型和生成式AI是什么关系
AI 大模型和生成式 AI 有着密切的关系。 生成式 AI 是一种能够生成文本、图片、音频、视频等内容形式的技术。生成式 AI 生成的内容被称为 AIGC。 大语言模型(LLM)属于 AI 大模型的一种。对于生成式 AI 来说,其中生成图像的扩散模型不属于大语言模型。对于大语言模型,生成只是其众多处理任务中的一个,例如谷歌的 BERT 模型,可用于语义理解(如上下文理解、情感分析、文本分类),但不太擅长文本生成。 2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型,它完全基于自注意力机制来处理序列数据,比 RNN 更适合处理文本的长距离依赖性。 AI 领域还包括人工智能(AI)、机器学习(包括监督学习、无监督学习、强化学习)、深度学习(参照人脑有神经网络和神经元)等相关技术名词。监督学习使用有标签的训练数据,算法目标是学习输入和输出之间的映射关系,包括分类和回归。无监督学习的数据没有标签,算法自主发现规律,经典任务如聚类。强化学习从反馈里学习,以最大化奖励或最小化损失,类似训小狗。神经网络可用于监督学习、无监督学习、强化学习。
2024-12-11
什么是AGI
AGI 即强人工智能或通用人工智能,是指具有人类水平的智能和理解能力的 AI 系统。它有能力完成任何人类可以完成的智力任务,适用于不同的领域,同时拥有某种形式的意识或自我意识。目前还只是一个理论概念,还没有任何 AI 系统能达到这种通用智能水平。 AGI 有五个发展等级: 1. 聊天机器人:具备基本对话能力,主要依赖预设脚本和关键词匹配,用于客户服务和简单查询响应。 2. 推理者:具备人类推理水平,能够解决复杂问题,如 ChatGPT,能根据上下文和文件提供详细分析和意见。 3. 智能体:不仅具备推理能力,还能执行全自动化业务,但目前许多 AI Agent 产品在执行任务后仍需人类参与,尚未达到完全智能体的水平。 4. 创新者:能够协助人类完成新发明,如谷歌 DeepMind 的 AlphaFold 模型,可以预测蛋白质结构,加速科学研究和新药发现。 5. 组织:最高级别的 AI,能够自动执行组织的全部业务流程,如规划、执行、反馈、迭代、资源分配和管理等。 更多信息请见 。OpenAI 原计划在 2027 年发布的 Q 2025(GPT8)将实现完全的 AGI,但由于埃隆·马斯克的诉讼而被暂停。GPT3 及其半步后继者 GPT3.5 在某种程度上是朝着 AGI 迈出的巨大一步。
2024-12-11
sora优势
Sora 是 OpenAI 于 2024 年 2 月发布的文本到视频的生成式 AI 模型,具有以下优势: 1. 核心技术:Sora 的核心是一个预训练的扩散变换器,能够解析文本并理解复杂的用户指令。它将原始输入视频压缩成时空潜在表示,提取时空潜在补丁作为构建块,通过多步精炼生成视频。 2. 模拟能力:Sora 进行大规模训练,展现出模拟物理世界各方面的显著能力,包括具有动态相机运动、长距离连贯性、对象持久性和模拟与世界的简单互动,还能模拟数字环境。 3. 促进创造力:能根据文本提示快速生成现实或高度风格化的视频,加速设计过程,提高艺术家、电影制作人和设计师的创造力。 4. 数据预处理:Sora 能够在原始尺寸上训练、理解和生成视频及图像,拥抱视觉数据多样性,在各种格式上采样而不损害原始尺寸,显著改善生成视频的构图和框架,实现更自然和连贯的视觉叙事。 5. 生成能力:能根据用户文本指令生成长达 1 分钟的高质量视频,包含多个执行特定动作的角色以及复杂背景的详细场景,具有高视觉质量和引人入胜的视觉连贯性,能生成细腻运动和互动描绘的扩展视频序列。
2024-12-11
0基础如何学习AI
对于 0 基础学习 AI,以下是一些建议: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,比如图像、音乐、视频等,可根据自己的兴趣选择特定模块深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习后,实践是巩固知识的关键,尝试使用各种产品做出作品。 在知识库中有很多实践后的作品、文章分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解其工作原理和交互方式。 对于中学生学习 AI: 1. 从编程语言入手学习: 可以从 Python、JavaScript 等编程语言开始,学习编程语法、数据结构、算法等基础知识。 2. 尝试使用 AI 工具和平台: 使用 ChatGPT、Midjourney 等 AI 生成工具,体验其应用场景。 探索面向中学生的 AI 教育平台,如百度的“文心智能体平台”、Coze 智能体平台等。 3. 学习 AI 基础知识: 了解 AI 的基本概念、发展历程、主要技术(如机器学习、深度学习等)。 学习 AI 在教育、医疗、金融等领域的应用案例。 4. 参与 AI 相关的实践项目: 参加学校或社区组织的 AI 编程竞赛、创意设计大赛等活动。 尝试利用 AI 技术解决生活中的实际问题,培养动手能力。 5. 关注 AI 发展的前沿动态: 关注 AI 领域的权威媒体和学者,了解最新进展。 思考 AI 技术对未来社会的影响,培养思考和判断能力。 此外,“Agent 共学”之“两天学会用 AI 建站”的共学日程表如下: |时间|内容|参与者要求|分享人| ||||| |10 月 13 日 20:00 开始|喂饭级跟着学建站|0 基础小白|大雨| |10 月 14 日 20:00 开始|用 AI 打造你专属的个人门户网站|0 基础小白|大雨、idoubi| |10 月 15 日 20:00 开始|用 AI 打造你专属的浏览器插件|能读懂单词的意思|Garman、银海| 后续日程表: |时间|内容|参与者要求|分享人| ||||| ||用云服务器建立个人博客站|0 基础小白|梦飞| ||在网站上挂上你的 agent 应用|0 基础小白|大雨| ||让 Cursor 成为你的编程小助理|有一点点编程语感|大雨| ||用 AI 做一个网页|??|大圣/艾木| 随着 AI 的发展,大家对 AI 的诉求变得越来越具体,简单的 ChatBot 的弊端日渐凸显,基于 LLWeng 对于 Agent 的结构设计,Coze,Dify 等平台在应用探索上有了很大的进展。年初吴恩达基于 Agent 应用、场景、需求等分析以后,做了 4 个分类。然而这些平台都有着固有局限,正如低代码平台,无代码平台历经数十年的发展,依然无法很好平衡复杂业务场景无法满足,简单业务场景 ROI 不高等限制。对于专业 IT 人士,coze 等平台不够自由,局限性过大,对于普通用户,想要完成复杂的业务场景又有着诸多的限制。软件技术的发展,一直在对抗需求的日益复杂化,最终不得不借助编程这个朴实的手段。
2024-12-11
big model页面如何进入
以下是关于进入 big model 页面的相关信息: 1. 模型下载: 大多数模型可在 Civitai(C 站)下载,网址为:https://civitai.com/ 。 使用 C 站的方法: 科学上网(自行解决)。 点击右上角筛选按钮,在框中找到所需模型类型,如 Checkpoint=大模型、LoRA=Lora 。 看照片,感兴趣的点进去,点击右边“Download”保存到电脑本地。还可点击左上角“Images”,找到喜欢的图片点进去,查看全部信息,点击 Lora 和大模型可直接跳转到下载页面。复制图片信息可点击最下面“Copy...Data”。 2. 模型下载位置: 大模型:SD 根目录即下载 SD 时存放的文件夹。 Lora 和 VAE 也有相应的存放位置。 3. 分辨模型类型: 若不知下载的模型类型及应放的文件夹,可使用秋叶的模型解析工具 https://spell.novelai.dev/ ,将模型拖动到空白处即可自动弹出模型信息。 此外,还有关于 Lora 生图的步骤和 Llama3 部署的相关内容: 1. Lora 生图: 点击预览模型中间的生图会自动跳转页面。 可调节模型强度,建议在 0.6 1.0 之间。 能添加 lora 文件,显示训练过的所有 lora 的轮次。 输入正向提示词,选择生成图片数量、尺寸等。 采样器和调度器新手可默认,迭代步数在 20 30 之间,CFG 在 3.5 7.5 之间调整。 随机种子 1 代表随机生成图,复制好的随机种子可粘贴以生成近似结果。 合适的种子和参数可进行高清修复,选择放大倍数等。 2. Llama3 部署: 下载大模型可用于推理,有使用 API 和部署简单界面两种对话方式。 面向小白,可参考部署 webdemo 服务的代码,在/root/autodltmp 路径下新建 chatBot.py 文件并输入相应内容,启动 Webdemo 服务,在终端运行命令,将端口映射到本地,在浏览器中打开链接 http://localhost:6006/ 即可看到聊天界面。
2024-12-11
文本转音乐工具
以下是一些文本转音乐的工具: 1. Chirp:利用先进的语言模型,将输入的文本转换成音乐。提供了一系列音乐流派、子流派、风格用词和歌曲类型,可灵活组合给其提供风格指引。 2. StyleTTS 2:一个开源的媲美 Elevenlabs 的文本转语音工具,能结合文本角色内容和场景音快速生成有声小说。具有多样化的语音风格、更自然的语音、高效生成、精确的语音控制、接近真人的语音合成、适应不同说话者等特点。其工作原理是利用风格扩散和与大型语音语言模型(SLM)的对抗性训练来实现接近人类水平的 TTS 合成。 3. MusicLM(Google):Google 的文本转音乐生成器,虽不能直接使用播放,但 Google 已发布音频样本,可收听其生成的音频样本。项目演示地址:https://googleresearch.github.io/seanet/musiclm/examples/ 相关论文:《MusicLM:Generating Music From Text》https://arxiv.org/pdf/2301.11325.pdf 4. Jukebox(OpenAI):使用神经网络生成音乐,包括基本的歌唱,作为各种流派和艺术家风格的原始音频。项目地址和论文地址分别为: 、https://cdn.openai.com/papers/jukebox.pdf 并进行了艺术家和流派分析。
2024-12-11
Coze中可以使用数学计算式么
在 Coze 中,数学中的变量是可以使用的。例如在数学方程式“y = 2x + 3”中,x 和 y 都是变量。在数学中,变量是用来表示未知数或可以改变的数值。 Coze 是由字节跳动推出的 AI 聊天机器人和应用程序编辑开发平台,专为开发下一代 AI 聊天机器人而设计。它具有多语言模型支持、插件系统、知识库功能、数据库和记忆能力、工作流设计、多代理模式、免费使用、易于发布和分享等特点。 COZE 是字节跳动旗下子公司推出的 AI Agent 构建工具,允许用户在无编程知识的基础上,使用自然语言和拖拽等方式构建 Agent。记账管家是基于 COZE 平台的能力搭建的一个记账应用,可以自动记账并计算账户余额,且不会丢失记账记录。
2024-12-11
文生图
以下是关于文生图的相关知识: 简明操作流程: 定主题:明确生成图片的主题、风格和要表达的信息。 选择基础模型 Checkpoint:根据主题选择贴近的模型,如麦橘、墨幽的系列模型。 选择 lora:寻找与生成内容重叠的 lora 以控制图片效果和质量。 ControlNet:可控制图片中特定图像,如人物姿态、特定文字等,属于高阶技能。 局部重绘:下篇再教。 设置 VAE:选择 840000 即可。 Prompt 提示词:用英文写需求,使用单词和短语组合,用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写避免产生的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:一般选 DPM++ 2M Karras,也可参考模型作者推荐的采样器。 采样次数:选 DPM++ 2M Karras 时,采样次数在 30 40 之间。 尺寸:根据喜好和需求选择,注意尺寸并非越大越好。 提示词: 分为内容型提示词和标准化提示词,用于描述想要的画面。例如选择 anythingV5 模型,输入“1 个女孩,黑发,长发,校服,向上看,短袖,粉红色的花,户外,白天,蓝色的天空,云,阳光,上身,侧面”等提示词,并翻译成英文。采样迭代步数通常控制在 20 40 之间。 采样方法:常用的有 Euler a、DPM++2S a Karras、DPM++2M Karras、DPM++ SDE Karras、DDIM 等,有的模型有指定算法,搭配使用效果更好。 比例和尺寸:高宽比尽量在 512x512 数值附近,如 800:400。太大的数值可能导致奇怪构图,若想要高清图可使用高清修复功能放大图像倍率。 文生图工具: DALL·E:OpenAI 推出,可根据文本描述生成逼真图片。 StableDiffusion:开源,能生成高质量图片,支持多种模型和算法。 MidJourney:图像生成效果好,界面设计用户友好,在创意设计人群中流行。 更多工具可在 WaytoAGI 网站(https://www.waytoagi.com/category/104 )查看。
2024-12-11
Coze中能给变量在赋值中嵌入其它变量并同时 使用公式么
在 Coze 中,变量是以 keyvalue 形式存储数据的,是 Bot 的数据记忆功能。大语言模型会根据用户输入内容进行语义匹配,为定义的变量赋值并保存值。您可以在提示词中为 Bot 声明某个变量的具体使用场景。 创建变量可在创建 Bot 的页面进行。对变量进行赋值时,首先可以在给大模型的提示词中做声明,例如:“与您的用户进行互动,并根据 user_language 变量,用他们偏好的语言在线搜索。除非另有设置,用户查询的语言应指导您的回答和搜索”。这段提示词相当于告诉了 LLM,user_language 这个变量该如何赋值以及使用。 变量创建并赋值后,如 user_language 变量,就可以在工作流中作为变量使用。这一块解释起来有些抽象,具体可以参考后面的例子,真正用一遍就懂了。 综上,在 Coze 中能给变量在赋值中嵌入其它变量并同时使用公式,但具体的实现方式和规则需要根据具体的提示词和使用场景来确定。
2024-12-11