Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

给ai喂资料

Answer

以下是关于给 AI 喂资料的相关内容:

在 AI 发展过程中,给 AI 提供合适的数据资料至关重要。

回顾 2015 年,当时的 AI 系统较为狭窄和专门化,每次开发新应用都需训练全新模型,且过程艰难。2017 年,《Attention is All You Need》论文介绍的 Transformer 架构改变了格局,其能处理未标记和混乱数据,效率更高。OpenAI 的伊利亚认识到 Transformer 潜力,推动基于此架构的实验,特别是在自然语言处理领域,开发了 GPT 系列模型,收集了海量文本数据,如格雷格所说“给 AI 喂食整个互联网”。

在学习笔记“AI for everyone 吴恩达”中提到,AI 分为 ANI 和 AGI,ANI 有较大发展,AGI 进展不大。ANI 只能做一件事,如智能音箱等应用。机器学习中的监督学习从输入到输出。数据是数据集的集合,可通过手动标注、观察行为、网络下载获取。使用数据时可展示或喂给 AI 团队,数据不一定多就有用,需处理不正确和缺少的数据,同时分为结构化和非结构化数据,机器处理非结构化数据更难。

在“AGI 万字长文(下)| 2024,分叉与洪流”中,提到服务 AI 的商业模式确定性可能更高。合成数据可喂给 AI 模型提高效果,“大量的-质量一般的数据”用于模型初始训练,“质量很高-数量较少-有行业特性”的数据用于模型后期精调。做数据的传统核心竞争力在于获取独特数据和低成本清洗标注,新兴的是 AI 合成数据。此外,新的数据种类如 3D 空间和物理规则相关的传感器数据也值得思考。同时,模型市场/平台中,HuggingFace 提供模型市场服务,在 AI Agent 出现时模型互相调用可能会用到其服务和规则,但也存在闭源寡头的风险。

Content generated by AI large model, please carefully verify (powered by aily)

References

山姆·奥特曼传(二):OpenAI 的第一次内斗

回顾2015年,AI技术与今天相比还相对简单。那时的AI系统都是非常狭窄和专门化的,能下围棋的系统甚至不能下国际象棋,更不用说理解语言或引导行人过马路了。每次你需要开发一个新的应用,都必须训练一个全新的模型,这需要大量时间和标记数据。而整个过程像是在黑暗中摸索前进:一个新模型被训练出来后,怎么看怎么都像在重复造旧轮子。鲜少有人知道如何造出别出心裁的轮子,更不要谈革命性突破了。然而,2017年,一篇名为《Attention is All You Need》的论文如同一道闪电,照亮了AI的未来道路。这篇由Google Brain团队撰写的论文介绍了Transformer架构,彻底改变了AI领域的格局。它能够处理未标记的、混乱的数据,并且比以前的方法更加高效。这是一个"令人惊讶和痛苦的认识":最好的AI不是来自最专业的训练技术,而是来自拥有最多数据的人。面对诞生的新架构,OpenAI的技术领袖——伊利亚迅速认识到了Transformer的潜力。伊利亚坚信,AI的下一个重大进展将不再仅仅依赖于算法的微调,而是来自于更大规模、更多样化的数据。这个洞察力为OpenAI后来的发展指明了方向。在他的推动下,OpenAI迅速开始了基于Transformer架构的实验,特别是在自然语言处理领域。他们开发了GPT(Generative Pre-trained Transformer)系列模型,这个系列后来成为了OpenAI最著名的成果之一。研究团队收集了海量的文本数据,涵盖了从科学论文到社交媒体帖子的各种内容。格雷格则形象地将这个过程比喻为"给AI喂食整个互联网"。

学习笔记:AI for everyone吴恩达

AI分为ANI和AGI,ANI得到巨大发展但是AGI还没有取得巨大进展。ANI,artificial narrow intelligence弱人工智能。这种人工智能只可做一件事,如智能音箱,网站搜索,自动驾驶,工厂与农场的应用等。AGI,artificial general intelligence,做任何人类可以做的事[heading5]机器学习[content]监督学习,从A到B,从输入到输出。为什么近期监督学习会快速发展,因为现有的数据快速增长,神经网络规模发展以及算力快速发展。[heading5]什么是数据?[content]数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。如何获取数据,一,手动标注,二,观察行为,三,网络下载。使用数据的方法,如果开始搜集数据,可以马上将数据展示或者喂给某个AI团队,因为大多数AI团队可以反馈给IT团队,说明那种类型数据需要收集,以及应该继续构建那种类型的IT基础框架。数据不一定多就有用,可以尝试聘用AI团队要协助梳理数据。有时数据中会出现,不正确,缺少的数据,这就需要有效处理数据。数据同时分为结构化数据与非结构化数据。结构化数据可以放在巨大的表格中,人们理解图片,视频,文本很简单,但是这种非结构化数据机器处理起来更难一些。

AGI 万字长文(下)| 2024,分叉与洪流

上面讲的都是AI如何服务人;从另一个角度来向,服务AI的商业模式的确定性可能更高。淘金时挣到钱的除了卖铲子的,还有修路的。3.1合成数据意思是生产数据喂给AI模型,提高效果。目前比较多的做法是“大量的-质量一般的数据”可以用在模型初始训练(包括无监督学习和有监督学习),“质量很高-数量较少-有行业特性”的数据一般会用在模型后期精调/行业化精调上;不过也有公司在尝试把高质量数据放在预训练的退火阶段,也取得了一些效果。做数据的方法也多了起来。传统做数据的核心竞争力在于1)可以收集到别人拿不到的数据;2)低成本做大量数据清洗和标注。刚刚兴起的,是AI合成数据,也就是用AI来生成数据再喂给其他AI。现在有不少创业公司在做这件事情。“上篇”也讲了,合成数据会逐渐成为下一代模型基础训练的主要数据来源,人生产的数据主要会用在最后的精调/对齐上。此外,新的数据种类也是一个值得思考的点。当前数据主要集中在文本、照片、视频;但如果模型需要对于3D空间和物理规则有更好的理解,应该需要更多的其他种类传感器的数据,如:惯性/重力,应力,电磁,温度,湿度,etc……3.2模型市场/平台当前最火的AI公司,除了做模型的,还有一个特殊的HuggingFace(HF)。这家公司提供的服务是模型市场。这个服务至关重要:如果按照现在的市场格局,未来在AI Agent出现时,模型之间互相调用基本都会用到HF的服务和规则。当然,这个模式也是有风险的:那就是闭源寡头。HF相当于在押注AGI时代的开源繁荣。它才是真正和OpenAI走另一条道路的公司。

Others are asking
如何让企业微信可以接上 AI?让我的企业微信号变成一个 AI 客服
要让企业微信接上 AI 并变成一个 AI 客服,可以参考以下内容: 1. 基于 COW 框架的 ChatBot 实现方案:这是一个基于大模型搭建的 Chat 机器人框架,可以将多模型塞进微信(包括企业微信)里。张梦飞同学写了更适合小白的使用教程,链接为: 。 可以实现打造属于自己的 ChatBot,包括文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等功能,以及常用开源插件的安装应用。 正式开始前需要知道:本实现思路需要接入大模型 API 的方式实现(API 单独付费)。 风险与注意事项:微信端因为是非常规使用,会有封号危险,不建议主力微信号接入;只探讨操作步骤,请依法合规使用,大模型生成的内容注意甄别,确保所有操作均符合相关法律法规的要求,禁止将此操作用于任何非法目的,处理敏感或个人隐私数据时注意脱敏,以防任何可能的滥用或泄露。 支持多平台接入,如微信、企业微信、公众号、飞书、钉钉等;多模型选择,如 GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等等;多消息类型支持,能处理文本、语音和图片,以及基于自有知识库进行定制的企业智能客服功能;多部署方法,如本地运行、服务器运行、Docker 的方式。 2. DIN 配置:先配置 FastGpt、OneAPI,装上 AI 的大脑后,可体验知识库功能并与 AI 对话。新建应用,在知识库菜单新建知识库,上传文件或写入信息,最后将拥有知识库能力的 AI 助手接入微信。
2025-05-09
围棋AI
围棋 AI 领域具有重要的研究价值和突破。在古老的围棋游戏中,AI 面临着巨大挑战,如搜索空间大、棋面评估难等。DeepMind 团队通过提出全新方法,利用价值网络评估棋面优劣,策略网络选择最佳落子,且两个网络以人类高手对弈和 AI 自我博弈数据为基础训练,达到蒙特卡洛树搜索水平,并将其与蒙特卡洛树搜索有机结合,取得了前所未有的突破。在复杂领域 AI 第一次战胜人类的神来之笔 37 步,也预示着在其他复杂领域 AI 与人类智能对比的进一步突破可能。此外,神经网络在处理未知规则方面具有优势,虽然传统方法在处理象棋问题上可行,但对于围棋则困难重重,而神经网络专门应对此类未知规则情况。关于这部分内容,推荐阅读《这就是 ChatGPT》一书,其作者备受推崇,美团技术学院院长刘江老师的导读序也有助于了解 AI 和大语言模型计算路线的发展。
2025-05-08
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
Ai在设备风控场景的落地
AI 在设备风控场景的落地可以从以下几个方面考虑: 法律法规方面:《促进创新的人工智能监管方法》指出,AI 的发展带来了一系列新的安全风险,如对个人、组织和关键基础设施的风险。在设备风控中,需要关注法律框架是否能充分应对 AI 带来的风险,如数据隐私、公平性等问题。 趋势研究方面:在制造业中,AI Agent 可用于生产决策、设备维护、供应链协调等。例如,在工业设备监控与预防性维护中,Agent 能通过监测传感器数据识别异常模式,提前通知检修,减少停机损失和维修成本。在生产计划、供应链管理、质量控制、协作机器人、仓储物流、产品设计、建筑工程和能源管理等方面,AI Agent 也能发挥重要作用,实现生产的无人化、决策的数据化和响应的实时化。
2025-04-20
ai视频
以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总: 4 月 11 日: Pika 上线 Pika Twists 能力,可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中,结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术,可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术,实现从单张图片快速生成超逼真的 3D 头像,在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage,通过图片生成可自由拼装 3D 场景,再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型,无缝支持各种视频生成任务(文本/图像/视频到视频)。 4 月 9 日: ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下,可生成完整的 1 分钟视频。 4 月 14 日: 字节发布一款经济高效的视频生成基础模型 Seaweed7B。 可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。
2025-04-20
哪里可以搜到dify的相关学习资料
以下是一些可以搜到 Dify 相关学习资料的途径: 1. 您可以通过以下链接获取相关学习资料:https://docs.dify.ai/v/zhhans/gettingstarted/installselfhosted/dockercompose 。这些命令通常在宝塔面板的终端安装,若想了解命令的含义,可直接询问 AI 。 2. 微信文章: ,该文章介绍了如何在几分钟内使用 Dify 平台快速定制网站的 AI 智能客服,即使是非技术人员也能操作。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-04-10
AI在人力资源中的实践应用资料
以下是关于 AI 在人力资源中的实践应用资料: 在人力资源管理领域,AI 的应用覆盖了多个环节,显著提高了工作效率。 在招聘初期,AI 可用于职位描述生成、简历分析、面试题设计等方面。 在员工绩效评估中,AI 能够分析员工工作表现,识别绩效趋势和提升点,为管理层提供数据支持的绩效反馈。 在员工培训与发展方面,AI 也能发挥作用。 相关报告推荐: 《》预测,随着技术进步,AI 将进一步推动个性化人力资源管理,创造无人值守的 HR 平台,推动企业持续发展。 此外,在全行业中,基础办公提效如 ppt、excel、会议报告、策划会、文案包装、图文海报、客服机器人 bot 等,都可以从【单个任务 task>角色 role>角色间协同 collaboration】显著提高工作效率。
2025-03-31
我是一名0基础的AI使用者,如果我需要熟练的搭建自己coze来完成一些业务工作,我的学习路径是什么样的?可以为我推荐一个学习计划,包括学习的资料获取途径和资料推荐吗?
以下是为您推荐的从 0 基础学习搭建自己的 Coze 来完成业务工作的学习路径和学习计划: 学习路径: 1. 了解 Coze AI 应用的背景和现状,包括其发展历程、适用场景和当前的局限性。 2. 熟悉创建 AI 应用的操作界面,包括学习业务逻辑和用户界面的搭建。 3. 掌握前端和后端的基础知识,了解其在 Coze 应用中的作用。 4. 学习容器的操作和页面布局技巧。 学习计划: 1. 资料获取途径:可以通过飞书知识库获取相关学习资料。 2. 资料推荐: “90 分钟从 0 开始打造你的第一个 Coze 应用:证件照 2025 年 1 月 18 日副本”,其中包含智能纪要和智能章节,详细介绍了 Coze 应用的创建过程、界面讲解、前端与后端基础及界面组件布局、容器操作与页面布局等内容。 (筹划中)「Agent 共学」之“两天学会用 AI 建站”,其中的共学日程表可能会提供相关的学习安排和指导。 在学习过程中,建议您重点熟悉桌面网页版的用户界面,按照资料中的步骤逐步实践,遇到问题及时查阅资料或寻求帮助。祝您学习顺利!
2025-03-31
帮我提取五份关于基础AI或者大数据学习的资料,我给发电厂的领导学习
很抱歉,目前没有为您找到五份关于基础 AI 或者大数据学习的具体资料。但您可以通过以下途径获取相关资料: 1. 在线教育平台,如 Coursera、EdX 等,上面有许多关于 AI 和大数据的基础课程。 2. 相关的专业书籍,例如《人工智能:一种现代方法》《大数据时代》等。 3. 学术期刊网站,如 IEEE Xplore、ScienceDirect 等,能获取最新的研究成果和技术报告。 4. 知名科技公司的技术博客,如谷歌、微软等,它们会分享一些实用的技术见解和案例。 5. 相关的开源项目网站,如 GitHub,从中可以了解实际的项目代码和实现方法。
2025-03-28
MCP是什么 ?通往AGI之路中有相关的学习资料吗?
MCP(模型上下文协议)是由 Anthropic 于 2024 年 11 月推出的一项创新标准。它旨在实现大语言模型与第三方数据源的无缝连接,通过支持内容存储库、业务工具和开发环境等多种外部服务,让 AI 模型获取更丰富的上下文信息,从而生成更加精准、相关的智能回答。 Lark 认为,用一句话概括,MCP 是一种通用的方式,向各类大语言模型提供数据源和工具。官网解释:MCP 是一个开放协议,用于标准化应用程序向大语言模型提供上下文的方式,可以将其想象成 AI 应用程序的 USBC 接口。 此外,还有文章介绍了如何通过 MCP 连接 Claude 3.7 与 Blender,实现一句话生成 3D 场景的功能。随着 MCP 的崛起,AI 不再是数据孤岛,未来的 AI 智能体将能自主完成更复杂的任务,开启创作的新纪元。
2025-03-25
四轮腿机器人资料
以下是关于四轮腿机器人的相关资料: 宇树科技在该领域的情况: 推动了 AI + 机器人技术的标准化、模块化、智能化,实现快速、低成本落地。 基于企业训练数据完善深度学习训练模型及预测代码,通过四足机器人完成救援场景任务执行。 其四足机器人产品能力出众,多场景头部客户落地验证。 发布了 Aliengo 四足机器人,采用全新设计的动力系统,更轻量集成,一体化机身设计。 其 CEO 王兴兴在硕士期间独立开发了低成本外转子无刷电机驱动的高性能四足机器人 Xdog,开创了全球低成本高性能四足机器人方案的技术先河,并于 2016 年创立宇树科技。 2021 年 6 月发布伴随仿生机器人 Go1,以超低价格和优秀的感知运动能力,成为人类科技史上首款真正走入大众生活的移动机器人。2022 年 2 月“泰哥”亮相,2022 年 4 月推出 PUMP 健身泵。2023 年 4 月发布仿生 4D 激光雷达 L1。未来还将推出 Go 1 升级版、行业版、人形机器人等产品。 具身智能方面: 具身智能是将机器学习算法适配至物理实体,从而与物理世界交互的人工智能范式。以 ChatGPT 为代表的“软件智能体”使用大模型通过网页端、手机 APP 与用户进行交互,具身智能体则将大模型嵌入到物理实体上,通过机器配备的传感器与人类交流,强调智能体与物理环境之间的交互。通俗讲就是给人工智能装上“身体”,人形机器人是具身智能的代表产品。 具身智能的三要素包括“本体”(硬件载体)、“智能”(大模型、语音、图像、控制、导航等算法)、“环境”(本体所交互的物理世界),本体、智能、环境的高度耦合是高级智能的基础,不同环境下会有不同形态的硬件本体适应环境,比如室内平地适用轮式机器人,崎岖不平地面适用四足机器人。 具身智能的行动分为“感知 决策 行动 反馈”四个步骤,分别由四个模块完成,并形成一个闭环。
2025-03-25