Chat with Wiki - 给ai喂资料

Answer

以下是关于给 AI 喂资料的相关内容：

在 AI 发展过程中，给 AI 提供合适的数据资料至关重要。

回顾 2015 年，当时的 AI 系统较为狭窄和专门化，每次开发新应用都需训练全新模型，且过程艰难。2017 年，《Attention is All You Need》论文介绍的 Transformer 架构改变了格局，其能处理未标记和混乱数据，效率更高。OpenAI 的伊利亚认识到 Transformer 潜力，推动基于此架构的实验，特别是在自然语言处理领域，开发了 GPT 系列模型，收集了海量文本数据，如格雷格所说“给 AI 喂食整个互联网”。

在学习笔记“AI for everyone 吴恩达”中提到，AI 分为 ANI 和 AGI，ANI 有较大发展，AGI 进展不大。ANI 只能做一件事，如智能音箱等应用。机器学习中的监督学习从输入到输出。数据是数据集的集合，可通过手动标注、观察行为、网络下载获取。使用数据时可展示或喂给 AI 团队，数据不一定多就有用，需处理不正确和缺少的数据，同时分为结构化和非结构化数据，机器处理非结构化数据更难。

在“AGI 万字长文（下）| 2024，分叉与洪流”中，提到服务 AI 的商业模式确定性可能更高。合成数据可喂给 AI 模型提高效果，“大量的-质量一般的数据”用于模型初始训练，“质量很高-数量较少-有行业特性”的数据用于模型后期精调。做数据的传统核心竞争力在于获取独特数据和低成本清洗标注，新兴的是 AI 合成数据。此外，新的数据种类如 3D 空间和物理规则相关的传感器数据也值得思考。同时，模型市场/平台中，HuggingFace 提供模型市场服务，在 AI Agent 出现时模型互相调用可能会用到其服务和规则，但也存在闭源寡头的风险。

Content generated by AI large model, please carefully verify (powered by aily)

References

山姆·奥特曼传（二）：OpenAI 的第一次内斗

回顾2015年，AI技术与今天相比还相对简单。那时的AI系统都是非常狭窄和专门化的，能下围棋的系统甚至不能下国际象棋，更不用说理解语言或引导行人过马路了。每次你需要开发一个新的应用，都必须训练一个全新的模型，这需要大量时间和标记数据。而整个过程像是在黑暗中摸索前进：一个新模型被训练出来后，怎么看怎么都像在重复造旧轮子。鲜少有人知道如何造出别出心裁的轮子，更不要谈革命性突破了。然而，2017年，一篇名为《Attention is All You Need》的论文如同一道闪电，照亮了AI的未来道路。这篇由Google Brain团队撰写的论文介绍了Transformer架构，彻底改变了AI领域的格局。它能够处理未标记的、混乱的数据，并且比以前的方法更加高效。这是一个"令人惊讶和痛苦的认识"：最好的AI不是来自最专业的训练技术，而是来自拥有最多数据的人。面对诞生的新架构，OpenAI的技术领袖——伊利亚迅速认识到了Transformer的潜力。伊利亚坚信，AI的下一个重大进展将不再仅仅依赖于算法的微调，而是来自于更大规模、更多样化的数据。这个洞察力为OpenAI后来的发展指明了方向。在他的推动下，OpenAI迅速开始了基于Transformer架构的实验，特别是在自然语言处理领域。他们开发了GPT（Generative Pre-trained Transformer）系列模型，这个系列后来成为了OpenAI最著名的成果之一。研究团队收集了海量的文本数据，涵盖了从科学论文到社交媒体帖子的各种内容。格雷格则形象地将这个过程比喻为"给AI喂食整个互联网"。

学习笔记：AI for everyone吴恩达

AI分为ANI和AGI，ANI得到巨大发展但是AGI还没有取得巨大进展。ANI,artificial narrow intelligence弱人工智能。这种人工智能只可做一件事，如智能音箱，网站搜索，自动驾驶，工厂与农场的应用等。AGI,artificial general intelligence，做任何人类可以做的事[heading5]机器学习[content]监督学习，从A到B，从输入到输出。为什么近期监督学习会快速发展，因为现有的数据快速增长，神经网络规模发展以及算力快速发展。[heading5]什么是数据？[content]数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。如何获取数据，一，手动标注，二，观察行为，三，网络下载。使用数据的方法，如果开始搜集数据，可以马上将数据展示或者喂给某个AI团队，因为大多数AI团队可以反馈给IT团队，说明那种类型数据需要收集，以及应该继续构建那种类型的IT基础框架。数据不一定多就有用，可以尝试聘用AI团队要协助梳理数据。有时数据中会出现，不正确，缺少的数据，这就需要有效处理数据。数据同时分为结构化数据与非结构化数据。结构化数据可以放在巨大的表格中，人们理解图片，视频，文本很简单，但是这种非结构化数据机器处理起来更难一些。

AGI 万字长文（下）| 2024，分叉与洪流

上面讲的都是AI如何服务人；从另一个角度来向，服务AI的商业模式的确定性可能更高。淘金时挣到钱的除了卖铲子的，还有修路的。3.1合成数据意思是生产数据喂给AI模型，提高效果。目前比较多的做法是“大量的-质量一般的数据”可以用在模型初始训练(包括无监督学习和有监督学习)，“质量很高-数量较少-有行业特性”的数据一般会用在模型后期精调/行业化精调上；不过也有公司在尝试把高质量数据放在预训练的退火阶段，也取得了一些效果。做数据的方法也多了起来。传统做数据的核心竞争力在于1)可以收集到别人拿不到的数据；2)低成本做大量数据清洗和标注。刚刚兴起的，是AI合成数据，也就是用AI来生成数据再喂给其他AI。现在有不少创业公司在做这件事情。“上篇”也讲了，合成数据会逐渐成为下一代模型基础训练的主要数据来源，人生产的数据主要会用在最后的精调/对齐上。此外，新的数据种类也是一个值得思考的点。当前数据主要集中在文本、照片、视频；但如果模型需要对于3D空间和物理规则有更好的理解，应该需要更多的其他种类传感器的数据，如：惯性/重力，应力，电磁，温度，湿度,etc……3.2模型市场/平台当前最火的AI公司，除了做模型的，还有一个特殊的HuggingFace(HF)。这家公司提供的服务是模型市场。这个服务至关重要：如果按照现在的市场格局，未来在AI Agent出现时，模型之间互相调用基本都会用到HF的服务和规则。当然，这个模式也是有风险的：那就是闭源寡头。HF相当于在押注AGI时代的开源繁荣。它才是真正和OpenAI走另一条道路的公司。