AI 和大模型的关系如下:
总之,大模型的出现和发展推动了 AI 的变革,其运作原理和特点与传统的 AI 技术有所不同,具有独特的优势和挑战。
在深入了解了AI的运作原理,并盘了众多当前市面上AI的落地产品之后,我们不妨重新回到最开始的问题。此次AI大模型究竟引发了怎样的变革?在思考这个问题之前,我想先分享下去年刚接触大模型时,困扰我的一个问题。即大模型与当下的智能语音技能的NLU存在什么差异?此前,我也曾涉足过一些语音产品的设计逻辑,知道语音技能链路其实就是把声音转为ASR,再对文本进行NLU理解,然后映射到对应的语音技能表中,最后让程序依据相应的语音技能指令完成逻辑。乍看起来,大模型能实现的,通过语音技能似乎也能达成,那我们引入大模型的意义在哪里呢?抱着这样的疑问,我尝试去理解了大模型的原理。当我在初步理解大模型的原理之后,我发现二者还是存在本质性的差别的。差别在于,后者的语音技能NLU仅是通过一系列规则、分词策略等训练而成的产物。而且NLU的运作逻辑规律都是可观测的,具有if-else式的逻辑性。而大模型,则是凭借海量的数据,在向量空间中学习知识的关联性从而形成的,其运作逻辑难以观测,已然脱离了if-else的层面。所以,我们再度审视这个问题,此次的AI变革到底带来了什么?汪华老师在前不久的分享中,对于此次AI变革的量级提出了观点:他认为这次AI的变革量级,100%能够抵达第一个阶段,即与移动互联网处于同一级别;50%有可能发展至第二个阶段,即与蒸汽机的出现同量级;至于能否到达第三个阶段,即AGI,尚不明确。在这一点上,我的看法与他一致。因为我觉得,AI此次带来的变革,已然脱离了传统互联网基于if-else的最底层逻辑,这几乎等同于重塑了互联网,这不就相当于蒸汽机级别般的变革吗?
下图(图11)中的左下角展示了生物神经网络和人工神经网络的对比,早在初中生物课本上,我们就学习了解过大脑神经元细胞的基本结构,正是一个个这样的细胞彼此“手拉手”交织出一张庞大复杂的神经网络,让我们拥有了引以为傲的智能。计算机科学家/工程师们以此为灵感,利用概览模型很巧妙的在计算机上实现了对人脑这种结构的模仿,只不过由于计算机是在二进制下工作的,因而其每个神经元节点也更为简单(本质上只是将接受的输入进行了一些简单的加法和乘法运算,而后输出)。下图中关于激活函数(用来实现归一化操作)和概率模型的内容,不感兴趣的小伙伴可放心跳过,如果你想了解更多,可检索这些关键词并关注这篇发表于1957年的论文(https://www.ling.upenn.edu/courses/cogs501/Rosenblatt1958.pdf)。图11生物神经网络和人工神经网络事实上,正如人类大脑是一个混沌系统一样,大模型内部也是一个混沌系统,正如我们无法知道自己大脑里某个特定的神经元细胞存储着什么具体的信息或知识,即使是OpenAI的科学家,也同样也无法解释大模型内的微观细节。这种不确定带来的“不安感”让人有些不爽,但有一点似乎是确定的,那就是学习人类大脑结构的AI,不仅学去了我们身上的诸多优点,也学习了其他的特质,而这些特质,在许多实际应用中表现为了“缺陷”和“不足”。我们不妨带入自身,一起来尝试思考回答以下问题:问题1问题2问题3问题4(这是一句话,遮住了部分文字)问题5问题6我做过大量真实的调查:
[heading2]一、写在前面[content]写这篇文章的初衷,源于近期涌起的唱衰AI大模型的风潮。不少人在对大模型的机制及当下的商业形态进行了初步了解后,便断言大模型是一场“骗局”,是资本操控的闹剧。同时,近来不管是投资领域还是各大厂,似乎都开始谨慎衡量做大模型这件事的投资回报率(ROI)。难道大模型当真不像去年众人所认定的那样,是一场所谓的“革命”吗?唱衰大模型的人,大多持有这样的观点:他们觉得大模型仅能实现像chatbox、文生图、图生图、生视频、生音频之类的功能,难以找到可商用的场景,更别说其中部分功能还可能存在幻觉问题。同时,大模型的算力也是有成本的,而且价格不低。所以问题就出现了,即我们做出了一个个看似出色的ai产品,用户日活量或许也很高,但高日活带来的是高机器算力费用,而这笔费用又无法从活跃用户身上获取,所以这个商业模式就难以形成闭环了。所以这种理解倒不能说是错误的,但这是建立在两个前提之上的。第一,大模型确实后续也仅能用在聊天以及生成图片、文字、视频了;第二,算力的费用会持续居高不下。但在我看来,这两点都是不成立的。首先关于第二点的算力的问题,已经有许多解决方案了,不论是模型蒸馏,还是苹果的端云方案等等,我认为今年内算力成本问题将不再是难题。那么第一点,其实也是今日的重点。而要知晓一个新事物究竟能够带来什么样的改变,我认为首先是先需要明晰其运作原理究竟是怎样的。实际上,我也看过市面上很多有关大模型的科普文章,坦白讲,对于非技术人员而言,理解起来颇具难度。所以,我期望这篇文章能通过最为直白、最为简单的描述,帮助各位产品同学,理解何为大模型,大模型是如何运作的,大模型究竟带来了什么,以及我们究竟该去怎么看待这次大模型的浪潮。