大模型的发展大致可以分为三个阶段:
在发展过程中,大模型主要有以下几类:
此外,360 作为国内唯一又懂大模型又懂安全的双料厂商,提出以“模法”打败魔法的理念,打造专业的安全大模型,只依赖大模型本身的能力,在恶意流量分析和恶意邮件检测效果方面超越 GPT 4,并与 360 积累的工具结合,提升攻击事件的检测和发现能力。同时,企业在运用大模型时,要将好的知识和算法结合,从数据中提炼出真正的实战知识。
◼自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)。(关键进展)SuperCLUE:AI大模型2023年关键进展爆发期•Meta开源Llama2•OpenAI发布多模态GPT-4V•GPT-4 Turbo发布•百川智能开源Baichuan-7B•百度升级文心一言4.0•百川智能开源Baichuan2•清华&智谱AI开源ChatGLM2•清华开源ChatGLM3•腾讯发布混元助手准备期故事的起点:ChatGPT发布国内迅速形成大模型共识成长期
1.第一类是原创大模型。这类模型就像是AI世界中的"独角兽",稀少而珍贵。创造原创大模型需要强大的技术积累,同时还需要持续的高投入。然而,这条路充满风险。正如马斯克所说:"当某件事情足够重要时,即使概率对你不利,你也要去做。"原创大模型的开发者们正是秉持着这种精神,在未知的领域不断探索。但是,一旦模型未能展现出足够的竞争力,这些大规模的投入就可能付诸东流。2.第二类是套壳开源大模型。这种策略反映了一种务实的发展路径,利用现有资源快速迭代和改进。在这条“赛道”上,需要思考如何在借鉴中实现真正的突破和创新。3.第三类是拼装大模型。这种方法将过去的小模型拼接在一起,形成一个参数量看似很大的大模型。这种策略体现了一种独特的创新思维,试图通过整合已有资源来实现质的飞跃。然而,正如系统理论所示,整体的性能并不仅仅是各部分的简单相加。在这三类模型中,原创大模型的数量最少,也最具挑战性。它们需要强大的技术积累、持续的高投入,以及面对巨大风险的勇气。然而,当市场上已经出现了足够好的基础大模型时,其他公司应该转向挖掘新的价值点。比如,探索大模型在不同领域的应用,或者开发中间层服务,如训练、数据处理、算力服务等。但现实是,大多数参与者仍在追逐所谓的原创大模型,又担心风险太高,导致大量套壳和拼装大模型的出现。
360作为国内唯一又懂大模型又懂安全的双料厂商,我们要解决大模型的安全问题,必须亲自躬身入局。我的想法是以“模法”打败魔法,因为大模型越来越智能,它的安全问题肯定不是用传统安全的路子来解决,所以我们提出了以模制模的理念。我们打造一个专业的聪明的大模型,它没有别的能力,就用来盯着其他大模型,如果发现有不安全的因素输出,或者不轨的行为,对其他大模型的行为进行分析和监控。目前这个大模型是个初级版本,只发展到3.0。我们只依赖大模型本身的能力,就是说不依赖外部工具,不依赖微调,也就是没有作弊。现在有些大模型测试很容易作弊,你提前把考题头天晚上做一遍,第二天去考试怎么也能考个七八十分。我们就在恶意流量分析和恶意邮件检测效果方面,全面超越GPT 4。再跟360积累了很多年的工具做结合,你让这个大模型写诗写不出来,奥数题也回答不了,它只干一件事——攻击事件的检测和发现。我们身体力行证明了这一点。所以大家可以想想,在你的企业内部,有什么场景可以用大模型来解决。我们怎么做的,算法加上好的知识,关键是好的知识。现在很多企业有大量数据,但有些数据是无用的知识,这种数据特别有害。我们曾经做过实验,把很多无用的数据训到大模型里,大模型立马就傻了。所以,必须要从数据中提炼出真正的实战知识,加上知识图谱,才能把它训练到大模型里去。360安全大模型目前相当于年薪百万的高级安全专家的水平,对样本的漏洞分析效率、响应效率都做了很多提升。这是我们自己实验的一个例子,分享给大家。