Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

大模型的发展

Answer

大模型的发展历程如下:

  • 2017 年发布的 Attention Is All You Need 论文是起源。
  • 2018 年,Google 提出 BERT(Bidirectional Encoder Representations from Transformers),其创新性地采用双向预训练并行获取上下文语义信息,以及掩码语言建模(MLM)以更好地推断语义信息,开创了预训练语言表示范式,参数规模在 110M 到 340M。
  • 2018 年,OpenAI 提出 GPT(Generative Pre-trained Transformer),开创了仅使用自回归语言建模作为预训练目标而无需额外监督信号,展示了通过无监督大规模预训练获得的语言生成能力,参数规模达 1750 亿。
  • 2021 年,Meta 提出 Large LAnguage Model Approach(LLAMA),是首个开源模型,为构建更大规模、更通用的语言模型提供了系统化的方法与工具,参数规模在十亿到千亿。

2023 年度中文大模型基准测评报告中,优秀模型案例包括:

  • 2022 年 12 月的字节云雀大模型,闭源,通用大模型。
  • 百川 Baichuan、Yi-34B 等开源模型,涵盖医疗、汽车、教育等行业。

过去半年国内外代表性模型的发展趋势为:国内领军大模型企业实现了大模型代际追赶的奇迹,从 7 月份与 GPT3.5 的 20 分差距,每个月都有稳定且巨大的提升,到 11 月份测评时已经完成总分上对 GPT3.5 的超越。

随着大模型技术愈发成熟、规模增大,为 AI Agent 提供强大能力,Agent + 大模型有望构建具备自主思考、决策和执行能力的智能体,广泛应用于多个行业和领域。

Content generated by AI large model, please carefully verify (powered by aily)

References

大模型入门指南

这一切的起源是2017年发布的Attention Is All You Need([4])论文,之后基于大量语料的预训练模型百花齐放,比如:BERT(Bidirectional Encoder Representations from Transformers):Google在2018年提出,创新性的双向预训练并行获取上下文语义信息,以及掩码语言建模(MLM)让模型更好地推断语义信息。它开创了预训练语言表示范式,对自然语言处理产生了深远影响。参数规模:110M到340MGPT(Generative Pre-trained Transformer):OpenAI在2018年提出,开创了仅使用自回归语言建模作为预训练目标而无需额外监督信号。它展示了通过无监督大规模预训练获得的语言生成能力,对研究与应用都带来重大影响。参数规模:1750亿Large LAnguage Model Approach(LLAMA):Meta在2021年提出,首个开源模型。为构建更大规模、更通用的语言模型提供了系统化的方法与工具。参数规模:十亿到千亿

2023年度中文大模型基准测评报告.pdf

时间2022.125字节云雀大模型闭源通用大模型百川BaichuanYi-34B开源医疗汽车教育行业大模型MindGPT部分领域岐黄问道银河大模型..................序列猴子BlueLMAndesGPT孟子玉言云天书金融工业文化/零售/交通蚂蚁金融大模型妙笔大模型AInno-15B轩辕大模型COSMO-GPTSMore LrMo..................2023年值得关注的中文大模型全景图国内外大模型发展趋势过去六个月国内外代表性模型的发展趋势趋势说明过去半年,国内领军大模型企业实现了大模型代际追赶的奇迹,从7月份与GPT3.5的20分差距,每个月都有稳定且巨大的提升,到11月份测评时已经完成总分上对GPT3.5的超越。

开发:AI应用大模型商业化落地现状与思考

大家下午好!很荣幸能够作为本次活动的分享嘉宾,我是甲木,LangGPT团队成员,很高兴给大家带来《大模型商业化落地现状与思考》的分享。本次分享的内容主要分为五个模块,从大模型的背景入手、深入探讨其在商业领域的现状和应用。接着,我们将分析在商业化过程中所遇到的挑战,并分享一些实战经验,最后将展望AI作为通用技术能够发挥生产力效能所要经历的几个阶段。[heading2]一、大模型的背景和趋势[content]首先,我们先来看大模型的背景和发展趋势。关于AI的演进历程,很多媒体包括各类研究资料都已经做过详细的介绍,相信今天在座的各位对AI的基本情况都已有所了解,因此我不会过多赘述AI的演进历程。(有兴趣的小伙伴可以多从公开资料中查找一下~)我们的重点将放在大模型当前的应用能力上,随着大模型技术的愈发成熟,规模增大,大模型为AI Agent()提供强大能力。Agent+大模型将有望构建具备自主思考、决策和执行能力的智能体,进一步提升大模型的应用能力,广泛应用于多个行业和领域。

Others are asking
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14
分析AI颠覆性发展的生产策略调查的研究情况综述
以下是关于企业构建和购买生成式 AI 方式的 16 个变化的研究情况综述: 生成式人工智能在 2023 年迅速席卷消费市场,创下超过 10 亿美元的消费支出纪录。预计 2024 年企业领域的收入机会将数倍于消费市场。去年,企业对 genAI 的参与多局限于少数明显用例,且以“GPTwrapper(GPT 套壳)”产品作为新的 SKU 交付,一些人对其在企业中的扩展持怀疑态度。 然而,在过去几个月,a16Z 与数十家财富 500 强和顶级企业领导人交谈并对 70 多位进行调查后发现,过去 6 个月里,企业对生成式 AI 的资源配置和态度有显著变化。尽管仍有保留,但企业领导人几乎将预算增加两倍,更多应用部署在较小的开源模型上,并将更多业务从早期实验转移到生产环境中。 这对创始人是巨大机遇。a16Z 认为,为客户“以 AI 为中心的战略计划”构建解决方案,能预见痛点,从重服务模式转向构建可扩展产品的人工智能初创公司,将抓住新投资浪潮并占据重要市场份额。 任何时候,为企业构建和销售产品都需深入了解客户预算、关注点和路线图。a16Z 根据访谈结果总结了 16 个最为关键的考虑因素,涉及资源、模型和应用。
2025-04-15
,当前AI数字人发展的新态势,以及新技术和成果
当前 AI 数字人的发展呈现出以下新态势,并取得了一系列新技术和成果: 数字人简介: 数字人是运用数字技术创造的,虽现阶段未达科幻作品中的高度智能,但已在生活多场景中出现且应用爆发。业界对其尚无准确定义,一般可按技术栈分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视和直播带货,其表现质量与建模精细度及动捕设备精密程度相关,不过视觉算法进步使在无昂贵动捕设备时也能通过摄像头捕捉关键点信息实现不错效果。 B 端变现与创业方向: B 端变现细分包括高频率和大规模的内容生产细分,如文字、视频、3D 模型、AI 智能体等,底层是需求和数据收集及训练模型,算力和能源是关键。自媒体创业需具备内容创新和差异化,内容成本低且更新迭代快。游戏创业可做轻量化游戏,结合 AI 技术满足放松和社交需求,专注垂类赛道避免与大厂竞争。影视创业在 25 年将是拐点,更多内容会采用 AI 技术。广告营销创业重点是 AI 虚拟人,数字插画可走治愈类型,要明确平台用户画像和产品定位,做好次留存和引入私域。 AI 虚拟人的发展与创业机遇: AI 虚拟人从早期以首位为核心的宅文化虚拟偶像,发展到以 CG 技术和动捕语音合成技术为核心的角色,再到如今以动捕和人工智能技术为核心的服务型虚拟人。虚拟人产业链包括基础层的硬件和软件研发,平台层如商汤、百度等提供工具和系统,应用层涉及影视、传媒、游戏、金融、文旅等内容变现。未来 3 10 年,AI 虚拟人是 Web 3.0 的风口,提前布局有潜力的赛道可迎接机遇,但创业对创业者综合能力要求极高。 未来展望: 数字人未来有很多应用场景,如家庭中的数字人管家、学校中的数字人老师、商场里的数字人导购等。未来还会有很多技术突破,如将五感数据和躯壳控制参数作为输入,次世代算法可自我迭代升级和自行演化躯壳控制方式。通过 Dify 搭建数字人的开源项目可展现低门槛高度定制数字人的基本思路,数字人的核心在于 Agent 即灵魂,如何在 Dify 上编排专属数字人灵魂值得体验。期望随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确,AI 既能提供高质量信息,也能关注用户情绪。
2025-04-14
公共议题:AI如何助力HR业务? 研讨目标: 深入理解:深入探讨 AI在人力资源管理领域的应用、薪酬管理、员工关系、公司文化、包括人才获取与配置、学习与发展、组织与人才培、HR共享与HRIS等各模块的可应用场景 机会识别与场景落地:基于组织现状,识别出业务价值高、可落地的 A 应用场景; 研讨成果(输出物): 请输出10个业务价值高、具备可行性的AI应用场景介绍,并说明what(场景是什么)、why(为什么值得做)、How(如何落地);
以下是为您生成的 10 个业务价值高、具备可行性的 AI 应用场景介绍: 1. 人才招聘与筛选 What:利用 AI 技术对求职者的简历进行自动筛选和分析,评估其与岗位的匹配度。 Why:节省 HR 大量的时间和精力,提高招聘效率和准确性。 How:通过自然语言处理和机器学习算法,训练模型识别关键信息和技能。 2. 员工培训与发展 What:根据员工的技能水平和职业发展目标,定制个性化的培训计划。 Why:提升员工的能力和绩效,增强员工对企业的忠诚度。 How:利用大数据分析员工的工作表现和学习需求,推荐相关课程和学习资源。 3. 薪酬福利管理 What:运用 AI 预测市场薪酬趋势,为企业制定合理的薪酬策略。 Why:保持企业薪酬的竞争力,吸引和留住优秀人才。 How:收集和分析行业薪酬数据,结合企业的财务状况和战略目标进行优化。 4. 员工绩效评估 What:借助 AI 实时监测员工的工作表现,提供客观的绩效评估。 Why:减少人为偏差,确保评估的公正性和准确性。 How:利用工作流程数据和行为分析模型进行评估。 5. 员工关系管理 What:通过 AI 分析员工的情绪和满意度,及时发现问题并解决。 Why:营造良好的工作氛围,提高员工的工作积极性和创造力。 How:使用情感分析技术处理员工的反馈和交流信息。 6. 组织架构优化 What:利用 AI 分析企业的业务流程和人员配置,提供组织架构调整建议。 Why:提高企业的运营效率和灵活性,适应市场变化。 How:基于数据分析和模拟优化算法进行评估和推荐。 7. 人力资源规划 What:根据企业的战略目标和业务发展预测人力资源需求。 Why:提前做好人才储备和招聘计划,保障企业的正常运营。 How:运用数据分析和预测模型进行规划。 8. 企业文化传播 What:使用 AI 生成个性化的企业文化宣传内容,提高传播效果。 Why:增强员工对企业文化的认同感和归属感。 How:利用自然语言生成技术和个性化推荐算法。 9. 智能客服 What:在 HR 服务中引入 AI 客服,解答员工常见问题。 Why:快速响应员工需求,提高服务质量。 How:训练智能客服模型,涵盖常见的 HR 问题和解决方案。 10. 人才库管理 What:利用 AI 对人才库进行分类和更新,提高人才库的利用效率。 Why:方便快速找到合适的人才,降低招聘成本。 How:运用数据挖掘和分类算法进行管理。
2025-04-14
公共议题:AI如何助力HR业务? 研讨目标: 深入理解:深入探讨 AI在人力资源管理领域的应用、薪酬管理、员工关系、公司文化、包括人才获取与配置、学习与发展、组织与人才培、HR共享与HRIS等各模块的可应用场景 机会识别与场景落地:基于组织现状,识别出业务价值高、可落地的 A 应用场景; 研讨成果(输出物): 请输出3-5个业务价值高、具备可行性的AI应用场景介绍,并说明what(场景是什么)、why(为什么值得做)、How(如何落地);
以下是为您提供的 3 个业务价值高、具备可行性的 AI 应用场景介绍: 场景一:AI 在企业招聘中的应用 What:利用 AI 技术进行简历筛选、人才匹配和面试评估。 Why:能够快速处理大量简历,提高招聘效率和准确性,节省人力和时间成本,同时更精准地找到符合岗位需求的人才。 How:通过引入相关的 AI 招聘软件,与企业现有的招聘系统集成,对简历进行关键词提取和分析,利用机器学习算法进行人才匹配,并通过视频面试中的语音和表情分析辅助评估候选人。 场景二:AI 助力个性化人力资源管理 What:根据员工的个人特点和工作表现,提供个性化的培训计划、职业发展建议和绩效评估。 Why:能够充分发挥员工的潜力,提高员工满意度和忠诚度,促进企业的长期发展。 How:收集员工的工作数据、学习记录和绩效表现等信息,运用 AI 算法进行分析和预测,为员工制定专属的发展方案,并通过移动应用或内部系统向员工推送相关建议和培训课程。 场景三:AI 打造无人值守的 HR 平台 What:实现 HR 业务的自动化处理,如员工请假审批、薪酬计算和福利发放等。 Why:减少人工操作的错误和繁琐流程,提高 HR 工作的效率和准确性,使 HR 人员能够专注于更有价值的战略工作。 How:整合企业内部的各种 HR 系统和数据,利用 RPA 和 AI 技术实现流程的自动化,同时建立监控和预警机制,确保平台的稳定运行。
2025-04-14
,AI agent 发展趋势,技术状态,商业模式
以下是关于 AI Agent 的发展趋势、技术状态和商业模式的相关信息: 发展趋势: 2024 年内,办公场景“AI 助手”开始有良好使用体验,实时生成的内容开始在社交媒体内容、广告中出现。 2025 2027 年,接近 AGI 的技术出现,人与 AI 配合的工作方式成为常态,很多日常决策开始由 AI 来执行。 技术状态: 目标实现基于 ReAct、SFT、RAG、强化学习等实现自主规划能力的 AI Agent,构建具备认知、决策智能的 Agent 智能体框架。 专注文本/多模态大模型、AI Agent 技术创新与应用。 商业模式: 依据不同类型销售市场的特点,结合一站式 AI 搭建平台将销售部署的产品化和模版化,让企业更容易落地和应用 AI 能力。 销售智能体 Blurr.AI 占位交易环节,解决 2B 销售获客的痛点,且具有向前后端环节延展的势能。
2025-04-13
现在Ai已经发展到什么程度了
目前 AI 的发展已不再局限于单一的技术和应用范畴,而是融合了众多学科知识,并深入渗透到生活的各个层面,引发了一场生产力的革命。 有观点认为,AI 引领的是第四次工业革命的浪潮:继蒸汽机引发的机械化变革、电力驱动的电气化革新,以及电脑普及带来的信息化浪潮之后,AI 正推动着智能化时代的到来。 2025 开年 3 个月,AI 已经狂飙!R1 席卷全球,然后是 O3、Grok 3、Claude 3.7、GPT4.5 等,短短 3 个月内,AI 更新密集发布。然而很多人仍未察觉 AI 正在指数级加速,甚至抱怨 GPT4.5 表现不佳,但事实上,AI 发展已经是直线拉升状态,每天都在进步。 此外,Grok 语音模式已全面开放,支持 11 种模式(包括 2 种 18 禁),自带语音字幕,是学习英语的好工具,但目前仅支持英文。
2025-04-13