以下是关于文心一言的相关测评信息:
1. 小七姐的测评:
任务一:短提示。设置让模型生成能根据用户需求写出合适的 RPG 游戏策划(包括角色、剧情、玩法和场景等内容)的提示词。文心一言在输出结果上依然有自问自答的问题,得分 75。
任务二:少样本示例。同样是生成上述提示词,本轮用少样本提示框定了模型的输出内容,四个大模型的输出都有很大提升,文心一言得分 80。
2. 中文大模型基准测评 2023 年度报告:
简介:文心一言是百度全新一代知识增强大语言模型,于 2023 年 3 月 16 日正式发布,10 月 17 日发布 V4.0 版本,已有 7000 万用户。
模型特点:在计算、逻辑推理、生成与创作、传统安全这 4 大基础能力上排名国内第一。在代码、知识与百科、语言理解与抽取、工具使用能力上排名国内前三,各项能力表现均衡且水平较高,是国内有竞争力的大模型。
适合应用:能力栈广泛,可应用场景多。重点推荐在查询搜索知识应用、任务拆解规划 Agent、文案写作以及代码编写及纠错等方面的应用,在逻辑推理方面表现不俗,可关注在科学研究、教育、工业方面的落地能力。
2025-01-03