以下是关于数据集的相关信息:
在厚德云创建数据集
步骤一:
1. 进入厚德云模型训练数据集,点击右上角创建数据集。
2. 输入数据集名称。
3. 可以上传包含图片+标签txt 的 zip 文件,也可以只有图片没有打标文件(之后可在 C 站使用自动打标功能),或者一张一张单独上传照片,但建议提前把图片和标签打包成 zip 上传。
4. Zip 文件里图片名称与标签文件应当匹配,例如:图片名“1.png”,对应的达标文件就叫“1.txt”。
5. 上传 zip 以后等待一段时间,确认创建数据集。
6. 返回到上一个页面,等待一段时间后上传成功,可以点击详情检查,能预览到数据集的图片以及对应的标签。
步骤二:Lora 训练
1. 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。
2. 选择数据集,点击右侧箭头,会跳出所有上传过的数据集。
3. 触发词可有可无,取决于数据集是否有触发词。
4. 模型效果预览提示词则随机抽取一个数据集中的标签填入即可。
5. 训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数。如果不知道如何设置,可以默认 20 重复次数和 10 轮训练轮数。
6. 可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力。
7. 然后等待训练,会显示预览时间和进度条。训练完成的会显示出每一轮的预览图。鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。
OpenAI 发表新论文中的数据集
OpenAI 发表新论文《让我们一步一步验证》中提到的数据集:使用的数据集表明过程监控是高度准确的。PRM800K 训练集包含 800,000 个步骤级标签,可用于 12,000 个问题的 75,000 个答案。点击此处查看 PRM 和 ORM 实际数学精度的比较。在这两个结果中,可以看出使用 PRM 的模型给出了更好的结果。据报道,PRM 不仅在数学方面取得了更好的成绩,而且在化学和物理方面也取得了更好的成绩。
中文数据集
1. ,更新日期 42856,提供者为北京极目云健康科技有限公司,数据来源于其云医院平台的真实电子病历数据,共计 800 条(单个病人单次就诊记录),经脱敏处理,类别为电子病历,关键字为命名实体识别,论文地址无,备注为中文。
2. ,更新日期 2018 年,提供者为医渡云(北京)技术有限公司,CCKS2018 的电子病历命名实体识别的评测任务提供了 600 份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体,类别为电子病历,关键字为命名实体识别,论文地址无,备注为中文。
3. ,提供者为 MSRA,标注形式为 BIO,共有 46365 条语料,类别为 Msra,关键字为命名实体识别,论文地址无,备注为中文。
4. ,提供者为人民日报,标注形式为 BIO,共有 23061 条语料,类别为 98 人民日报,关键字为命名实体识别,论文地址无,备注为中文。
5. ,提供者为玻森数据,标注形式为 BMEO,共有 2000 条语料,类别为 Boson,关键字为命名实体识别,论文地址无,备注为中文。
2025-01-04