Chat with Wiki - 数据集

Answer

以下是关于数据集的相关信息：

在厚德云创建数据集 步骤一：

进入厚德云-模型训练-数据集，点击右上角创建数据集。
输入数据集名称。
可以上传包含图片+标签txt 的 zip 文件，也可以只有图片没有打标文件（之后可在 C 站使用自动打标功能），或者一张一张单独上传照片，但建议提前把图片和标签打包成 zip 上传。
Zip 文件里图片名称与标签文件应当匹配，例如：图片名“1.png”，对应的达标文件就叫“1.txt”。
上传 zip 以后等待一段时间，确认创建数据集。
返回到上一个页面，等待一段时间后上传成功，可以点击详情检查，能预览到数据集的图片以及对应的标签。

步骤二：Lora 训练

点击 Flux，基础模型会默认是 FLUX 1.0D 版本。
选择数据集，点击右侧箭头，会跳出所有上传过的数据集。
触发词可有可无，取决于数据集是否有触发词。
模型效果预览提示词则随机抽取一个数据集中的标签填入即可。
训练参数这里可以调节重复次数与训练轮数，厚德云会自动计算训练步数。如果不知道如何设置，可以默认 20 重复次数和 10 轮训练轮数。
可以按需求选择是否加速，点击开始训练，会显示所需要消耗的算力。
然后等待训练，会显示预览时间和进度条。训练完成的会显示出每一轮的预览图。鼠标悬浮到想要的轮次模型，中间会有个生图，点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。

OpenAI 发表新论文中的数据集 OpenAI 发表新论文《让我们一步一步验证》中提到的数据集：使用的数据集表明过程监控(PRM)是高度准确的。PRM800K 训练集包含 800,000 个步骤级标签，可用于 12,000 个问题的 75,000 个答案。点击此处查看 PRM 和 ORM 实际数学精度的比较。在这两个结果中，可以看出使用 PRM 的模型给出了更好的结果。据报道，PRM 不仅在数学方面取得了更好的成绩，而且在化学和物理方面也取得了更好的成绩。

中文数据集

CCKS2017 中文电子病例命名实体识别，更新日期 42856，提供者为北京极目云健康科技有限公司，数据来源于其云医院平台的真实电子病历数据，共计 800 条（单个病人单次就诊记录），经脱敏处理，类别为电子病历，关键字为命名实体识别，论文地址无，备注为中文。
CCKS2018 中文电子病例命名实体识别，更新日期 2018 年，提供者为医渡云（北京）技术有限公司，CCKS2018 的电子病历命名实体识别的评测任务提供了 600 份标注好的电子病历文本，共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体，类别为电子病历，关键字为命名实体识别，论文地址无，备注为中文。
微软亚研院 MSRA 命名实体识别识别数据集，提供者为 MSRA，标注形式为 BIO，共有 46365 条语料，类别为 Msra，关键字为命名实体识别，论文地址无，备注为中文。
1998 人民日报语料集实体识别标注集，提供者为人民日报，标注形式为 BIO，共有 23061 条语料，类别为 98 人民日报，关键字为命名实体识别，论文地址无，备注为中文。
Boson，提供者为玻森数据，标注形式为 BMEO，共有 2000 条语料，类别为 Boson，关键字为命名实体识别，论文地址无，备注为中文。

Content generated by AI large model, please carefully verify (powered by aily)

References

10-0基础训练大模型

进入厚德云-模型训练-数据集https://portal.houdeyun.cn/sd/dataset[heading2]步骤一·创建数据集[content]在数据集一栏中，点a击右上角创建数据集输入数据集名称这个zip文件可以是包含图片+标签txt，也可以只有图片没有打标文件（之后你可以在c站使用它的自动打标功能）你也可以一张一张单独上传照片，但还是建议提前把图片和标签打包成zip上传Zip文件里图片名称与标签文件应当匹配例如:图片名"1.png",对应的达标文件就叫"1.txt"。上传zip以后等待一段时间确认创建数据集返回到上一个页面，等待一段时间后就会上传成功，可以点击详情检查可以预览到数据集的图片以及对应的标签[heading2]步骤二·Lora训练[content]点击Flux，基础模型会默认是FLUX 1.0D版本选择数据集，点击右侧箭头，会跳出你所有上传过的数据集触发词可有可无，取决于你的数据集是否有触发词模型效果预览提示词则随机抽取一个你数据集里的标签填入即可训练参数这里可以调节重复次数与训练轮数，厚德云会自动计算训练步数如果不知道如何设置，可以默认20重复次数和10轮训练轮数可以按需求选择是否加速，点击开始训练，会显示所需要消耗的算力然后就可以等待训练了，会显示预览时间和进度条训练完成的会显示出每一轮的预览图鼠标悬浮到你想要的轮次模型，中间会有个生图，点击会自动跳转到使用此lora生图的界面。点击下方的下载按钮则会自动下载到本地

数学：OpenAI 发表论文大幅提高 ChatGPT 的数学准确性 | 让我们一步步验证

使用该数据集，我们表明过程监控(PRM)是高度准确的。比较的方法是结果监督奖励模型（ORM）：“结果监控”和过程监督奖励模型（PRM）：“过程监控”。PRM800K训练集包含800,000个步骤级标签，可用于12,000个问题的75,000个答案。点击此处查看PRM和ORM实际数学精度的比较在这两个结果中，可以看出使用PRM的模型给出了更好的结果。据报道，PRM不仅在数学方面取得了更好的成绩，而且在化学和物理方面也取得了更好的成绩。

中文数据集

NER|ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注||-|-|-|-|-|-|-|-|-|-||1|[CCKS2017中文电子病例命名实体识别](https://biendata.com/competition/CCKS2017_2/data/)|42856|北京极目云健康科技有限公司||数据来源于其云医院平台的真实电子病历数据，共计800条（单个病人单次就诊记录），经脱敏处理|电子病历|命名实体识别|\|中文||2|[CCKS2018中文电子病例命名实体识别](https://biendata.com/competition/CCKS2018_1/data/)|2018年|医渡云（北京）技术有限公司||CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本，共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体|电子病历|命名实体识别|\|中文||3|[微软亚研院MSRA命名实体识别识别数据集](https://github.com/lemonhu/NER-BERT-pytorch/tree/master/data/msra)|\|MSRA||数据来源于MSRA，标注形式为BIO，共有46365条语料|Msra|命名实体识别|\|中文||4|[1998人民日报语料集实体识别标注集](https://github.com/ThunderingII/nlp_ner/tree/master/data)|35796|人民日报||数据来源为98年人民日报，标注形式为BIO，共有23061条语料|98人民日报|命名实体识别|\|中文||5|[Boson](https://github.com/TomatoTang/BILSTM-CRF)|\|玻森数据||数据来源为Boson，标注形式为BMEO,共有2000条语料|Boson|命名实体识别|\|中文|