Chat with Wiki - 数据标注与Ai的大模型是怎样的环节

Answer

在 AI 领域中，数据标注与大模型有着密切的关系。

对于大模型而言：

数据清洗：在训练前对数据预处理，移除或修正有偏见、歧视等不道德内容的数据。
算法设计：减少偏见和不公平性，平衡数据集中不同群体的代表性。
道德和伦理准则：制定明确准则指导开发和使用。
透明度：对模型能力和局限性保持透明，告知用户可能的偏差和不确定性。
用户反馈：允许用户反馈以识别和纠正不道德行为。
持续监控：监控模型表现，确保输出符合道德和伦理标准。
人工干预：在可能涉及道德伦理问题时引入人工审核和干预。
教育和培训：对使用人员进行道德伦理方面的教育和培训。

在数据标注方面：

数据清洗工作占据 AIGC 时代模型训练 70%-80%的时间，必不可少，因为数据质量决定机器学习的上限。
需筛除分辨率低、质量差、存在破损及与任务目标无关的数据，去除可能包含的水印、干扰文字等。
数据标注分为自动标注和手动标注，自动标注主要依赖像 BLIP 和 Waifu Diffusion 1.4 这样的模型，手动标注依赖标注人员。例如使用 BLIP 可对数据进行自动标注 caption。

然而，在中国的 AI 创业生态中，存在一些问题：

高质量的数据处理服务稀缺。
数据获取门槛低，但高质量数据获取困难，中文互联网数据质量相对较低。

总之，确保 AI 大模型的道德和伦理性以及获取高质量的数据标注是复杂且持续的挑战。

Content generated by AI large model, please carefully verify (powered by aily)

References

问：大模型具有道德观念吗？

1.数据清洗：在训练模型之前，对数据进行预处理，移除或修正带有偏见、歧视或其他不道德内容的数据。2.算法设计：设计算法以减少偏见和不公平性，例如通过平衡数据集中不同群体的代表性。3.道德和伦理准则：制定明确的道德和伦理准则，指导模型的开发和使用。4.透明度：对模型的能力和局限性保持透明，告知用户模型可能存在的偏差和不确定性。5.用户反馈：允许用户提供反馈，以识别和纠正模型的不道德行为。6.持续监控：持续监控模型的表现，确保其输出符合道德和伦理标准。7.人工干预：在模型的输出可能涉及道德和伦理问题时，引入人工审核和干预。8.教育和培训：对使用模型的人员进行道德和伦理方面的教育和培训。尽管采取了上述措施，但确保AI模型的道德和伦理性仍然是一个复杂且持续的挑战。随着技术的发展，相关的道德和伦理标准也在不断演进。内容由AI大模型生成，请仔细甄别

中国大模型面临的真实问题：登顶路远，坠落一瞬

接下来，让我们把目光转向数据这个同样关键的要素。在人工智能的世界里，数据就像是原油，而高质量的数据则是精炼后的汽油。虽然OpenAI训练大模型所用的中文数据也源自中国的互联网平台，但他们在数据处理上的额外努力，就像是将粗糙的原石打磨成璀璨的钻石。这种数据质量的提升，远非简单的数据标注工作所能企及，而是需要一支专业团队进行深度的数据清洗和精细整理。然而，在中国的AI创业生态中，高质量的数据处理服务就像是稀缺资源。在国内，数据获取的门槛相对较低，这看似是一个优势。然而，虽然数据获取容易，但高质量数据的获取却是另一回事。国内的大模型主要以中文数据为基础，这看似是一个自然的选择。但业内普遍认为中文互联网数据的质量相对较低。这种情况让人想起了信息论中的"垃圾进，垃圾出"原理。如果输入的数据质量不高，那么即使有最先进的算法，输出的结果也难以令人满意。这个现象在IT从业者的日常工作中得到了印证。当需要搜索专业信息时，他们往往会首选Google、arXiv或Bing等国际平台，而不是国内的搜索引擎。

教程：深入浅出完整解析Stable Diffusion（SD）核心基础知识 - 知乎

首先，我们需要对数据集进行清洗，和传统深度学习时代一样，数据清洗工作依然占据了AIGC时代模型训练70%-80%左右的时间。并且这个过程必不可少，因为数据质量决定了机器学习的上限，而算法和模型只是在不断逼近这个上限而已。我们需要筛除分辨率较低，质量较差（比如说768*768分辨率的图片< 100kb），存在破损，以及和任务目标无关的数据，接着去除数据里面可能包含的水印，干扰文字等，最后就可以开始进行数据标注了。数据标注可以分为自动标注和手动标注。自动标注主要依赖像BLIP和Waifu Diffusion 1.4这样的模型，手动标注则依赖标注人员。（1）使用BLIP自动标注caption我们先用BLIP对数据进行自动标注，BLIP输出的是自然语言标签，我们进入到SD-Train/finetune/路径下，运行以下代码即可获得自然语言标签（caption标签）：