Perplexity 是一个与自然语言处理相关的指标。
首先,文章提到作者因项目需要关注 transformer 相关进展,并计划从算法(包括 NLP、CV、多模态下的 transformer 网络结构)、训练(transformer 的分布式训练)、部署(transformer 的 tvm 量化与推理)五个方面介绍 transformer,本系列的第一篇侧重介绍 NLP 中常用的 perplexity 指标的含义。
文中会先从熟悉的 entropy 指标开始,逐步介绍针对自然语言的改进版 Ngram Entropy 指标,最后介绍 perplexity 指标。
关于 perplexity 指标是否越低越好,在 XLNet 论文中提到越低的 perplexity 可能会损害下游任务的精度,而在 RoBERTa 论文中则指出对于像 RoBERTa 这样 encoderonly 结果的网络,perplexity 越低在 NLU 任务表现就越好。因此,perplexity 是不错的引领性指标,但最终的判别标准还是得结合下游任务表现一起考察。
总的来说,Perplexity、CrossEntropy、Bits Per Character 都是围绕熵来刻画语言模型的信息量和复杂度。最后作者强烈推荐阅读《Evaluation Metrics for Language Modeling》,并表示自己刚上手 transformer 相关内容,难免有错,欢迎指正。如果想了解更多关于 transformer 的知识,可以关注作者。
2025-01-22