NLP任务的评价指标
1.文本分类
采用分类任务的评价指标,比如accuracy,recall,F1等
2.文本匹配
重点说下一些paper的sts(Semantic Textual Similarity)任务,为什么采用相关系数(Pearson correlation或者spearman correlation)来衡量,比如 S-bert https://arxiv.org/abs/1908.10084 ,consert https://arxiv.org/abs/2105.11741 。 这是因为S-bert和consert 都是文本表示的方法,最后计算文本相似度是利用余弦相似度计算的,相似度的值域为0-1,但是sts数据集的相似度值域为0-5。值域范围不同,不能直接进行比较,用相关系数来间接评价。
3.文本生成
https://zhuanlan.zhihu.com/p/144182853
https://arxiv.org/pdf/2006.14799.pdf
文本改写(算是特殊的生成)
https://aclanthology.org/2020.findings-emnlp.111.pdf
https://arxiv.org/pdf/1909.01187.pdf
Exact score: percentage of exactly correctly predicted fusions
SARI: the average F1 scores of the added, kept, and deleted n-grams
4.文本表示
https://arxiv.org/pdf/1908.10084.pdf
SentEval (Conneau and Kiela, 2018) is a popular toolkit to evaluate the quality of sentence embeddings.