NLP任务的评价指标

1.文本分类

采用分类任务的评价指标,比如accuracy,recall,F1等

2.文本匹配

重点说下一些paper的sts(Semantic Textual Similarity)任务,为什么采用相关系数(Pearson correlation或者spearman correlation)来衡量,比如 S-bert https://arxiv.org/abs/1908.10084 ,consert https://arxiv.org/abs/2105.11741 。 这是因为S-bert和consert 都是文本表示的方法,最后计算文本相似度是利用余弦相似度计算的,相似度的值域为0-1,但是sts数据集的相似度值域为0-5。值域范围不同,不能直接进行比较,用相关系数来间接评价。

3.文本生成

https://zhuanlan.zhihu.com/p/144182853

https://arxiv.org/pdf/2006.14799.pdf

文本改写(算是特殊的生成)

https://aclanthology.org/2020.findings-emnlp.111.pdf

https://arxiv.org/pdf/1909.01187.pdf

Exact score: percentage of exactly correctly predicted fusions

SARI: the average F1 scores of the added, kept, and deleted n-grams

4.文本表示

https://arxiv.org/pdf/1908.10084.pdf

SentEval (Conneau and Kiela, 2018) is a popular toolkit to evaluate the quality of sentence embeddings.


:D 一言句子获取中...