2021-10-20 0a66fbf35eebb3771f139fec91c600b0 99+ 2 m 0.3 k

NLP任务的评价指标

1.文本分类

采用分类任务的评价指标，比如accuracy，recall，F1等

2.文本匹配

重点说下一些paper的sts（Semantic Textual Similarity）任务，为什么采用相关系数（Pearson correlation或者spearman correlation）来衡量，比如 S-bert https://arxiv.org/abs/1908.10084 ，consert https://arxiv.org/abs/2105.11741 。这是因为S-bert和consert 都是文本表示的方法，最后计算文本相似度是利用余弦相似度计算的，相似度的值域为0-1，但是sts数据集的相似度值域为0-5。值域范围不同，不能直接进行比较，用相关系数来间接评价。