Bert系列之句向量生成
https://zhuanlan.zhihu.com/p/444346578
1 sentence-bert
sts任务,数据分为sts无标签数据,sts有标签数据,nli有标签
无监督,有监督loss一样,文中有3种loss,区别在于数据集
无监督:nli有标签;有监督:sts有标签数据
2 simcse
sts任务,数据分为sts无标签数据,sts有标签数据
无监督,有监督区别在于:样本构造不同
无监督样本正负来源于sts无标签数据数据增强,有监督样本正负来源于sts有标签数据
3 consert
sts任务,数据分为sts无标签数据,sts有标签数据,还有nli数据集(有标签)
相同
和simcse相同之处:都是在finetune引入对比
不同
1 无监督
和simces loss一样为NT-Xent,不同在于sts无标签数据数据增强方式不同
2 有监督
区别在于loss和数据源
simcse loss为NT-Xent,数据源为sts有标签数据
consert loss为 NT-Xent + 别的有监督loss(比如cross entropy),数据源为sts无标签数据和nli数据集(有标签),+表示融合 ,论文有3种融合方式
Bert系列之句向量生成