Enhanced-RCNN An Efficient Method for Learning Sentence Similarity
特点:非预训练,参数量少
1 input encoding
得到两个encoding,RNN Encoding,RCNN Encoding
1 BiGRU
$\textbf{a}=\{a_1,a_2,…,a_{l_a}\},\textbf{a}$ 是句子,$l_a$ 是句子1的长度
得到RNN Encoding,$\overline{\textbf{p}}_i$统一表示$\overline{\textbf{a}}_i,\overline{\textbf{b}}_i$
2 CNN
在 BiGRU 编码的基础上,使用 CNN 来进行二次编码
结构如下,“newtork in network”,k 是卷积核的kernel size,比如k=1,卷积核为$1 \times 1$
对于每个 CNN 单元,具体的计算过程如下:
得到 RCNN Encoding $\widetilde{\textbf{p}}_i$
2 Interactive Sentence Representation
1 Soft-attention Alignment
attention:
加了attention的rnn encoding:
2 Interaction Modeling
$\overline{\textbf{p}}$是rnn encoding
$\hat{}$是加了attention的rnn encoding
$\widetilde{}$是rcnn encoding
最终得到Interactive Sentence Representation为$\textbf{o}_a,\textbf{o}_b$
3 Similarity Modeling
1 Fusion Layer
g是门控函数
2 Label Prediction
全连接层
4 loss
交叉熵