NLP任务的评价指标

1.文本分类

采用分类任务的评价指标,比如accuracy,recall,F1等

2.文本匹配

重点说下一些paper的sts(Semantic Textual Similarity)任务,为什么采用相关系数(Pearson correlation或者spearman correlation)来衡量,比如 S-bert https://arxiv.org/abs/1908.10084 ,consert https://arxiv.org/abs/2105.11741 。 这是因为S-bert和consert 都是文本表示的方法,最后计算文本相似度是利用余弦相似度计算的,相似度的值域为0-1,但是sts数据集的相似度值域为0-5。值域范围不同,不能直接进行比较,用相关系数来间接评价。

3.文本生成

https://zhuanlan.zhihu.com/p/144182853

https://arxiv.org/pdf/2006.14799.pdf

文本改写(算是特殊的生成)

https://aclanthology.org/2020.findings-emnlp.111.pdf

https://arxiv.org/pdf/1909.01187.pdf

Exact score: percentage of exactly correctly predicted fusions

SARI: the average F1 scores of the added, kept, and deleted n-grams

4.文本表示

https://arxiv.org/pdf/1908.10084.pdf

SentEval (Conneau and Kiela, 2018) is a popular toolkit to evaluate the quality of sentence embeddings.

Deep Match to Rank Model for Personalized Click-Through Rate Prediction

1 输入特征

由4个部分构成,分别为User Profile, User Behavior, Target Item and Context,每个特征都包含子特征,比如User Profile contains user ID, consumption level and so on。最初的表示为one-hot形式,经过embedding层,转成高纬向量,通过查找表来实现。最后4个特征分别表示为$\textbf{x}_p,\textbf{x}_b,\textbf{x}_t,\textbf{x}_c$,以$\textbf{x}_b$来举例,$\textbf{x}_b=[e_1,e_2,…,e_T]\in \mathbb{R}^{T\times d_e}$

2 User-to-Item Network

we apply attention mechanism with positional encoding as query to adaptively learn the weight for each behavior,where the position of user behavior is the serial number in the behavior sequence ordered by occurred time

其中$\textbf{z}\in \mathbb{R}^{d_h}$是学习的参数,$\textbf{p}_t\in \mathbb{P}^{d_p}$是位置$t$的embedding

为什么不用$\textbf{x}_t$,而用$\textbf{v}^{‘}$表示Target Item。作者的意思是对于Target Item,有两个查找表,we call $\textbf{V}$ the input representation and $\textbf{V}^{‘}$ the output representation of Target Item。we apply inner product operation to represent the user-to-item relevance

3 Item-to-Item Network

4 final

And the final input of MLP is represented by $\textbf{c}=[\textbf{x}_p,\textbf{x}_t,\textbf{x}_c,\hat{\textbf{u}},r,\hat{r}]$

5 loss

target

The loss for input feature vector $\textbf{x}=[\textbf{x}_p,\textbf{x}_b,\textbf{x}_t,\textbf{x}_c]$ and click label $ y \in \{0, 1\} $is:

auxiliary match network

主要是提高$r$对于user-to-item relevance的表现能力而引入。

The probability that user with the first $T −1$ behaviors click item $j$ next can be formulated with the softmax function as:

其中$\textbf{v}^{‘}_j$表示第$j$个商品的output representation。With cross-entropy as loss function, we have the loss as follows:

However, the cost of computing $p_j$ in Equation (6) is huge,引入负采样,然后loss为

final

参考

阿里2020年发表在AAAI上的关于CTR的paper,原文链接 https://sci-hub.se/10.1609/aaai.v34i01.5346

Deep Interest Evolution Network for Click-Through Rate Prediction

1.概述

对din的改进

din:强调用户兴趣是多样的,并使用基于注意力模型来捕获用户的兴趣

dien:不但要找到用户的兴趣,还要抓住用户兴趣的变化过程

2.结构

1 behavior layer

Feature Representation

User Profile, User Behavior, Ad and Context

one-hot vector

Embedding

transforms the large scale sparse feature into lowdimensional dense feature

2 Interest Extractor Layer

利用GRU作为基本单元

3 Interest Evolving Layer

主要两个部分,一个是attention一个是AUGRU

attention

用公式表示为:

AUGRU

结构如上图,用式子表达如下:

3 loss

target

为了提高准确率引入Auxiliary loss

其中$\sigma$为sigmoid

global loss:

参考

原文地址 https://arxiv.org/pdf/1809.03672.pdf

Deep Interest Network for Click-Through Rate Prediction

1.DEEP INTEREST NETWORK

1.1 特征表示

特征可以表示为$\textbf{x}=[t_1^T,t_2^T,…,t_M^T]^T$,one hot表示,举个例子如下

1.2 embedding层

对于$t_i \in \mathbb{R}^{K_i}$,$W^i=[w_1^i,…,w_j^i,…,w_{K_i}^i] \in \mathbb{R}^{D\times K_i} $

1.3 Pooling layer and Concat layer

Two most commonly used pooling layers are sum pooling and average pooling, which apply element-wise sum/average operations to the list of embedding vectors.

1.4 Activation unit

DIN就是在base的基础上加入local activation unit,作用是对用户行为特征的不同商品给与不同权重,其余保持不变,式子表示如下

其中$a(\cdot)$为上图中activate unit,与attention很像,原文是Local activation unit of Eq.(3) shares similar ideas with attention methods which are developed in NMT task[1].

1.5 MLP

1.6 Loss

交叉熵表示为:

2.训练技巧

Practically, training industrial deep networks with large scale sparse input features is of great challenge. 引入Mini-batch Aware Regularization和Data Adaptive Activation Function,具体不在此介绍

参考

原文 https://arxiv.org/pdf/1706.06978.pdf

文本改写和term分析

1.文本改写

改写主要步骤query纠错、query对齐、query扩展

1.1query纠错

在搜索过程中由于对先验知识的掌握不足或者在使用输入法的时候误输入导致的,本质为去噪过程。

常用的query纠错方法有数字、拼音、漏字、重复字、谐音/形近字等方式。

1.2query对齐

对于输入query并无错误,但表达上与搜索引擎索引内容不相符而作的一种改写操作。例如“星爷是哪一年生的”,通过实体对齐,可改写为“周星驰的出生时间”。

方法:1.对齐规则 2.文本改写模型

1.3 query扩展

是将与用户输入的query的相似扩展query进行展示,使得用户可以选择更多的搜索内容,帮助用户挖掘潜在需求。

2.term分析

一段文本分词后,对于不同的词语,在相同文本中的重要性应该是不同的。

baseline的无监督方法可以是:tf-idf。

参考

https://zhuanlan.zhihu.com/p/344631739


:D 一言句子获取中...