2021-07-27 028324b503b9f2b6efbda1adc7f8d71b 99+ 6 m 0.9 k

文本生成评价指标

1.BLEU

BLEU,全称为bilingual evaluation understudy，一般用于机器翻译和文本生成的评价，比较候选译文和参考译文里的重合程度，重合程度越高就认为译文质量越高，取值范围为[0,1]。

优点

它的易于计算且速度快，特别是与人工翻译模型的输出对比；
它应用范围广泛，这可以让你很轻松将模型与相同任务的基准作对比。

缺点

它不考虑语义，句子结构
不能很好地处理形态丰富的语句（BLEU原文建议大家配备4条翻译参考译文）
BLEU 指标偏向于较短的翻译结果（brevity penalty 没有想象中那么强）

1.1 完整式子

BLEU完整式子为：

$BLEU=BP*e^{\sum_{n=1}^{N}W_nlogP_{n}}$

1.2 $BP$

目的：$n-gram$匹配度可能会随着句子长度的变短而变好，比如，只翻译了一个词且对了，那么匹配度很高,为了避免这种评分的偏向性,引入长度惩罚因子

Brevity Penalty为长度惩罚因子，其中$l_c$表示机器翻译的译文长度，$l_s$表示参考答案的有效长度

$BP=\begin{equation} \left\{ \begin{aligned} 1 & & if \ \ l_c>l_s \\e^{1-\frac{l_s}{l_c}} & & l_c<=l_s \end{aligned} \right. \end{equation}$

1.3 $P_n$

人工译文表示为$s_j$，其中$j \in M$,$M$表示共有$M$个参考答案
翻译译文表示$c_i$，其中$i \in E$,$E$表示共有$E$个翻译
$n-gram$表示$n$个单词长度的词组集合，令$k$ 表示第$k$ 个词组,总共$K$个
$h_k(c_i)$表示第$k$个词组在翻译译文$c_i$出现的次数
$h_k(s_{j})$表示第$k$个词组在参考答案$s_{j}$出现的次数

$P_n=\frac{\sum_{i=1}^E\sum_{k=1}^Kmin(h_k(c_i),max_{j\in M}h_k(s_{j}))}{\sum_{i=1}^E\sum_{k=1}^Kmin(h_k(c_i))}$

举例如下，例如：

　　　　原文：今天天气不错

　　　　机器译文：It is a nice day today

　　　　人工译文：Today is a nice day

$1-gram$: