How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation

Abstract

本文调研了各种nlg系统的metric

近期的nlg metric从MT发展而来，本文发现这些metric与人类在Twitter领域非技术语料和Ubuntu领域技术语料的判断相关度很低，证明了现有的auto metric非常weak，并提出了将来automatic evaluation metrics可能的发展方向

Introduction

之前的研究发现，对于task-oriented的dialogue system，现有的auto metric可以得到与人类判断相近的判断

针对nontask-oriented的dialogue system（chatbot），端到端的nn不需要大规模的有标签数据

目前常用的一些automatic evaluation metrics

machine translation
- BLEU
- METEOR
automatic summarization
- ROUGE

这些metrics假设合法的回答与标准回答有重叠的词语，但有些合法的回答并没有显著的word-overlap，会导致使用这些metric得分很低

屏幕快照 2019-03-06 14.06.17.png

现有的auto metric与human judge几乎没有相关性，无论是在chitchat-oriented的Twitter数据集还是在technical-oriented的Ubuntu数据及上

对于word embedding metrics，确实可以很好地区分baseline和SOTA model，本文从统计分析、质量分析以及模型敏感度等方面对其缺点进行了探讨

此外，本文还提出了一些与human judgement相关度更强的auto metric

本文关注独立于模型的metrics，所以并不考虑word perplexity的评测方式；同时，考虑生成的回答与模板回答的关系，所以不考虑recall等基于检索的评测方式；也不考虑有监督的评测方式。

Evalyation Metrics

Word Overlap-based Metrics

BLEU
METEOR
ROUGE

Embedding-based Metrics

Greedy Matching：从特性上来讲，会更倾向于key words和ground truth response中语义相近的回复。不是sentence-level的
Embedding Average：sentence-level的。就是把句子的所有词的embedding做了一个平均，然后计算rr和r̂ r^之间的cosine距离
Vector Extrema：也是sentence-level的，想法很简单明确，忽略那些common word，认为那些携带有重要信息的词在向量空间上是比较突出的。

Dialogue Response Generation Models

Retrieval Models

对话系统的排名或检索模型通常基于他们是否可以从预定义的响应语料库中检索正确的响应来评估

基于TF-IDF的retrieval based model，还分为C-TFIDF（针对context之间的cosine距离）和R-TFIDF（针对input context和response之间的cosine距离）
基于RNN的Dual Encoder (DE) model

Generative Models

LSTM language model，其训练用于预测（上下文，响应）对中的下一个单词。在测试期间，给模型一个上下文，用LSTM对其进行编码，并使用greedy beam搜索程序生成响应。
HRED，在传统的编码器 - 解码器框架中，上下文中的所有话语在编码之前被连接在一起。因此，来自先前话语的信息远远超过最近的话语。 HRED模型使用了一系列编码器; 上下文中的每个话语都通过“话语级”编码器，这些编码器的输出通过另一个“上下文级”编码器传递，这使得能够处理长期依赖性。

结论

用embedding-based metrics，可以较为明显的显示出DE模型比TF-IDF要好，HERD模型比LSTM要好，同时HERD模型和DE模型在Ubuntu数据集上的表现差不多。但是这并不能说明这个metrics就能够较好的捕捉到对话中的信息，因为这个模型和人的打分情况的相关性依然非常的弱。

Human Correlation Analysis

数据及描述

给定上下文和一个回复，给这个回复的合适性打分。问题们对应有20种不同的上下文，对应5个回复：1. 从测试集中随机挑的；2-4：上面说的算法产生的；5：人的回复。

有25个人来对此进行1-5的打分，并且对这些打分做了一致性检验(cohen kappa score)，去掉了2个kappa系数很低的。

Kappa 系数：用来衡量两种标注结果的吻合程度，标注指的是把N个样本标注为C个互斥类别

结果分析

对metrics的结果和人的打分做了Pearson correlation和Spearman correlation，并没有哪个metrics和人类的评价有较强的相关性。

而且他们去除停用词和标点之后再次使用BLEU，并且比较他们和人评价的相关性，发现BLEU对那些不影响到句子语义的因素是非常敏感的。

他们还检验了长度对于metrics效果的影响，相比于Embedding Average和人的评价，BLEU和METEOR对于长度是比较敏感的。

定性分析

屏幕快照 2019-03-07 20.31.47.png

用两个例子来分析：

人的评分很高，而embedding metrics的给分很低。因为在wording方面是不同的，而且embedding metrics没有办法将显著的词分离出来。
人的评分很低，而embedding metrics的给分很高。因为有两个词在词向量空间上是非常接近的，但是从语义上来看，这proposed response和context非常的不适合。

而对这两个例子，BLEU-N的评（N > 1）都接近0

讨论

Constrained tasks: 一般是把对话系统分为dialogue planner和natural language generation模块。因为把dialogue acts mapping到一个自然语言句子的过程比较接近MT，所以BLEU metrics在这个方面的任务中可能是使用的。但是仍需要验证。
Incorporating multiple responses: 就是在评估的时候不只有一个ground truth response，而是用retrieval的方法选出多个可能的response。效果以及对word-overlap metrics的影响仍需要检验。
Searching for suitable metrics: 本文只是对现有的metrics进行了批判，但是没有提出新的可行的metrics，但是他们认为embedding-based是一个可行的方向，如果它能够扩展为可把更复杂的模型（for medeling sentence-level compositionality）考虑进去的话。考虑到上下文或者其他utterance的metrics也可能可行。一个模型需要通过human survey的data来学到human-like的打分。