【论文阅读】HOTPOTQA A Dataset for Diverse, Explainable Multi-hop Question Answering

HOTPOTQA A Dataset for Diverse, Explainable Multi-hop Question Answering

论文：https://arxiv.org/pdf/1809.09600.pdf

一个多样的，可解释的多跳问答数据集。

任务

现有的问答数据集不能训练QA系统进行复杂的推理并提供答案的解释。提出hotpot数据集，提供支持事实使模型能够改进性能并做出可解释的预测。

HOTPOTQA是一个新的数据集，拥有113k个基于Wikipedia的问答对，具有以下四个关键特性：

single-hop数据集：The train-easy set contains 18,089 mostly single-hop examples.

将hard examples随机划分为4个子集：

两种设置使用不同数据集的原因：distractor设置中的模型可以使用gold paragraphs，但full wiki设置中不可以使用gold paragraphs。

对于每个句子，在第一个和最后一个位置连接selfattention layer的输出，并使用binary linear classifier来预测当前句子成为支持事实的概率。
将此分类器的二进制交叉熵损失最小化。在多任务学习环境中，该目标与正常问答目标共同得到优化，并且它们共享相同的low-level representations。
使用该分类器，还可以在支持事实预测的任务上评估模型以评估其可解释性。

在两种设置下，扩大上下文范围会增加问题回答的难度，所有设置下的模型性能均明显低于人工性能。与distractor相比full wiki设置中的性能要低得多。

按不同问题类型测试：

distractor setting下comparison questions的F1得分比bridge entities questions低，表明对这种新颖的问题类型进行更好的建模可能需要更好的神经网络结构。
full wiki setting下bridge entities questions的性能显著下降，而comparison questions的性能仅略有下降，是因为两个实体通常都出现在比较问题中，从而降低了检索难度。