2023-08-15 03:54:01 来源 : 哔哩哔哩
Title: Implicit Temporal Reasoning for Evidence-Based Fact-Checking (证据驱动事实核查
本研究通过隐式时间推理来改进基于证据的事实核查模型,通过构建共享时间轴并提供时间信息给RNN和Transformer分类器,实现了对主张和证据之间的时间关系的推理,从而提高了模型的性能。
【资料图】
论文背景: 自动事实核查一直是政治、媒体和研究议程的重要内容,然而时间在机器辅助事实核查中的作用尚未得到充分研究。时间可以影响先前主张的真实性以及支持或反驳证据的相关性。本研究旨在通过将主张和相关证据与时间相关联,实现时间推理,并将其应用于计算事实核查模型中。
过去方案: 过去的研究主要关注上下文知识的利用,而对时间推理的影响却被忽视了。已有的方法中,很少有研究明确地将时间关系纳入事实核查的过程中。
论文的Motivation: 本研究的动机在于通过隐式时间推理来改进基于证据的事实核查模型,以提高模型的预测性能,并影响证据的相关性和支持/反驳性的估计。通过构建共享时间轴并提供时间信息,使事实核查模型能够在多个层次上推理主张和证据之间的时间关系。
a. 理论背景:
本研究强调了时间推理在自动事实核查中的重要性。作者提出了一种方法,通过将索证和证据基于共享时间轴进行关联,建立索证和证据之间的时间方面和关系。他们证明了将时间信息纳入事实核查模型可以提高其性能。
b. 技术路线:
该研究提出了两个层次的基于时间的推理和关联:文档层次和内容层次。在文档层次上,索证的发布日期作为将证据与索证关联的参考点。索证和证据之间的时间关系基于它们的发布日期之间的天数差来确定。在内容层次上,文本中的时间表达式用于将文档放置在时间轴上的多个位置。
这篇论文的主要目的是利用时间推理来提高基于证据的事实检查的效果。时间推理是指根据事实陈述和证据文档的发布日期和文本中的时间表达式,来判断它们之间的时间关系。例如,如果一个事实陈述是在2017年11月30日发布的,而一个证据文档是在2017年9月12日发布的,那么我们可以推断出证据文档是在事实陈述之前发布的,因此可能不太相关或可信。
论文模型的工作流程如下:
首先,模型接收一个事实陈述和一组证据文档作为输入。每个输入都有一个发布日期和一个文本。
然后,模型使用预训练的方法来提取和标准化文本中的时间表达式,例如“明天”、“2015年9月”等。这些时间表达式都被转换成与事实陈述发布日期相对应的天数差值,例如“0”表示同一天,“-740”表示740天之前。
接下来,模型将发布日期和时间表达式分配到不同的时间区间(称为时间桶),以便在一个共享的时间线上定位事实陈述和证据文档。每个时间桶都有一个唯一的索引,表示它与事实陈述发布日期的距离。例如,“[1,4]”表示1到4天之后,“[-∞,-1596]”表示1596天之前或更早。
然后,模型将事实陈述和证据文档的文本和时间信息编码成向量表示,使用神经网络模型来计算它们之间的匹配程度。模型可以在两个层次上进行时间推理:文档层次(只使用发布日期)和内容层次(使用文本中的时间表达式)。模型还可以将两个层次的信息结合起来进行综合推理。
最后,模型根据匹配程度为每个证据文档分配一个相关性得分和一个支持/反驳标签得分。然后,模型将所有证据文档的得分综合起来,得到一个最终的事实检查标签,表示事实陈述的真实性。
a. 详细的实验设置:
该模型使用了Augenstein等人(2019)提出的联合真实性预测和证据排序模型作为事实核查模型。该模型将索证和证据作为输入,并将它们编码为潜在表示。与索证相关的元数据也被编码。这些表示然后通过匹配方法组合成联合索证表示。证据评分器为每个证据分配一个分数,标签评分器为每个真实性标签分配一个分数。最终的真实性预测是通过对分数应用softmax函数得到的。
b. 详细的实验结果:
将时间表示嵌入到模型中,通过在不同阶段将时间表示转化为时间嵌入,并与索证和证据的词嵌入集成。模型使用时间桶来表示与索证发布日期相关的时间间隔。时间桶的选择基于聚类假设,即一个聚类中的文档包含相似的信息。模型使用时间嵌入矩阵进行训练,并在训练过程中更新。
在文档层次和内容层次的推理中,使用详细的实验设置来构建时间桶。对于文档层次的推理,计算证据的发布日期,并将其分为分位数以创建时间桶。对于内容层次的推理,提取和归一化索证和证据中的时间表达式,并计算它们与索证发布日期之间的距离。这些距离用于将时间表达式分配到相应的时间桶中。
在实验设置中,使用训练集的索证和证据进行模型训练,并在验证集上评估性能。通过实验确定时间桶的数量,其中20个分位数返回最佳性能。时间嵌入的嵌入维度根据模型中的集成阶段确定。
该模型使用基于卷积神经网络(CNN)的文本编码器实现。证据评分器和标签评分器作为模型中的独立组件实现。模型使用训练集的索证和证据进行训练,并在验证集上评估性能。
模型的性能基于其预测索证真实性和证据排序的能力进行评估。模型使用时间嵌入矩阵进行训练,并在训练过程中进行更新。
在MultiFC2数据集上进行实验,该数据集包含34,924个英文索证和最多10个证据文档。这些索证来自各种事实核查网站。数据集还提供了关于发言人、类别、标签和链接实体的元数据。用于编码索证和证据文档的文本编码器是一个具有跳跃连接的双向LSTM和一个预训练的Sentence-DistilRoBERTa模型。元数据被表示为一个独热向量,并由CNN进行编码。标签评分器和证据评分器由全连接层组成。实验在训练集、验证集和测试集上进行,模型进行了预训练和微调。
在测试集上,模型的性能结果显示,时间信息的集成水平、关联/推理水平和模型架构都对性能有影响。对于文档层次和内容层次的推理,全局集成优于局部集成。在文档和内容层次上同时关联索证和证据的组合设置获得了最高的性能。与RoBERTa模型相比,时间推理对BiLSTM模型的影响更为显著。
对于不同的权重值组合文本特征和时间信息的实验表明,在推理文档层次的时间关系时,应更加重视文本,而在内容层次的推理时,应更加重视时间。对证据相关性和标签分数的分析显示,时间推理强烈影响模型对证据相关性和支持/反驳性质的估计。时间信息对最终预测的重要性通过归因值得到了证明,归因值显示引入时间信息会降低索证和证据文本的归因强度。
文本和时间特征对最终预测的归因值显示,模型将预测归因于索证和证据,但更加强调证据。然而,当引入时间信息时,索证和证据文本的归因强度降低,表明时间对模型的预测有影响。时间信息的排序与内容的排序不同,较近的发布日期获得较高的归因强度。同一时间桶内的证据倾向于偏好相同的预测标签。
标签: