实验室动态

[2020 AAAI] The value of paraphrase for knowledge base predicates

薛冰聪关于谓词释义词典构建的论文The Value of Paraphrase for Knowledge Base Predicates被AAAI 2020接收。

释义词典在自然语言处理任务中有着广泛的应用,为知识库中的谓词构建释义对是理解RDF三元组的关键。现有的一些工作如WordNet、Patty、PPDB等致力于从海量文本中自动抽取释义对,但它们大多存在包含的谓词数量少、释义对准确率低等问题。

在这篇文章中,我们给出了一整套构建大规模、高质量的谓词释义词典的流程,它结合了机器算法和众包检验,充分吸收现有数据集的成果,并通过构建自己的众包平台从质量、时间、花费三方面对众包任务进行优化。我们最终得到了一个包含DBpedia中2284个常用谓词、3万多释义对的高质量词典,并将此词典应用在问答和问题生成任务中,性能得到了很大的提升,证明了一个好的谓词释义词典在NLP任务中的作用。我们还将此词典开源以供以后的研究使用。