[2023 ACL] AtTGen: Attribute Tree Generation for Real-World Attribute Joint Extraction
李彦增关于利用属性树建模属性抽取任务的论文《AtTGen: Attribute Tree Generation for Real-World Attribute Joint Extraction》被ACL 2023接收。
属性抽取旨在从描述性文本中识别属性名称和相应的值,是知识图谱构建、搜索引擎和电子商务等下游应用的基础。在之前的研究中,属性抽取通常被视为用于预测属性类型的分类问题,或标记属性值位置的序列标注问题,分别用于封闭域或开放域等固定场景,在实际使用中均有着局限性。例如,在电商场景下,商品的属性除了需要准确分类的固定属性之外,还会存在大量开放性的自定义属性,它们对用户的检索和商品的推荐都能起到帮助。以前的研究试图通过模型集成、pipeline等形式综合不同模型来集成这些不同形式的属性,但仍然面临着级联误差、高计算开销、模型训练难度大等挑战。为了解决该问题,该工作提出了属性树模型,用于统一建模与表示封闭世界与开放世界中的实体、属性值与属性名关系,并提出了一种文本到树的生成模型,以高效和一致的方式学习不同场景中的属性标注。实验表明,这种方法可以很好地涵盖真实世界中的各种应用场景,且能在不同基准数据集上均达到优秀的效果。特别地,该模型在MEPAVE多模态属性抽取数据集中,在不利用多模态信息、模型大小仅12M的条件下,超越一众大模型与多模态模型,达到了96%以上的准确率。