实验室动态

[2023 EMNLP] LLMaAA: Making Large Language Models as Active Annotators

张若禹关于利用大语言模型(LLM)进行数据标注的论文《LLMaAA: Making Large Language Models as Active Annotators》被Findings of EMNLP 2023接收。

传统的NLP任务通常依赖于监督学习范式,需要大量的标注数据进行训练。为了利用大语言模型(LLM)的能力和海量的无监督数据,在本文中我们提出了一种基于LLM的标注策略LLMaAA,将LLM作为标注者并通过主动学习提升标注效率。为了提升下游模型在伪标签数据下的健壮性,我们从标注和训练两方面进行了优化:(1)在标注阶段,我们使用k-近邻策略选取示例样本,(2)在训练阶段,我们使用重加权技术提升学习表现。在两类信息抽取任务中,我们的实验展示了LLMaAA的有效性。