[论文阅读]Improving Distantly-Supervised Named Entity Recognition with Self-Collaborative Denoising Learning
通过自协作去噪学习改进远程监督命名实体识别
摘要
远程监督命名实体识别(DS-NER)有效地降低了劳动力成本,但同时由于远程监督的强烈假设,本质上受到标签噪声的影响。通常,错误标记的实例包含大量不完整且不准确的注释噪声,而大多数现有的去噪工作仅涉及一种噪声,无法充分探索整个训练集中的有用信息。为了解决这个问题,我们提出了一种名为自协作去噪学习(SCDL)的强大学习范式,它以互惠互利的方式联合训练两个师生网络,以迭代地执行噪声标签精炼。每个网络都被设计为通过自去噪来利用可靠的标签,并且两个网络相互通信以通过协作去噪来探索不可靠的注释。对五个真实世界数据集的大量实验结果表明 SCDL 优于最先进的 DS-NER 去噪方法。
大纲
以下是论文《Improving Distantly-Supervised Named Entity Recognition with Self-Collaborative Denoising Learning》的要点:
该论文提出了一种名为Self-Collaborative Denoising Learning(SCDL)的新框架,用于改进远程监督的命名实体识别(DS-NER)。
DS-NER存在标签噪声问题,包括不完整的注释(由于资源覆盖有限)和不准确的注释(由于歧义)。
SCDL包括两个教师-学生网络,分别在自我去噪(内循环)和协同去噪(外循环)方面进行迭代。
对于自我去噪,每个教师-学生网络基于一致性和置信度选择可靠的标签,用于训练学生。通过学生的指数移动平均更新教师。
对于协同去噪,一个教师的伪标签被用来定期更新另一个网络的嘈杂标签。
对5个数据集的实验证明SCDL优于先前DS-NER领域的最新方法。它处理不完整和不准确的注释,而无需假设。
消融实验证实了自协同去噪框架的合理性和稳健性。
SCDL从整个训练集中探索有用信息,而不仅仅是像以前的工作那样减少标签噪声的影响。
总体而言,其主要贡献是提出了一种新的DS-NER训练范式,可以迭代地去噪标签并充分利用错误标记的数据。自协同方法在这种嘈杂标签的情境中被证明是有效的。
SCDL
在这项工作中,我们努力弥合这一差距,并提出了一个名为 SCDL(自我协作去噪学习)的强大学习框架。 SCDL 共同训练两个师生网络,形成内环和外环,用于在没有任何假设的情况下应对标签噪声,并对错误标签的数据进行充分探索。每个师生网络内的内循环是一个自去噪方案,用于从两种噪声标签中选择可靠的注释,两个网络之间的外循环是一个协作去噪过程,用于将不可靠的实例纠正为有用的实例。具体来说,在内循环中,每个师生网络选择教师生成的一致且高置信度的标记令牌来训练学生,然后基于重新训练的学生通过指数移动平均(EMA)2逐步更新教师。至于外环,由于 EMA 的稳定性和两个网络之间不同的噪声敏感度,一个网络的老师生成的高质量伪标签被用来更新另一个网络的噪声标签。而且,内循环和外循环过程将交替执行。显然,成功的自降噪过程(内循环)可以生成高质量的伪标签,这对协作学习过程(外循环)有很大帮助,而有前途的外循环将通过细化噪声标签来促进内循环,从而处理标签噪声在 DS-NER 中有效。
师生网络
Student and Teacher network指一个较小且较简单的模型(学生)被训练来模仿一个较大且较复杂的模型(教师)的行为或预测。教师网络通常是一个经过训练在大型数据集上并在特定任务上表现良好的模型。而学生网络被设计成计算效率高且参数较少的模型
Student and Teacher network主要思想是利用教师网络的知识和经验来指导学生网络的学习过程。训练的过程被称为”知识蒸馏”。它涉及使用教师网络的预测结果和真实标签来训练学生网络。学生网络的损失函数通常由两部分组成:标准的交叉熵损失和蒸馏损失。蒸馏损失用来度量学生的预测与教师的软化、更概率化的输出之间的接近程度。
知识蒸馏(Knowledge Distillation)是一种深度学习中的模型优化技术,用于将一个大型、复杂的模型的知识转移给一个小型、简单的模型。它的主要目标是让小型模型能够模仿大型模型的行为,并且在学习过程中,将大型模型的”知识”蒸馏(传递)给小型模型,使得小型模型在表现上能够接近或者甚至超过大型模型。基本思想是通过在训练过程中,使用大型模型的预测结果(通常是类别概率)来指导小型模型的学习过程。一般来说,知识蒸馏会在损失函数中添加一个额外的项,该项用于衡量小型模型的预测与大型模型的预测之间的相似性。这个相似性度量通常使用交叉熵损失函数或其他类似的距离度量。
核心工作
在这项工作中,我们努力弥合这一差距,并提出了一个名为 SCDL(自我协作去噪学习)的强大学习框架。 SCDL 共同训练两个师生网络,形成内环和外环,用于在没有任何假设的情况下应对标签噪声,并对错误标签的数据进行充分探索。每个师生网络内的内循环是一个自去噪方案,用于从两种噪声标签中选择可靠的注释,两个网络之间的外循环是一个协作去噪过程,用于将不可靠的实例纠正为有用的实例。具体来说,在内循环中,每个师生网络选择教师生成的一致且高置信度的标记令牌来训练学生,然后基于重新训练的学生通过指数移动平均(EMA)逐步更新教师。至于外环,由于 EMA 的稳定性和两个网络之间不同的噪声敏感度,一个网络的老师生成的高质量伪标签被用来更新另一个网络的噪声标签。而且,内循环和外循环过程将交替执行。显然,成功的自降噪过程(内循环)可以生成高质量的伪标签,这对协作学习过程(外循环)有很大帮助,而有前途的外循环将通过细化噪声标签来促进内循环,从而处理标签噪声在 DS-NER 中有效。
知识蒸馏(Knowledge Distillation)是一种深度学习中的模型优化技术,用于将一个大型、复杂的模型的知识转移给一个小型、简单的模型。它的主要目标是让小型模型能够模仿大型模型的行为,并且在学习过程中,将大型模型的”知识”蒸馏(传递)给小型模型,使得小型模型在表现上能够接近或者甚至超过大型模型。
DS-NER
DS-NER是distantly supervised named entity recognition的缩写,表示基于远程监督的命名实体识别。
命名实体识别(NER)任务是识别文本中出现的实体 span,并对其进行分类,如人名、地名组织名等。远程监督是一种半自动标注文本的方法。
DS-NER 的基本思想是:
- 使用外部资源(知识图谱、词典等)中已知的实体词条,去匹配未标注的文本中出现的词语。
- 如果一个词语能在外部资源中找到,就自动标注为相应类别的命名实体。
- 这样可以快速地为大规模文本生成标注,构建用于 NER 模型训练的数据集。
与人工标注相比,DS-NER 大幅减少了标注成本,但也会引入一些噪声:
- 不完整标注:文本中某些实体无法在外部资源中找到,被错误标注为非实体。
- 不准确标注:同一词语根据上下文可能属于不同类型,简单匹配会引入歧义。
EMA
EMA是Exponential Moving Average的缩写,表示指数移动平均。它是一种给予最近数据更高权重的平均方法,用于模型参数的更新。
具体来说,EMA的计算公式如下:
EMA_t = α * EMA_{t-1} + (1 - α) * 当前值
这里:
EMA_t 是当前时刻t的指数移动平均值
EMA_{t-1} 是上一时刻的指数移动平均值
当前值是新的值
α是平滑系数,取值在0到1之间。
可以观察到,上一时刻的指数移动平均值EMA_{t-1}会与当前新值进行加权平均。α控制老值的权重,近期数据的权重为1-α。
当α取值越大,给予历史值的权重就越大,平滑效果更明显。
EMA的优点是:
提高了模型参数更新的稳定性和平滑性。
相比普通移动平均,EMA给予了最近数据更高的权重。
相比只使用当前信息,EMA考虑了历史信息。
在SCDL中,利用EMA来更新老师模型的参数,可以提供更可靠和稳定的伪标签,从而指导学生模型的训练。这比单次更新参数的效果更好。
根据第四部分,我对该模型的理解是:
- 自我去噪学习(Self Denoising Learning)
这个部分提出了一个Teacher-Student网络来进行自我去噪。
(1) Teacher模型先基于当前参数,对训练数据生成伪标签。
(2) 然后根据两点选择可靠的标注:
一致性预测:如果伪标签和原始噪声标签一致,则视为可靠。
高置信度预测:如果伪标签的预测概率很高,则可靠。
(3) 把选择的可靠标注和原始标签组合,用于训练Student。
(4) Student通过反向传播更新参数。
(5) 使用指数滑动平均(EMA)来更新Teacher,EMA可以平滑和稳定参数。
通过上面这个内循环,可以在训练过程中去除噪声,提炼可靠标注。
- 协同去噪学习(Collaborative Denoising Learning)
这个部分提出使用两个Teacher-Student网络,让它们互相协同去噪。
(1) 定期使用一个网络的Teacher生成的伪标签,来更新另一个网络的噪声标签。
(2) 两个网络有不同的学习能力,可以探索对方漏掉的信息,实现协同。
(3) 内循环去除自身噪声,外循环可以纠正对方的错误标注。
(4) 两者交替进行,相互促进,可以不断提炼标注质量。
这样通过协同学习,可以探索原始标签中的更多有用信息,防止过度去噪。
- 总体流程
(1) 使用原始噪声标签进行预训练
(2) 开始自我去噪和协同去噪的内外循环交替进行
(3) 循环一定步数后,在Teacher和Student中选择最好的模型
通过这个方式,可以充分发挥噪声标注中包含的有用信息,实现名称实体识别任务的去噪。