由于线索词可能由多个连续的单词构成,因此有些研究将线索词的识别任务转化为序列标注问题。Tang等[30]采用基于条件随机场模型(Conditional Random Field Model)的序列标注方法和大规模基于边界模型(Large Margin-based Model)分类器训练数据,以词性、命名实体和组块等作为特征,取得了CoNLL’2010-Task1B(基于BioScope语料的不确定句识别子任务)的最好性能,F值为86.4%,而在Wikipedia数据集上却仅取得了55%的F值,同一方法在不同领域中表现出了不同的性能,表明基于序列标注的线索词识别方法依赖于领域内的文本特征;Verbeke 等[31]提出了基于kLog[32]的核方法来解决不确定线索词识别任务,其特点在于能够将上下文信息转化成图模型,使用基于图的核函数来获取句子内部词之间的关系,从而识别线索词,Verbeke在CoNLL’2010提供的Wikipedia数据集进行了实验,将F值提高到61.5%(该任务的评测最好结果为60.2%)。 4.2 覆盖域识别研究 最早的覆盖域识别系统是由Chapman等[10,33]开发的基于正则表达式的NegEx系统,该系统根据一个由183个否定词/短语组成的线索词列表识别否定信息,并规定距离线索词六个窗口以内为否定线索词的覆盖域;Goldin等[34]扩展了NegEx系统的功能,利用基于统计的朴素贝叶斯和基于符号规则的决策树分类器,判断该词窗口是否可以作为覆盖域;Goryachev等[35]在哈佛医学院的一份技术报告中指出,他们比较了四种不同的否定线索词识别方法的性能,在1745份出院报告数据集上的实验表明,基于正则表达式方法优于基于分类的方法,其中ExNeg系统性能最好。Harkema等[36]针对生物医学信息抽取研究开发了ConText系统,该系统是ExNeg系统的升级扩展版,采用了上下文中线索词、伪线索词及其覆盖域等特征,ConText系统不仅识别否定信息,还能够识别假设或经验等非事实性信息。目前,覆盖域识别研究大体可划分为基于启发式规则的方法与基于机器学习的方法两类。 基于启发式规则的覆盖域识别研究大多通过寻找和提取线索词与其覆盖域中某些元素的关系,生成模版或规则,这些关系通常包括句法关系、实体关系或浅层语义关系等。Huang等[37]首次提出在句法树结构上,利用启发式规则判定句法树结点是否处于某个否定词的作用范围之内。然而,这种基于句法规则的方法往往针对某一类线索词的覆盖域识别任务比较有效,但可扩展性较差,很难延伸到其他类别的覆盖域识别任务上。Rokach等[38]提出了一种基于模版的方法识别否定词的作用范围,该方法的好处是可以自动学习和提取模版,尤其是当线索词为短语时,该方法的性能明显好于现有的基于机器学习的方法。Özgür[28]利用基于句法特征模版的启发式规则判断不确定线索词的覆盖域,在Bio-Scope的文摘语料和全文语料上分别取得了79.89%和61.13%的准确率。Øvrelid[29]则将依存句法结构引入不确定词覆盖域识别的研究中,定义启发式规则,识别不确定线索词的覆盖域。Apostolova[39]从BioScope语料库中自动抽取出一套“词-句法”模式集合,然后利用这个模式集合识别否定词和不确定词的覆盖域,这种基于规则的方法取得了与机器学习算法相当的性能。 自2008年BioScope语料库发布后,基于机器学习的覆盖域识别研究成为热门。Morante等[40]首次采用机器学习方法对否定词的覆盖域进行识别,他们将覆盖域识别问题看作分类问题,针对每个给定的否定词,从左至右依次判断句子中的每一个单词是否落入该否定词的覆盖域之内,最后根据标记结果,进行后处理,以确保每个否定词的覆盖域都是连续的。Morante等[41]将多分类器方法优化到单分类器,采用基于存储算法的分类器,并且在浅层句法特征的基础上加入了依存句法特征,获得了CoNLL’2010-Task2(覆盖域识别子任务)评测的最好性能,F值达到57.3%。Zhu等[42]和Li等[43]发现,在语义角色标注中,谓词的作用范围与覆盖域类似,如果将线索词看作谓词,则覆盖域识别的问题就可以转化为论元标注问题,通过该想法,他们提出了一种基于简化的浅层语义分析模型的覆盖域识别方法。Zou等[44]采用基于树核的方法获取覆盖域的句法结构特征,同时还针对不同词性的线索词自动建立各自独立的分类器,在BioScope文章摘要语料库上,将否定线索词和不确定线索词的覆盖域识别任务的性能(F值)分别提高到76.90%和84.21%。 除了线索词和覆盖域识别研究,针对否定和不确定信息其他要素(例如聚焦点、实体等)进行识别的相关研究较少。本文第二章中提到聚焦点识别任务,该任务识别覆盖域中线索词所强调的内容,属于更细粒度的否定与不确定信息抽取任务,由Blanco等[18]首次提出,该研究通过自动标注动词性谓词的语义角色来判断与动词相关的否定线索词的聚焦点。此外,Elkin等[45]采用否定赋值语法规则识别电子病例中被否定或具有不确定性的概念,如实体、事件等。 (责任编辑:admin) |