语言文学网-学术论文、书评、读后感、读书笔记、读书名言、读书文摘!

语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网

否定与不确定信息抽取研究综述(4)

http://www.newdu.com 2017-11-16 《中文信息学报》2015年第 邹博伟 周国栋 朱 参加讨论

    3.2 维基百科语料 
    维基百科(Wikipedia)是基于wiki技术的多语言百科全书协作计划,任何人都可以编辑维基百科中的任何文章及条目,但其要求编辑者针对缺乏证据支持的内容添加模糊标签【4】(Weasel Tag),此类数据通常为缺乏证据支持的观点或阐述,其中包含了大量无证据的推断,因此被认为是不确定信息,维基百科要求分离出此类信息,以便在证据充足或得到补充时对其重新编辑。Ganter等[22]认为这些片段与Hyland[7]对模糊信息的描述相似,因此,Ganter等通过维基百科收集了这类信息并进行人工标注。但由于维基百科更新速度快,模糊标签存在时间短且特别稀疏,抽取出的语料规模较为有限。 
    CoNLL’2010评测也同时采用了维基百科作为语料来源之一,随机抽取了438个 Weasel段落,人工标注了最常见的不确定线索词,然后在其他维基百科段落中抽取包含这些不确定线索词的句子作为训练数据和测试数据,但该语料没有标注出线索词对应的覆盖域信息。CoNLL’2010评测中的不确定句子识别任务收集了11111个句子作为训练集,其中2484个句子包含不确定信息;测试集使用了9634个句子,其中2234个句子含有不确定信息。维基百科语料的相关数据统计见表2。评测会议还提供了100万条经过预处理但未标注的维基百科段落,作为领域内的数据样本供评测者使用。 
    
    4 研究现状 
    有关否定与不确定信息的研究最初仅局限于语言学,Friedman等[8]首次将否定与不确定信息抽取技术引入自然语言处理领域。早期的相关研究大多基于启发式规则的方法识别否定与不确定信息,此类方法实现简单并且准确率较高,但其可扩展性差;后来,研究者通过构建否定与不确定信息语料库,借助机器学习方法,利用各种自然语言处理模型来抽取否定与不确定信息。 
    4.1 线索词识别研究 
    早期的线索词识别任务往往以判断句子中是否包含否定或不确定信息为目标,这样即便没有正确识别线索词也可能导致最终的检测结果正确,因此,大多数研究将正确识别线索词作为评价否定与不确定信息抽取方法的主要指标。线索词识别研究的方法包括基于词表、基于模版、基于统计和基于序列标注等方法。 
    基于词表的线索词识别研究依赖于构建线索词词表。Kilicoglu等[24]提出了一种基于词表的半自动方法,为构建和精炼这个词表,Kilicoglu等从WordNet和生物医学的专业词表中手工提取了不确定概念和事实概念的语义和词法关系,添加到词表中,用来判断句子中是否包含不确定信息或者事实型信息。 
    基于模版的线索词识别研究的关键在于模版的准确获取与可扩展性。Sanchez等[25]构建了基于完全依存分析的启发式系统,用于识别生物学文本中否定的蛋白质相互作用信息,该系统使用线索词和句法树特征寻找否定表达的潜在结构。 
    基于统计的线索词识别研究的重点在于如何获取各种有效的句法或语义特征,并将其进行筛选和融合,获得有效的全局特征。Light等[26]以词作为特征,尝试使用支持向量机(Support Vector Machine)分类器判断医学论文摘要中的句子是否包含不确定信息;后来Georgescul[27]利用基于高斯径向基核函数(Gaussian Radial basis Kernel Function)的SVM 分类器改进了Light的方案,并通过调整类别权重克服了训练数据不平衡的问题,在 Georgescul的系统中同样仅使用了词特征,取得了CoNLL’2010-Task1W(基于维基百科语料的不确定句子识别子任务)评测的最好性能,F值达到60.2%。Özgür等[28]采用线索词的多种特征进行融合,包括词干、词性、位置、依存关系、前后词及关键词共现等特征,通过SVM 分类器识别线索词。Øvrelid等[29]将线索词识别问题看作二元分类问题,判断每个单词是否是线索词,其使用的特征包括词、词原型、词性及句法范畴等信息。  (责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
评论
批评
访谈
名家与书
读书指南
文艺
文坛轶事
文化万象
学术理论