语言文学网-学术论文、书评、读后感、读书笔记、读书名言、读书文摘!

语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网

否定与不确定信息抽取研究综述(6)

http://www.newdu.com 2017-11-16 《中文信息学报》2015年第 邹博伟 周国栋 朱 参加讨论

    5 研究发展与趋势 
    目前,否定与不确定信息抽取研究大都集中在句子内部线索词及其覆盖域识别任务上,针对此类任务,相关研究机构组织了大量的评测会议和学术论坛,并发布了标准语料库。然而,在否定与不确定信息抽取研究中,仍存在很多问题没有解决甚至没有提出。本章将具体阐述否定与不确定信息抽取研究未来的发展趋势,主要集中在以下几个方面: 
    (1)语义层面的否定与不确定信息抽取研究 
    BioScope语料库的标注规范和CoNLL’2010评测中均将否定与不确定线索词对应的覆盖域定义为其句法作用范围,这种定义使得覆盖域识别任务受到句法分析的严重制约,Morante等[23]指出,按照该定义,覆盖域通常会将被否定或不确定线索词所修饰的主语排斥在外。因此,否定与不确定信息抽取研究需要从语义上划分出更细粒度的要素。Blanco等[18]首次提出了聚焦点识别任务,重点研究否定线索词语义上所修饰的内容。随着浅层语义分析技术的不断发展,否定与不确定信息抽取将涉及更多语义层面的研究,例如,否定或不确定线索词的修饰目标(实体、事件等),否定或不确定信息的发布者,以及与这些目标相关联的各种语义角色等。 
    (2)面向篇章的否定与不确定信息抽取研究 
    如本章开头所述,目前,否定与不确定信息抽取研究的对象往往集中在句子内部,如果这些信息分布在篇章的不同句子中(如对话、问答等),则无法通过现有的检测技术识别此类信息。因此,跨句子的否定与不确定信息抽取将成为领域内的研究重点,这就对系统正确识别线索词、覆盖域及聚焦点等提出了更高的要求,而仅依赖句法结构的方法无法完全解决这一问题,需要结合篇章结构分析、指代消解等技术来实现面向篇章的否定与不确定信息抽取研究。 
    (3)隐式线索词的否定与不确定信息抽取研究 
    现有研究在抽取否定或不确定信息时,均以是否存在线索词为标准,然而,在某些特殊的上下文语境中,存在不含明显线索词的否定与不确定信息。例如,“你要对这件事负法律责任!”“谁说的?”,这段问答中并没有出现明显的否定线索词,但根据上下文不难理解,第二个说话者否定了前者的论断,反问修辞代替了否定线索词的功能;再例如,“桑托斯俱乐部对允许内马尔转会一事并没有明确表态。”“只有获得桑托斯俱乐部的批准,内马尔才能在诺坎普亮相。”,这两段话表述了两件事,一是桑托斯俱乐部是否允许内马尔转会是不确定的,二是说没有这个允许内马尔就不能在新东家亮相,前一描述中“没有明确表态”即为不确定信息的线索,表明该事件不确定,而后一描述中没有任何线索,但根据上下文的含义可知,内马尔不能在诺坎普亮相这一事件也是不确定的,前后事件之间的条件关系使得这种不确定性得到传递。通过对以上两个例子的分析表明,隐式线索词的否定与不确定信息抽取需要借助上下文中更多的隐含信息,以及实体或事件之间的潜在关联进行识别。 
    (4)面向汉语的否定与不确定信息抽取研究 
    面向英语的否定与不确定信息自动抽取研究已经取得了初步的成果,然而,面向汉语的否定与不确定抽取研究仍处于摸索阶段。目前有两方面问题亟待解决:第一个问题是语料库的构建。语料库建设是开展相关研究的重要基础,除了通过人工标注的途径,本文认为可以利用已有语料(如Chinese Prop Bank)尝试自动辅助人工标注构建汉语否定与不确定信息抽取语料库,其优点在于既降低了标注成本,又使得在使用该语料的同时,可以利用其他标注信息。否定与不确定信息属于语义层面的表述,依赖于具体语言特征(如语法、修辞等),因此,开展面向汉语的否定与不确定信息抽取研究的第二个问题在于,需要有针对性地引入适应汉语的相关自然语言处理技术。  (责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
评论
批评
访谈
名家与书
读书指南
文艺
文坛轶事
文化万象
学术理论