篇章连贯性建模新视角:基于主位-述位结构理论的无监督模型--《基于主位-述位结构理论的英文作文连贯性建模研究》简述
http://www.newdu.com 2024/11/24 09:11:19 中国社会科学网 王婷婷 参加讨论
论文作者简介: 徐凡、王明文、谢旭升、李茂西、万剑怡,江西师范大学计算机信息工程学院。 基金项目: 国家自然科学基金(61402208,61462045,61562042),江西省教育厅项目(GJJ150351) 文章以系统功能语法中主位-述位结构理论为基础,提出了一种无监督的篇章连贯性模型,该模型可以通过引入词语的词干、上下位、近义和复述等语义方面的信息,来计算相邻句子中主位和述位的相似度,并利用此相似度值来描述篇章的连贯性。同时,文章提出了一种简单有效的基于篇章关系计数的连贯性模型,并采用线性组合方法将其与基于主位-述位结构理论的连贯性模型加以集成。实验证明,与目前有监督的基于实体和基于篇章关系网格的篇章连贯性模型相比,这一无监督的基于主位-述位结构理论的篇章连贯性模型对提升作文连贯性检测准确率更有效。 文章主要由六部分构成:一、引言;二、相关工作;三、基于主位-述位结构理论的篇章连贯性模型;四、基于篇章关系计数的篇章连贯性模型及集成;五、实验设置和结果分析;六、结论和将来工作。 篇章连贯性建模是对篇章中句子间的连贯性程度建立可计算模型,是自然语言处理的一个基础和关键问题。一般来说,在英文写作中,位于底层的语篇衔接性与连贯性特征比表层英语语法、词汇等发面的错误更难观察。而衔接性与连贯性相比,前者是连句成章的词汇和语法方面的手段,是语篇的有形网络,后者则是采用这些手段所产生的结果,是语篇中底层语义上的关联性,是语篇的无形网络。因此,连贯性又比衔接性显得更为重要些。然而目前现有的篇章连贯性模型存在两方面的不足:第一,忽略了篇章衔接性理论对连贯性建模的指导作用,学界虽意识到主位部分(已知信息)对与信息传递和维护篇章的衔接性和连贯性的重要作用,但是仅仅停留于定性层面上,缺乏可计算性。第二,主流的篇章连贯性模型均采用有监督的机器学习方法,需要依赖大规模高成本的人工标注语料库,而该模型又与文本中抽取的平面和结构化特征密切相关,面临问题颇多。 针对这两方面问题,文章将主位-述位结构理论从定性拓展到定量,从有监督改变为无监督(即不需要人工标注语料库),进而提出了无监督的基于主位-述位结构理论的篇章连贯性模型。根据Halliday提出的系统功能语法理论,主位是言者表达思想的出发点,一般是已知信息,述位是围绕主位展开的事实性内容,一般是未知信息,前者在语篇组构方面起着重要的作用。据此,作者采用美国卡耐基梅隆大学提出的机器翻译评测指标METEOR将相邻句子的主位、述位相似度作为篇章整体连贯性得分,并将得分作为判断篇章连贯与否的标准,以此实现主位-述位结构理论的可计算化。 接着,文章指出在连贯性建模中,篇章关系的识别与计数也是需要注意的方面,文章以显式的篇章关系识别方案(AddDiscourse)为工具识别篇章关系,进而根据相应计算公式对连贯性进行评分。同时,作者指出基于主位-述位结构理论的模型和基于篇章关系计数的模型二者具有协同性。 最后,文章以国际基准英文作文为语料,对这一篇章连贯性模型进行有效性检测,结果表明主位-述位结构理论和篇章关系信息能够使篇章连贯性检测准确率得到显著的提升。 (本文刊于《中文信息学报》2016年第30卷第1期) 中国社会科学网 王婷婷 (责任编辑:admin) |