机器翻译中基于语法、语义知识库的汉语词义消歧策略
摘 要: 词义消歧研究在自然语言处理的许多应用领域中具有重要的理论和实践意义,在机器翻译中更是如此,它直接关系到译文质量的提高。但目前已有的词义消歧系统基本上都面临着消歧知识获取的瓶颈问题。本文认为,要真正有效地提高词义知识库的质量,需要在词类划分基础上,增加词义的语法功能分析和语义搭配限制,综合利用现有的语法、语义资源,提取多义词的每个意义在不同层级上的各种分布特征。以此为基础,本文提出了一种汉英机器翻译系统中基于语法、语义知识库的汉语词义消歧分析算法。初步的实验结果表明,该方法可以高质量地进行汉语名词、动词、形容词的词义消歧。王 惠 北京大学计算语言学研究所,北京,100871 关键词:词义消歧(WSD) 汉英机器翻译 语法词典 语义词典
A Study of Chinese Word Sense Disambiguation in MT Based on Grammatical & Semantic Knowledge-bases
AbstractWang, Hui (Institute of Computational Linguistics, Peking University, Beijing 100871, China) Word sense disambiguation (WSD) plays an important role in Machine Translation and many other areas of natural language processing. The research on WSD has great theoretical and practical significance. The main work in this paper is to study what kind of knowledge is useful for WSD in system, and establish a multi-level WSD model based on syntagmatic features and semantic information, which can be used to disambiguate word sense in Mandarin Chinese effectively. The model makes full use of the Grammatical Knowledge-base of Contemporary Chinese as one of its main machine-readable dictionary (MRD), which can provide rich grammatical information for disambiguation such as Chinese lexicon, parts-of-speech (POS) and syntax function. Another resource of the model is the Semantic Dictionary of Contemporary Chinese, which provides a thesaurus and semantic collocation information of 68,000 Chinese words. The results of this study indicate that the two MRD resources are effective for word sense disambiguation in MT and are likely to be important for general Chinese NLP. Key words: Word Sense Disambiguation, Chinese-English Machine Translation, Grammatical Knowledge, Semantic Dictionary 1. 引言 由于自然语言中一词多义现象普遍存在,在机器翻译中,要让计算机进行准确的译文选择(translation choice),一个重要的前提条件就是能够在某个特定上下文中,自动排除歧义,确定多义词的词义。因此,词义消歧(Word sense disambiguation, WSD)从50年代初期开始机器翻译研究起就一直备受计算语言学家的关注[1, 2]。 早期人们所使用的词义消歧知识一般是凭人手工编制的规则。由于手工编写规则费时费力,存在严重的知识获取的“瓶颈”问题。20世纪80年代以后,语言学家提供的各类词典成为人们获取词义消歧知识的一个重要知识源。Lesk、Luk根据《Oxford Advanced Learner’s Dictionary》中的释义文本来判断多义词在上下文中的词义[3, 4]。Dagan和Gale利用双语对照词典来帮助多义词消歧[5, 6]。Voorhees、Resnik从不同角度利用WordNet中的上下位关系、同义关系进行英语的词义消歧探索[7,8]。Yarowsky(1994)提出一种基于义类词典《Roget’s International Thesaurus》的词义消歧方法[9]。近年来,随着计算机存储容量和运算速度的飞速提高,通过使用各种机用资源和大规模语料库,计算机能够自动获得各种动态的搭配知识及其统计数据。因而,词义消歧研究中涌现出许多基于语料库统计的方法。比如,Gale和Church等利用双语语料库对英语多义词进行训练和测试[10]。 汉语词义消歧研究从20世纪90年代以后才开始,主要是利用语义词典提供的信息。清华大学计算机系黄昌宁、童翔利用《同义词词林》中的语义分类,对汉语合成词中的单字进行语义标注[11]。此后,上海复旦大学曾使用《同义词词林》的语义中类人工标注5万语料,然后用一个二元模型进行训练和测试,进行文本标注研究。LAM(1997)利用《现汉》中的释义文本和《同义词词林》的语义类,对实词多义词进行词义消歧[12],平均正确率为45.5%。清华大学计算机系李涓子(1999)利用《同义词词林》、《现代汉语辞海》以及“人民日报”语料库对文本中的多义词进行词义标注[13],多义词消歧的正确率为52.13%。山西大学、哈尔滨工业大学、厦门大学计算机系也分别对汉语全文检索中的义项标注、英汉机器翻译等限定领域中的词义消歧方法进行了探索[14,15,16]。 总的来说,到目前为止,不管是基于规则的方法,还是基于词典资源或者大规模语料库的方法,“无论哪种方法都没有很好地解决词义消歧问题”[2]。其中一个很重要的原因就是词义知识获取的瓶颈问题。词义消歧知识库的质量已成为词义消歧系统成败的关键。英语词义消歧研究已有多年的历史,但大部分工作都由于缺少足够的词义知识,从而被限制在一个较小的规模(几个或十几个词)。汉语词义消歧虽然在较短的时间内取得了令人鼓舞的成绩,但现有的各种方法所利用的知识一般仅限于具体的词语搭配和较低层次的义类信息(主要来自于《同义词词林》和“知网”)。由于词典和语料库中不可能包括每个词义的所有搭配实例;而有些低频词,在语料中出现次数也不多,很难搜集到它们的上下文环境,因而知识获取中普遍存在着数据稀疏以及自动学习算法的参数空间太大等问题[13]。 究竟哪些知识才是词义消歧所真正需要的呢? 我们知道,词义和词的分布之间具有密切的关系。一个词无论包含多少种意义(sense),在一定语句中起作用的,往往只是其中某一个意义。词的不同意义往往会在句法或词汇搭配层面上表现出不同的组合特征。人们之所以能够在一定的上下文中理解多义词的不同意义,正是借助于这些彼此独立并且呈互补分布的特征。认知语言学家Choueka(1983)的研究表明,人们通常仅仅利用上下文中的一个词或少数几个词就能够识别出多义词的词义。因此,完全可以根据词与词之间的组合关系来有效地分化多义词[17]。 对于计算机来说,要真正有效地提高词义消歧的水平,不仅需要获取词的释义和分类信息,而且更重要的是,综合利用现有的语法、语义资源,在词类划分基础上,增加词义的语法功能分析和语义搭配描写,从多知识源中提取多义词的每个意义相互区别的分布特征。 本文将在北大计算语言所开发的“现代汉语语法信息词典”[18]和“现代汉语语义词典”[19]的基础上,探索一种基于语法、语义知识库汉语词义消歧策略,以提高汉英机器翻译系统的译文质量。
|