摘要:“现代汉语语义词典”(SKCC)是一部面向自然语言信息处理的语义知识库,它以数据库文件形式收录了6.6万余条汉语实词,不仅给出了每个词语所属的词类、语义类,而且以义项为单位详细描述了它们的配价信息和多种语义组合限制,可以为包括机器翻译在内的多种中文信息处理系统中的语义自动分析提供强有力的支持,同时,对于汉语词汇语义学和计算词典学研究也具有重要的意义。本文概要介绍这部语义词典的结构、内容,以及语义属性项目的填写规范。 关键词:语义知识库 语义类 配价信息 计算词典学 中文信息处理
The Specification of
Abstract: The Semantic Knowledge-base of Contemporary Chinese (SKCC) is a large machine-readable dictionary developed by the Institute of Computational Linguistics and Chinese Department of Peking University. It can provide a large amount of semantic information such as semantic hierarchy and collocation features of 66,539 Chinese words. Its semantic classification system represents the latest progress in Chinese linguistics and language engineering. The descriptions of semantic attributes are fairly thorough, comprehensive and authoritative. The paper introduces the outline and specification of SKCC, and indicates that, as a large scale fundamental semantic resource of Chinese, SKCC will not only provide valuable semantic knowledge for Chinese language processing, but also play an important role in Chinese lexical semantics and computational lexicography research.The Semantic Knowledge-base of Contemporary Chinese Wang Hui1, Yu Shiwen1, Zhan Weidong2 1(Institute of Computational Linguistics, Peking University, Beijing 100871, China) 2(Dept. of Chinese Language & Literature, Peking University, Beijing 100871, China) whui@pku.edu.cn; yusw@pku.edu.cn; zwd@pku.edu.cn Key words: Semantic knowledge-base, lexical semantic, computational lexicography, semantic hierarchy, valence information, Chinese language processing 1、引言 在自然语言处理中,语义分析占有很重要的位置。北京大学计算语言学研究所与中科院计算所自1994年联合开发“汉英机器翻译模型系统”开始,就着手研制面向汉英机器翻译的“现代汉语语义词典”(SKCC),目的是在语法分析的基础上,为计算机自动分析汉语句子和生成英语句子提供更深入的语义信息。1996年至1998年,双方共同承担了国家863高科技项目“通用机器翻译开发平台和汉英机器翻译系统”课题(项目编号: 863-306-03-06-2)。作为该课题的一个重要组成部分,“现代汉语语义词典”进入到大规模开发阶段,并取得阶段性成果,完成了4.9万汉语常用实词 (名词、动词、形容词) 及部分成语、习用语的语义分类和搭配信息描述[1]。IBM、Intel、Fujitsu, Toshiba, NTT, Canon, Sail-labs等20多家公司与大学先后从北大购买了该词典的许可使用权。 4年多来,北京大学计算语言学研究所在积极应用、推广该词典的同时,仍不断地投入力量进行词典本身的发展。从2001年11月开始,“现代汉语语义词典”的二期开发工作受到了国家973重点基础研究项目“面向新闻领域的汉英机器翻译系统”和“面向中文信息处理的现代汉语动词论旨结构系统和汉语词语语义分类层级系统研究”的支持,由计算语言学研究所和中文系联合承担,对词典规模进行较大幅度的扩充,并对全部词语的语义分类及属性描述进行全面修订。在双方的积极努力下,项目进展得非常顺利。目前,词典规模已达到6.6万余词条,同时语义属性描写质量有了显著提高。在一个汉英机器翻译系统中的实际应用表明,新版本的SKCC可以为句义分析、词汇歧义消解提供更全面的语义知识,有效地提高翻译精度。
(责任编辑:admin) |