论文作者简介: 李伟,胡韧奋,北京师范大学中文信息处理研究所。 基金项目: 国家语委“十二五”科研规划项目“语言资源建设规划研究”( YB125 - 124) 。 词汇知识资源是自然语言理解领域的基础性资源,作者对国内外常用的10多个词汇知识资源进行梳理,并从语义理论基础、构建方式、规模、应用领域和使用情况等维度对知识资源进行比较分析。 文章主要内容包含三个部分:一是知识库建设现状;二是知识库发展需求分析;三是发展对策。下面我们对文章的重要内容进行简要介绍。 在知识库的建设现状中,作者介绍了两种不同类型的知识库:一是传统型语言资源的专家型知识库,作者称为传统型词汇知识库;二是以机器自动构建为主,直接从维基百科中抽取信息的知识库和基于已有知识库和维基百科数据建设的知识库资源,作者称为开放型知识库。 传统型词汇知识库一般由人工建设,如HowNet、WordNet、HNC词语知识库、同义词词林(扩展版)等概念型知识库,也包括FrameNet、VerbNet等谓词模式的特殊语义知识库,这类知识库受到人力限制,内容和规模都有限。 开放型知识库是基于维基百科等半结构化资源来构建的知识库,如直接从维基百科中抽取信息的知识库DBpedia和Wiki-Net等,也有结合已有知识库和维基百科数据进行构建的知识库,如YAGO、FreeBase等。 通过对每类知识库的对比介绍,作者指出,任何一种知识库不仅要有科学的语义组织体系和丰富的库存知识,还需要选择合适的描述语言和存储格式,这直接关系到后期用户的检索调用,直接关系着知识库的使用效率和后期的开发维护。 在知识库的发展需求分析部分,作者以Google学术和CNKI能检索到的学术论文为研究对象,对各个知识库的文献引用情况和搜索数据进行了统计分析,发现国内的知识库发展比较滞后,像Dbpedia这种直接从百科词典抽取信息的知识库几乎还没有出现;而在已有知识库明确的词义层级分类的基础上再结合丰富的百科知识分类生成的知识库国外有Freebase、YAGO,国内有大词林,但其文献引用数有限。 针对国内和国外的知识资源对比,国内的开放型知识库几乎没有,作者提出几条建议:一是加强现有语义理论的利用率,统一知识构建模式,实现资源免费共享;二是加强资源维护更新;三是充分利用互联网信息技术,加强机器自动构建资源的能力;四是面向世界,构建多语种知识库;五是根据知识库已知事实训练谓词模式加强对未知事实的推理。 (本文刊于《曲靖师范学院学报》2016年第35卷第2期) (中国社会科学网 郭雅静) (责任编辑:admin) |