语言文学网-学术论文、书评、读后感、读书笔记、读书名言、读书文摘!

语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网

当前位置: 首页 > 学术理论 > 古籍整理 >

计算机应用于古籍整理研究概况

http://www.newdu.com 2017-10-30 中国文学网 林尔正林丹红 参加讨论

    中国传世的古籍浩如烟海,按初步估计,现存古籍总数至少在10万种以上。这些典籍是中华民族精神与智慧的结晶。然而,古今语言文字差异成为现代人阅读古籍的最大障碍,也使中国传统文化在更广范围的传播受阻。因此,需要古籍工作者们不遗余力地研究、保护和发掘这些宝贵的财富。21世纪信息技术已悄然渗入社会生活的各个领域,高速发展的信息技术赋予古籍整理新的形式及内容。本文从古籍整理手段计算机化和古籍数字化两方面对近几年来古籍整理研究的概貌做个介绍。
    
    1古籍整理手段计算机化
    计算机人工智能技术的发展,使其在古籍整理方面大有用武之地,主要包括标点、校勘、笺注等工作。伴随计算机软件技术的快速发展和人工智能理论的不断完善,利用计算机从事古典文学研究的前景无疑是十分光明的。
    1.1应用计算机进行古籍标点
    计算机不能按人的思维方式,它不是读懂一句话的意思之后再标点。实现计算机进行古籍标点,我们必须把已经标点好的大量文献输入计算机,让计算机分析统计出字与字之间的亲和度,哪些字用作句首,哪些字用作句尾,哪些字永不连用,哪些字组不可分等古汉语规律;再加上如《诗经》、五言诗及成语、人名、地名、职官等众多专用词的数据库,计算机以此作为它学习的基础并生成新的知识库;然后对未加标点的古籍全面扫描切分。于是当这些古籍中每一语句的前后句,都被计算机根据已有数据库的判定原则而断句标点之后,中间字数较少的字组就自然而然成了新的“句”;这个标点的过程本身又是计算机学习的过程,这样就可以不断扩展已有的知识库。以这种建立在计算机能力特点之上并且可以迅速生成和扩展的知识库为根据去标点古籍,不仅其速度人工不能比拟,而且可能比人的经验与知识更为准确。
    1.2应用计算机进行古籍整理校勘
    应用计算机进行校勘,可借助现代技术的发展,选择清晰的底本,通过识别率高的影印软件,排除原书作者或印刷造成的错误。这样拿底本与他本互校,比较其异同,标出参校本与底本的相异之处。从程序设计角度而言,在技术上让计算机比较底本与参校本的异同,并自动生成校记是完全可以实现的。
    1.3应用计算机进行笺注工作
    计算机进行笺注工作需要一个庞大的冷僻字词和典故数据库。计算机在扫描文本时,每当发现有与数据库中的字词相似或相同的情况,则即刻调用该字词的解释并写到程序设定的位置,如该冷僻字词之后或章节、段落之后。我们在读到某篇比较难以理解的文章时,鼠标一点,相关注释即刻出现在文本旁边,即使不能保证100%正确,至少读懂该文章应该没有问题。该工作面临的问题是汉语言的构词特点和文学修辞的丰富多彩,同一个典故会有多种表述方法。在设计这样一个程序时,一要保证冷僻字词和典故数据库尽可能全面,应具有开放性和可扩充性,其次应使用模糊查询方法,遇到非典型性用法,应能够自动判断是否应该予以笺注及调用哪一条数据做出解释。
    2古籍数字化
    古籍数字化是古籍整理工作的延伸,是实现古籍整理计算机化的基础,已成为当前古籍整理研究中的重要内容。
    2.1古籍数字资料库的建设
    数字资料库就是利用现代信息技术,对有价值的图像、文本、语音、音响、影像、影视、软件和科学数据库等多媒体信息进行收集,组织规范性的加工和压缩处理,使其转化为数字信息,然后通过计算机技术进行高质量保存和管理。现在已建立资料库的数量非常多,主要包括古籍全文信息库和书目资料库。如中医药在线(http://www.cintcm.com/)的古籍库收录了如《本草纲目》、《黄帝内经》等经典名著的全文信息。古籍数字资料库实现了任意字段检索,使人们很方便地检索到所需要的信息,而基于Internet的浏览器/服务器模式,使得古籍在更广范围内得到共享。
    2.2古籍整理计算机辅助研究系统
    越来越多涉及计算机应用的古籍整理研究学者认为,除了古籍资料数据库以外,还应当有一个集成了古籍整理特有工作要求功能模块的工具平台,提供统计模块、知识结构的提取模块等等,它们都统一在一个窗口界面下,从而形成独立的应用软件或软件群,如同一个专家系统。不少学者根据自己的研究兴趣和领域,已经开始了初步的探索。例如北京师范大学汉字与中文信息处理研究所研制的《说文解字》计算机研究系统,就是由小篆构形属性数据库、《说文解字》意义训释数据库、《说文解字》“读若”与古音韵数据库这三个主要部分构成。通过这些数据库来分别测查出《说文解字》的小篆构形系统、义类和意义系统、古音韵系统。
    2005年1月16日,由北京大学中文系李铎博士承担的“《全宋诗》分析系统”通过了教育部主持的技术鉴定。该项目不仅达到了预定的各项指标要求,而且突破了以往的全文检索的信息提供模式,在数据深层挖掘和知识发现方面具有开创性意义。其格律诗标注、字及字组的频率分布统计、用户自作诗的格律分析等带有智能化特点。该系统提供多维的检索分析方式,为中国古代文学、古代汉语、文献学等研究领域提供了可靠的分析数据。它标志着,计算机科学在中文信息处理应用方面由全文检索的信息提供模式开始转向智能分析模式。
    2.3古籍知识表示的研究
    知识表示是研究知识从自然记载形式过渡到合适的计算机处理的表示形式。在此基础上实现对知识的处理,包括对知识的获取、知识的推理、知识的存取操作和管理等。如何将古代文献中的知识转变为适合计算机处理的结构化知识,成为古籍知识库建设的核心问题。以中医古籍为例,中医药古代文献中蕴含着大量显性和隐性的知识。通过对中医药古代文献的内容和语义结构等的分析,中国中医研究院教授柳长华提出了以知识元为核心的知识表示方法。在研究确定知识表示方法之后,就要对古籍中的知识进行解析、标引。和现代文献相比,古籍的解析标引和规范控制更为复杂。
    柳长华认为全部中医古籍是构成中医学的根本实体,把这巨大实体分解到知识元。知识元是知识系统中可以表达一个完整概念的不可再分解的最小知识单元。在形式上它是由多个语词、词组或短语构成的集合;在内容上它表达一项相对完整的知识;在结构上它包括一个或一个以上的元概念和构建这个元概念的语义成分(属性词)。知识解析标引分3个方面:(1)分别知识层次:以一部文献作为一个知识的整体,将其包含的知识从知识体分解至知识元、语义成分;(2)提取概念:对分解后的知识层次分别赋予一个或多个概念,概念的抽取可以是原始文献已有的语词概念,也可以是专家概括的概念;(3)解析语义成分:依据对语义成分的定义和要求,对知识元中的语义成分进行分析和标注。
    古籍知识库可以作为知识检索和数据挖掘两方面的后台。基于内容(知识)的检索,也称语义检索。此种检索方法实际上是建立在数据库对知识管理基础上的,系统通过对知识元各个部分的链接,为用户提供完整的知识内容。用户可以任意地通过知识元概念或属性词等进行检索,其检索的结果不再是一个词以及与这个词相关的篇章,而是与这个概念或词语相关的完整的一组知识。如用户可以直接查询“甘草的性味”、“肝病的证候”等,并且可以通过概念间的语义关联,对用户的查询进行相关性联想,提供引导用户进行下一步查询的线索。这样一步一步地在与用户的交互过程中引导用户“表达”出他真正想找的信息,从而实现对查询的智能导航。另一个重要用途是可进一步实现对知识的统计分析和隐性知识挖掘,如方证关系、药证关系、组方用药规律等。总之,古籍知识库的建设是目前非常活跃的研究项目。
    3结束语
    计算机不能取代人脑,但是在计算机的帮助下,人可以做更多的创造性的工作。好的版本和必要的校勘、音韵、训诂是古籍数字化的重要前提,没有这一前提,一切功能将无从谈起。随着科技的发展,相信还会涌现许多新的古籍整理的新方法。现在数字、网络等高科技在古籍整理与研究方面的应用还属起步阶段,尚待解决的问题还很多,还需要古籍整理和研究者、古汉语学者和IT界同志的通力合作,经过不懈的努力,计算机应用于古籍整理的想法一定会逐步地实现。
    参考文献:
    1郑永晓.古籍数字化与古典文学研究的未来.文学遗产,2005(5)
    2李铎,王毅.关于古代文献信息化工程与古典文学之间互动关系的对话.文学遗产,2005(1)
    3李人厚.数字图书馆特征和关键技术问题.西北高校图书馆,1997(2)
    4于亭.计算机与古籍整理研究手段现代化.古汉语研究,2000(3)
    5陈琦潘.武汉图书馆馆藏古籍善本数据库的建设与知识型数据库的实现.图书馆论丛,2003(4)
    6黄红华.基于ontology的知识检索.情报检索,2005(1)
    原载:《情报探索》2007年第6期 (责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
评论
批评
访谈
名家与书
读书指南
文艺
文坛轶事
文化万象
学术理论