古籍书目数据库建设面临的问题及对策_语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网

    关于建设古籍书目数据库，已有不少论文在刊物发表，但这些文章往往只涉及建库的重要性、憧想数据建成后在网络上运行的诸多便利，并提到某馆与某馆或某单位、某国已开始进行联合建库工作，仿佛古籍书目数据库的建成已近在眼前、指日可待，而少有人谈到建库所面临的具体问题，即便论及，或一言带过、或浮于表面、或陷于一隅。笔者认为这是古籍数据库研究中的严重不足，是由于过于乐观带来的错误。古籍书目数据库建设面临的问题是多方面的，回避是于事无补的，只有面对问题，找出对策，才能最终解决问题，实现古籍书目数据库建设，本文就此谈点粗浅认识，以抛砖引玉，就教于行家。
    1古籍书目数据库建设面临的问题
    1.1软硬件条件不足
    建设古籍书目数据库，首先要求有一个适应度更大的软件、一个超大的字库以及方便转化、可随时增补繁体字、异体字、生僻字、避讳字的功能。从而实现繁简汉字的顺利连接、使系统在显示线装古籍时能达到充分满足汉字信息检索和文字规范控制的要求。
    古籍书目数据库有其它数据库所没有的一大特征，那就是书目包涵一些异体字、生僻字、避讳字及部分不可替代的繁体字。目前我们所接触到的大字库编辑软件一是方正、一是Windows95支持下的word，但这两种编辑软件的字库仍不能满足古籍书目数据库的需要，因为对古籍而言，它们的字库仍嫌太小，而且不能包容、不能互通，虽可另造新字，但对于网上运行没有任何意义。此外，现有繁简字转化系统是一对一的关系，它不能解决繁简字的对应关系中大量的多对一、一对多的情况，在把用简化字输入的编目数据转化成繁体字再输出时就容易出现错误。
    其次，建设古籍书目数据库，需要保障现代化设备的充分投入。
    由于目前尚没有更新、更好、更大字库的编辑软件产生，而各图书馆受经费、人员等各方面限制，多将有限的设备投入到采访、编目、期刊、阅览室，特别是情报检索方面，加上国内一些专门为图书馆设计的管理软件，往往只是将采编、流通、期刊等部门作为对象，而不考虑古籍。这就为古籍书目数据库的建设，在现代化设备方面带来极大难点。
    1.2没有统一完善的古籍分类法
    我国至今尚未形成统一完善的古籍分类法。图书馆界类分古籍时使用较多的有“四库法”和《中图法》两种。“四库法”是集我国古代分类法之大成，有较完善的分类体系，它反映了古代学术以儒学为主线的发展规律。而《中图法》是我国图书分类的国家标准，是权威性的、应用面广的分类法，其类目名称为当代广大读者所熟悉，符合用户的检索习惯。究竟哪一种分类法更适合用来类分古籍，目前分别使用两种方法进行古籍分类的工作人员各持己见，相持不下。从全国范围看，类分古籍时，所采用的分类系统五花八门，甚至出现一个图书馆对所藏古籍先后采用多种分类标准的情况。
    据北京图书馆刘刚同志介绍，有人做过调查，在17个图书馆中，对线装古籍的分类，使用《中图法》的2个，《人大法》的2个，《科图法》的1个，《东北法》的1个，《中国古籍善本书目》分类法的3个，王云五《中外图书统一分类法》的1个，刘国钧《中国图书分类法》的3个，皮高品《中国十进分类法》的2个，北京图书馆编《中文普通线装书分类表》的1个，《四库全书总目》分类法的2个。总计10种不同的分类法。北京图书馆对古籍的分类则使用了不少于4种的分类法。在线装书中，善本书使用《四部法》，除善本以外的线装书，则使用了《中文普通线装书分类表》，即15大类分类法；在平精装本中，1974年以前使用刘国钧先生的《中国图书分类法》，1975年以后至今，使用《中图法》。北京大学图书馆类分古籍时先后采用过皮高品分类法、裘开明分类法和《中图法》等分类系统（张燕婴同志语）。四川大学文理图书馆目前使用改良的四库法，即以《中国丛书综录》为基础，参考《贩书偶记》并针对近代科学发展，添加部分类目对古籍进行分类。古籍分类如此混乱和复杂，给古籍数据库的建设和利用带来诸多不便。
    1.3著录标准欠妥善、未普及
    已有的古籍著录标准尚欠妥善，出现一些互相矛盾之处，如：《古籍著录规则》第7.1款规定：“一般用规范的繁体汉字著录。”但规则本身所列举的所有示范性著录文字，却毫无例外地全部使用简体汉字。又如：《规则》第10.1.1.1条规定：“正书名一般按正文卷端所题书名著录。”《规则》第10.1.5.5b条又规定：“原书所题著作方式为‘奉敕撰’、‘奉敕编’等，著录时省略‘奉敕’两字。”即《规则》要求取“钦定”而舍“奉敕”。然而众所周知，书名前冠以“钦定”，仅见于清代刊刻的某些书籍中，而“奉敕撰”在中国古代却历时悠久，存“钦定”而弃“奉敕”，就会对清以前各朝奉敕所撰之书不能有所反映。而且从检索角度看，因为读者通常没有以“钦定”为书名起头检索的习惯，往往是从“钦定”后面的第一个字查检目录，目录若以“钦定”为书名起头排序，易造成读者漏检。另外，尽管《规则》在引言中开宗明义，声明本标准是“结合我国古籍特点及著录传统制订。”在《规则》又规定：“版本项、出版发行项……均用文献本身的文字著录”，但在版本年代条款中，却要求用阿拉伯数字著录中国的年号纪年，这显然与我国古籍的特点、著录传统及“文献本身的文字”是不相符的。
    1987年颁布的古籍著录标准，除复旦大学图书馆、浙江师范大学图书馆等少数馆在切实执行外，许多馆还没有开始按著录标准改造馆藏目录（杨光辉同志语）。古籍著录用字混乱，其表现形式有以下几种，一是由于有些繁体字一形多音多义，著录者一时失察而误用简化字。如《墨子间诂》的“间”，既可简化为“间”，又可简化为“闲”。二是对一些异体字、繁体字，著录者使用类推出的不规范的生造简体字。三是在不同书目中对同一字混用繁简字。如“韵”，在《广韵》中用繁体字“韵”，在《六书系韵》中又采用简体字“韵”。古籍著录标准的自相矛盾及未在全国范围切实执行，使古籍书目数据库的建设在标准化方面困难重重。
    1.4主题词标引难实施
    主题检索是读者利用书目数据库不可缺少的手段。主题标引是通过对文献内容的分析，把文献所论述的对象（或事物）概括出来，再使用规范化词汇——主题词，将其按照一定的规则加以组织，使之成为检索语言的过程。由于主题检索能将一个研究对象（事物）集中在一起，所使用的主题词直观性好、专指性强，在检索时人们可以根据自己的要求，选择相应的主题词从不同途径进行检索。如在主题检索的状态下输入“李白”，在不加限制的情况下，就会得到有关研究李白的所有信息。若想缩小检索范围，可以通过不同主题词的组合来实现。如输入“苏轼”加上“生平事迹”，则可检得有关苏东坡生平事迹的各种资料。要进行古籍的主题标引必须有可依据的主题词表，就目前来看，古籍主题词表的研制还是一片空白。古籍的主题标引工作路途遥远。
    1.5从业人员知识结构不合理
    “我国古籍现从事人员总体素质偏低，不能从较深层次研讨问题”（崔建英先生语）。提高古籍管理人员素质，促进编目质量在一定意义上说比任何事都重要。历来对古籍管理人员就要求具有一定的目录学、版本学、文献学以及古代汉语知识，而目前古籍管理人员大多只具备一方面或某几方面的知识，有的甚至对这些知识知之甚少，根本无法进行编目工作。然而这还仅仅是问题的一方面，另一方面管理人员要适应古籍书目数据库的建设，还必须懂得现代高科技的产物——计算机知识。在古籍与计算机两者之间似乎有一道天然的屏障。古籍管理人员往往是传统型的，对计算机比较陌生，要搞古籍书目数据库，就需要引进计算机专家，而这些计算机专家对古代文化、古籍文献及古籍管理又不甚了解。古籍管理人员知识结构的不合理，在很大程度上制约着古籍书目数据库的建设。
    1.6没有权威组织协调机构
    目前大家纷纷议论的建设古籍书目数据库，指的都是全国性的而非区域性的数据库。要建立如此巨大的全国性古籍书目数据库，没有统一的组织、系统的筹划、强有力的管理体制是不行的。有资料说明，我国收藏的古籍中有60%以上藏在省级以上公共图书馆，其余分藏在各高校、科研单位及小型公共图书馆内。藏书的相对集中本应为数据库的建立提供便利，但事实上，由于各大图书馆都以老大自居，不能采取协调合作的态度，从而造成了数据库研建过程中各自为阵，无整体规划的状况。如广西图书馆采用深图系统建库、广西大学图书馆采用广西高校、公共、科研图书馆计算机管理集成系统软件建库、四川大学文理图书馆则使用FoxBas⁺数据库软件，利用方正繁体字库自建古籍书目数据库等等。
    古籍书目数据库建设各自为阵的局面，无法保证数据库质量，且建成的数据库不能融合，对建设全国性古籍书目数据库没有决定性作用，最终导致在人力、物力、财力上的浪费。因此组成一个权威组织协调机构来负责古籍书目数据库建设已势在必行。
    2对策
    建立我国古籍书目数据库困难固然是存在的，而我们对待它的正确态度应当是在摸索中逐渐寻求解决方法。
    2.1正确认识古籍书目数据库
    各大图书馆在考虑书目数据建设时，往往将古籍书目数据与综合书目数据隔绝开来，以免影响流通工作的正常进行。但由于古籍作为书籍发展史上的一个阶段，它记载了整个人类文明的重要组成部分，在内容上与现代的平精装图书有着千丝万缕、密不可分的联系。一方面，为了保存并发扬我国灿烂的古代文化，不断有影印、校注等各种形式的新印古籍出现，据国家古籍整理规划小组办公室编辑的《古籍整理图书目录：1949-1991》统计，在此期间全国共出版古籍约6581种，其中除少数是线装形式出版以外，绝大多数是以平精装形式出版的。另一方面读者在研究、整理古籍时，不仅要阅览古籍本身，还要查阅有关它的所有信息，包括不同版本以及后人对其研究、评价等各方面信息。古籍书目数据库的编制与综合书目数据库脱节，造成检索时无法一次获得所需的全部信息，不利于我国文化的传承与发展。
    2.2加大投资力度，充分利用现有资源
    1996年3月14日，SIO10646大字符集正式颁布。此国际标准化汉字字符集收入了中、日、韩三国的汉字20902个，其中包括6763个GB231280中的汉字。古籍书目数据库建设可以该国际标准为基础，建成包含2至3万个古籍常用字的基本字库，同时建成避讳字、异体字、生僻字等专用字库、配备完善的词语匹配表，以利繁简字的自动转换。在新的大字符集未建成以前，我们可以利用现有的国际标准化汉字字符集，对古籍书目信息进行一般性加工。对那些无法完整表现的古籍书目信息，可逐条记录在案，然后汇总进行处理。
    2.3统一完善古籍分类法、著录标准、主题标引、书目数据格式
    2.3.1根据类分古籍的需要，改进现有分类法
    既然“四库法”和《中图法》的优点具有互补性，又分别为不同的读者群所熟知，那么在类分古籍时，可根据我国古代文化发展的脉胳，编制以“四库法”基础，吸取《中图法》符合自然科学发展规律及分类精细的长处的新的完善的古籍分类法，该分类法应调整“四库法”的若干类目，明确规定类目之间的界限，并加入必要的标识符号，使类目之间的层次一目了然。
    要编制一个新的完善的古籍分类法，在短期内实在难以完成。那么，怎样在新古籍分类法完成前，合理类分古籍呢？笔者认为根据目前的需要和可能。可以在制作古籍书目数据时，同时使用“四库法”和《中图法》。从一方面看，同时使用两种分类法，既可以满足学者研究古代历史文化发展史时古籍书目数据库建设面临的问题及对策迅速检索的要求，又能适应一般读者检索所需书目数据信息的需求。另一方面，因为古籍书目数据是综合书目数据库的重要组成部分，综合书目数据库要求有一个统一的分类法，以利文献检索。
    同时利用两种分类法编制古籍书目数据，目前可分别在《中国机读目录通讯格式》中的“606”和“690”字段著录，待新的古籍分类法完成后，再在“686”字段上补充著录，这样即可避免坐待新分类法的时间浪费，又可在很大程度避免重复编制书目数据的人力、物力和财力的浪费。
    2.3.2努力做好主题标引
    主题标引是综合书目数据库建设的需要。古籍书目数据库既然是综合书目数据库的组成部分，就应当遵照综合书目数据库的要求，努力做好主题标引，否则，即使综合书目数据库包含古籍书目数据在内，也达不到全面检索的要求。虽然古籍的主题词表的研制还是一片空白，但一般书目数据做主题标引的一些主题词同时也能成为古籍书目数据的主题词，而且在正由北京图书馆等四家图书馆联合编制的《国家书目·回溯数据库》与《国家书目·新书数据库》合并构成的1949年以后至今的《国家书目数据库》中已包含的大量的平精装古籍加工中得到应用，取得一定的实践经验。它将指导我们逐渐统一完善古籍书目数据的主题工作。
    2.3.3规范古籍书目数据的格式，严格遵循《古籍著录规则》
    MARC格式于60年代始于美国国会图书馆。1977年国际图联（IFLA）公布了UNIMARC格式，将其作为一种国际通用格式，要求各国按该格式编制MARC，供本国使用，并将这种MARC转换成UNIMARC，从而实现国际机读目录数据共享。1986年北京图书馆提出了适用于专著、连续出版物、视听、乐谱、测绘资料等的CNMARC的讨论稿，1991年书目文献出版社正式出版《中国机读目录通讯格式》，现在CNMARC已成为国内图书馆界所认同的行业标准。目前几个向社会发行MARC数据的图书馆均采用了这个格式。作为综合书目数据库组成成份的古籍书目数据库，在MARC上也应使用CNMARC格式，以保持其一致。数据库的每条记录必须根据《古籍著录规则》的要求制作，对每一条数据都要采用标准化的术语进行著录，以免造成不必要的浪费。如广西大学图书馆过去对线装古籍的编目，曾采用过以“册”或“函”作为著录单位的做法，编目人员将186册一套的《榴花梦》分成186种书来著录（赵桂珠、王静同志语）。这既加重工作量，又造成人力、物力和财力的无为浪费。
    2.4建立权威性的组织协调机构
    古籍书目数据库建设是一项浩大的工程，图书馆唯有团结一心，互相配合，建立古籍界集中统一的领导体制，以承担领导、规划、组织协调、经费资助的职责，以调动全国各个系统，各个地区的图书馆为建立古籍书目数据库贡献各自的力量。我国于1993年开始《中国古籍总目》工作，国家古籍整理出版规划小组准备在此基础上建立中国古籍书目数据库，使这一项目有了领导机构。但这项工作宜早不宜迟，笔者认为应与《中国古籍总目》工作同时操作，分期分步进行，以便及时作好宏观布局及具体实施工作。
    2.5大力抓好人员队伍的建设
    近年来，北京大学图书馆、中国科学院图书馆、辽宁省图书馆、湖北省图书馆、复旦大学图书馆等五大图书馆联合参与与美国合作的RLG-CHRB项目，建设RLIN（The Research Libraries Information Network）的古籍书目数据库，已编制了近3000条机读古籍书目数据。通过合作，不仅使我国图书馆界直观地了解和借鉴了目前国际上技术水平较高的、被普遍采用的技术和方法，并且锻炼了一批古籍编目人员，使他们熟悉了机读书目的格式，初步掌握了现代化技术手段。应尽快组织各种短期培训班，由他们向其他古籍管理人员讲解古籍著录规则和机读目录格式结合运用的技术要点和难点，尽快解决古籍管理人员计算机知识方面的欠缺，为创建自己的书目数据库作必要准备。此外，对古籍管理人员在目录学、版本学、文献学等各方面的培训，可采取强化培训和到综合性大学旁听相关课程相结合的方法。
    2.6以已有的古籍联合目录为基础，逐步实施古籍书目数据库建设
    我国一向重视古籍目录的编制工作。1949年以来，国内图书馆界在有关部门和单位的组织下，编制了《中国丛书综录》、《中医图书联合目录》、《中国地方志联合目录》、《中国古籍善本书目》等联合目录。还有一些起到了联合目录作用的书，如欧阳健、萧相恺两先生主编的《中国通俗小说总目提要》、谢巍先生编撰的《中国历代人物年谱考录》等。另外有国务院古籍整理出版规划小组办公室编《1949-1991古籍整理图书目录》：由杭州大学东洋文化研究所牵头，国内数十家图书馆参加编制的《中国馆藏和刻本汉籍书目》、《中国馆藏日本汉文书目》。从全国主要图书馆古籍编目状况看，公共馆有50%完成编目工作，高校馆有70%已完成馆藏编目。目前尚在编制的有国家古籍小组出资，全国十几个收藏古籍图书较多的图书馆编制《中国古籍总目》、东北三省图书馆界协作的《东北地区古籍线装书联合目录》等。
    古籍书目数据库建设可以上述众多的目录为基础，以《国家书目数据库》中已包含的大量的平精装古籍书目数据和参加RLG-CHRB项目中已编制了近3000条机读古籍书目数据为标准，将众多的书本目录和卡片目录转化为机读数据，并加入必要的馆藏信息，建立起古籍书目数据库的雏形，并利用网络逐步向数据库中添加新的数据。由小到大，由点到面地进行全国性古籍书目数据库的建设。
    参考文献：
    [1] 杨光辉.关于中国参与RLG-CHRB工作的调查报告—兼谈中国古籍书目数据库的建设[J].上海高校图书情报学刊，1996，（2）.
    [2] 张燕婴.论中国古籍书目数据库的建立[J].江苏省高等学校图书馆学报，1998，（2）.
    [3] 陈博.《古籍著录规则》管见[J].大学图书馆学报，1995，（6）.
    [4] 刘刚.浅谈古籍书目数据库建设的若干问题[J].北京图书馆馆刊，1996，（1）.
    [5] 赵桂珠，王静.试析广西高校、公共、科研图书馆计算机管理集成系统在我馆中文古籍书目数据库建库中存在的问题[J].图书馆界，1998，（1）.
    [6] 沈乃文，曹淑文.古籍著录标准化的名词术语问题[J].大学图书馆通讯，1986，（4）.
    [7] 韩锡铎.图书馆与古籍文献开发[J].图书与情报，1998，（2）.
    [8] 谢泽荣.《古籍著录规则》中“规范繁体字”提法的商兑[J].大学图书馆学报，1998，（5）.
    [李荣慧：四川大学图书馆。]
    原载：《图书与情报》2001年第1期 (责任编辑：admin)

搜索

热门标签:

古籍书目数据库建设面临的问题及对策