数据库技术与大型古籍文献编纂_语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网

     古籍作为历史文化的重要载体，在一定程度上代表着一个时代曾经到达过的智慧高度，是一个民族共同文化心理的重要见证。古籍整理的意义众所周知，毋庸赘言。整理古籍，就是把祖先的宝贵文化遗产运用传统或现代手段，重新予以筛选、校勘、补订、印刷，是一项极其重要的，关系到千秋万世和子孙后代的工作。它不仅是对前人所创造的文化负责，更是我们和后代继往开来过程中所必须依仗的凭借和前提。从宏观角度着眼，文化发展既有延续性也有交融性，一个民族的传统文化与现代文化实际上密不可分，二者处于同一个整体中。任何一种文化的现代化都是自身传统的现代化，都带有其本民族的特色和它所传承的历史，不可能凭空臆造；而传统文化也在现代化的过程中重新发现自身的价值，并融入到现代化的进程中。从这个意义上讲，传统文化中的精华部分正是民族性的表现，而民族性在某种意义上也正是现代文化的显著特征之一。所以，任何一个思维正常的民族都会对其历史文化遗产格外重视，精心做出各自的整理工作，中外古今，概莫能外，古籍也因而成为连接历史与现实的桥梁。在经济和文化全球化开展得如火如荼的今天，一个国家或民族的影响不仅体现在军事或经济等硬实力方面，文化、艺术等软实力的作用亦不可小觑。因而，加强对古籍的整理和研究，从中汲取为现代人所需要的精神营养，决非因循守旧或抱残守缺之举。
     而在对前人文化遗产的整理中，大型文献包括总集的编纂又是其中重中之重，是古籍整理中的支柱。这其中又包括涵盖一代文献的某一类或几类文献的纂辑；或者时间跨越数代，收录这数代之中某一类或几类文献的纂辑。自孔夫子删《诗》以来，二千余年的中华文明史上，产生了许许多多这类古籍整理成果，前者如《全唐诗》、《全唐文》、《全宋诗》、《全宋文》，后者如《昭明文选》、《文苑英华》、《全上古三代汉魏晋南北朝诗》等。不论哪一类总集，都在中国文化史上占据有极其重要的地位。从我们科研角度而而言，古籍文献整理是科研工作尤其是文史类学科开展研究工作的前提，完备而优秀的文献能够为该学科奠定良好的研究基础。例如，清人对《全唐诗》、《全唐文》的编纂即对后世唐代文学的研究功不可没。在近百年的古代文学研究中，唐代文学研究取得的成果最多，无疑是拜清人这两部大型总集所赐。因而，无论是从保护和延续一个民族的精神遗产而言，还是从具体的科学研究角度而论，古籍文献的整理尤其是大型文献的编纂都是一项意义非常的工作。
     然而，这类浩大的文化工程尽管耗费了大量的人力物力，有些甚至耗费了数代人心血，由于主客观条件的限制，在现代信息技术出现之前，仍难以达到完美的境界。限于客观环境和条件等因素，古人在编纂大型文献时不可避免地存在着很多问题。其中如何防止误收和发现重出历来是编纂大型文献时所难以逾越的障碍。这是因为，古人的著作除少数为作家本人编辑、品质较高外，多数系后人编纂，或书商为商业目的裒辑而成，往往版本众多，真伪难辨。有些真伪羼杂，误录入同时代人或其他朝代人之作，有时收录的作品重见他人集中，归属不易鉴别，有些作品重见本人集中但标题不同。另外，编纂大型文献，尤其一代总集类文献，必然需要从类书、诗话、笔记、方志等文献中辑佚。然而，这类著述中张冠李戴、误署作者姓名的现象司空见惯，从不同的辑佚材料爬梳得来的同一作品署名往往有异。这是由于古代笔记、诗话等著述多系作者广见闻、资闲谈的率意之作，其中在谈到作家时又往往用字、号或官称，不常提及其主名。又兼古代同一时期或不同时期同名同姓者极多，混淆杂乱，给作品的甄别鉴定工作带来极大困难。况且某些作家的作品数量浩繁，如宋人、清人之诗，有时多至万首，辑佚所得之零篇断句，是否在这万首之中，极难查考，而如果失考，就要出现重出现象。遑论辑得之佚诗，有时不见于作者本集，却载于他人集中，就更令人无所适从了。所以，基本上可以断言，在编纂大型文献时，想依靠人力查出所有重出作品，几乎是无法办到的。而如果重出作品问题不能解决，则甄辨纠谬当然也就无从谈起。因而历代纂修的总集，稿成之后总有许多遗憾之处。为便于信而有征，兹举数例说明：
    宋初诏修《文苑英华》，不久就责令要重加编录。南宋学者王应麟曾说:“真宗景徳四年八月(1007)，诏馆阁分校，又以前编次未允，令择古贤文章重加编录，芟繁补阙，换易之，卷数如旧。”[①]此书始编于太平兴国七年（982），初稿完成于雍熙四年（987），不过十年，就须“芟繁补阙”，即芟除重复，补收漏缺，可见的确存在着较多的错误。这项工作十分浩繁庞杂，居然持续了近二百年，直到南宋嘉泰四年（1204），由周必大等再做校订后才最终完成。周氏在《文苑英华序》中曾认为原书“舛誤不可读”，指出“（该书）元修书时，历年颇多，非出一手。丛脞重复，首尾冲决。一诗或析为二，二诗或合为一，姓氏差误，先后颠倒，不可胜计”。[②]据此可知，丛脞重复是该书原编的主要失误，也可以说是历代纂修总集之通病。鉴于历史经验和教训，清人对汇编总集的基本法则和面临的困难有更为精到和清醒的认识。四库馆臣曾言：
    文籍日兴，散无统纪，于是总集作焉。一则网罗放佚，使零章残什并有所归；一则删汰繁芜，使莠稗咸除，菁华毕出。是固文章之衡鉴，著作之渊薮矣。(《四库全书总目》卷一八六集部三九总集类一)
    网罗放佚即辑录散佚，意在求全无缺；删汰繁芜即芟除重复，旨在去伪存真。此为古籍整理尤其是编纂总集的基本法则。但是，清人虽对此有明确的认识，却并无能力予以克服。如清康熙时，江宁织造曹寅尊玄烨敕令在扬州编纂《全唐诗》，收录二千二百余位诗人四万八千九百余首诗，因其成书匆遽，不注文献出处，缺漏讹误现象十分严重。非唐人误作唐人收录、非唐人诗误作唐人诗收录等现象比比皆是。因而，自清末以来，学界对此诟病不断，岑仲勉《读全唐诗札记》、陈尚君《〈全唐诗〉误收诗考》、佟培基《全唐诗重出误收考》等，都对该书这类重出误收现象有所考辨。[③]
     如果说《全唐诗》成于朴学未盛的康熙之时，参与人员仅有十位，纂修时间又不足二年，出现此类重出误收等现象还情有可原的话，那么清代官修的另一部大书《全唐文》又如何呢？《全唐文》纂修于乾嘉朴学鼎盛时期，历时五年半始克完成，先后有五十多位著名学者如阮元、徐松、孙星衍、梅曾亮等参与其间，终成书一千卷，于嘉庆十九年闰二月（1814）奏进。据日本学者平冈武夫《唐代的散文作品》逐篇统计，共收文20025篇，作者3035人。该书在搜罗遗佚、校录辨伪、小传撰写诸方面，应该说均优于《全唐诗》。但漏收重收、录文缺误等问题也所在多见。为此，清人劳格撰《读全唐文札记》，匡谬正失，凡得一百三十则。岑仲勉作《续劳格读全唐文札记》，又得三百一十则，偏于小传订误；今人陈尚君《再续劳格读全唐文札记》，沿其例而重在辨伪考异、订误去疑，又指出六百余处。[④]
     上面所举几部总集的纂修理论上应该比较完美：首先，宋代是中国历史上文化最发达的时代，作家、学人辈出，史学、文学之发达在中国历史上均跻身前列；而清代朴学之兴旺，清人治学之严谨，历代亦无出其右。其次，上述几部总集又都是根据皇帝旨意，倾一国之力完成，无论是人力的安排抑或书籍的搜罗使用，均有极其便利的条件。所以无论从哪方面来说，这些工程都没有理由不产生一个完美的结果。但其最终的事实却是疏漏百出，重出误收现象比比皆是，令人慨叹之余，不得不承认大型文献之编纂，确有非人力所易掌控驾驭之处，必须有待于现代科技的发展，来解决这一历史性难题。
    让我们倍感幸运的是，人类文明步入二十世纪以后，计算机技术，尤其是数据库技术的飞速发展为彻底解决这一历史性难题提供了绝佳途径。早在上个世纪八十年代初期，在计算机技术开始进入一些发达国家的人文科学领域时，中国社科院前副院长钱锺书先生就提出，中国古代文献的整理和研究，应该尽快采用这种新兴手段。钱先生当时所言的新兴手段，就是如今人们已经耳熟能详的古籍电子化。电子版古籍便于检索、复制、数据统计和资源共享。虽然电脑永远代替不了人脑，电脑专家绝不可能取代国学专家，但电脑对人脑的辅助功能也不能低估。博学、严谨的国学专家辅以能够快速处理海量信息的电脑方能如虎添翼，根本解决数千年来历代学者所无法解决的难题。
    上个世纪九十年代初以来，众多文史哲工作者尝试使用电脑作为辅助科研工具，这是一个十分可喜的现象，说明在传统国学研究中，当代的文史哲工作者也在利用自然科学技术的最新成果。但据笔者观察，这种利用从总体上而言，还处在比较低的层次，远远没有发挥当代IT技术强大功能之万一。粗略地划分，文史方面的学者利用微机辅助科研、教育可以分为两个层次：其一，相当一部分文史学者限于操作水平，仅仅把电脑视作打字机，除懂得基本录入、打印等操作外，不会也不敢进行其它操作；其二，部分学者在系统中安装、存储了大量的文史类软件或资料，如电子版《四库全书》、《四部丛刊》、《全唐诗》、《全宋词》等，也懂得从互联网上下载一些电子文献。伴随学者的年轻化和高学历化，这部分学者正逐渐增多。较之前一个层次，这部分学者要高明得多。他们所使用的这些电子版数据尽管差错率较高，在文章中正式引用时须核对原文，但毕竟能够部分替代人工检索，使得比较高效地检索大容量数据成为现实。但是，这部分学者不会利用数据库技术整合各种对自己有用的资源，仅仅停留在按照软件提供的功能分门别类地检索，或者利用Word 提供的查找功能逐篇地查询对自己有用的资料，所以仍然没能高效发挥计算机查询技术给我们带来的便利。这两类学者之外，尚有极少数文史方面的学者懂得一种或数种编程语言，能够熟练运用各种小型数据库软件，整合各种资源，可以实现极为高效的查询、筛选等工作。他们并不满足于既有文史类电子版软件提供的功能，而是试图把数据库技术真正整合运用到自己的科研工作中，而不仅仅是把它当作一种辅助工具。[⑤]这类专家目前虽然还不多见，但是，伴随学者的高学历化和人们对计算机技术的重视，相信会有越来越多文史方面的学者逐步提高其计算机应用水平，将数据库技术真正整合到自己的科研中。而这其中的重要一环，就是把这项技术运用到古籍整理，尤其是大型文献的编纂中。果真如此，则肯定会使作为传统学科的古籍整理焕发青春，使整个学科水平步入一个新的台阶。
    笔者之所以这样认为，源于计算机数据库技术本身的特点和古籍整理传统手段自身无法克服的弊端。数据库技术虽然并非为我国古籍整理而产生，但是把二者结合起来，确有珠联璧合之妙。
    简单而言，数据库系统的独特之处主要是相对于文件系统而言。在计算机的文件系统中，文件与文件之间一般没有密切的关联，所以很难对其进行各种高效的数据操作。而数据库系统与之相比则有很多优点，它是按照结构化的方式存储数据，以记录为单位，而每个记录结构则是相同的。因为它从整体上服从于一定的结构形式，这就为对数据进行各种标准化的后续处理奠定了基础。其次，数据库系统中的数据具有独立性，每个记录与其它记录之间保持独立，对某些数据记录的改变不会影响到其它数据的内容与结构，这就使得在一个数据库系统中处理超大容量或称海量数据成为可能，不会产生牵一髮而动全身，一条数据的更改导致整个系统的紊乱那样的现象。
    目前，各种数据库软件品种繁多。但是，基本上都属于关系数据库。因此，一个成熟的数据库管理系统被称为RDBMS ( Relational Database Management System )。这样一套系统，至少可以提供三种功能，即数据定义、数据操作和数据控制。数据定义可以保证数据输入的正确性；数据操作可以按照设定的条件一次更新多条记录，或查询筛选出符合某种设定条件的记录；数据控制则能在多人共享数据库时提供安全保障，以免损坏数据的完整性。
    数据库技术的这些特性使得它几乎成为为古籍整理量身定做的重要工具。以编纂大型古籍文献为例，利用数据库技术，至少可以在以下方面大大简化人力操作，并且可以让文献整理的差错率降至最低限度。
    （１）可以方便地利用其筛选和排序功能剔除重收作品。在编纂大型文献时，首先应利用扫描或语音识别等技术将相关文献整合到一个数据库中。设置其筛选和排序功能。这样一旦有重复作品进入，该数据库会立即自动将其分检出来。配合人工考证，可以重新确认该作品的作者归属等问题。具体做法是以一首诗或一篇文章为一条数据记录，如果遇有两条完全一致的记录，则系统会自动予以分检。这里需要注意的是，计算机讲求精确无误。短诗还好，如果是一首长诗或一篇文章，只要其中一个标点不同或出现一个异体字，则系统也不会认定它们是相同的，自然不会告诉用户有重出现象。所以，配合数据库系统的精确查询，还应设置模糊查询，设定在有多少相同的字数情况下，有可能就是一首重出作品。
    （２）为文献辑佚提供极大便利。辑佚是编纂大型文献时所不可缺少的重要工作，辑佚工作如单靠人力，则其难度已如上述，不烦赘言。但如利用数据库技术，则可极大地减少工作量，并增强精确性。首先可以就辑佚出的断章残句放到该数据库中检查，看是否已在数据库中，避免把非佚失作品当作辑佚成果重复放到该总集之中。其次，可以利用现在已经发布的《四库全书》、《四部丛刊》等电子文献数据库，把佚文、佚诗放到其中检索，判断该佚文是否已收入其他作家文集之中。从而能够协助判断其真实作者，避免误收。
     （３）可以十分方便为地为所纂辑的文献编制各种索引。愈是大型文献，就愈需要完备的索引，但是古人在纂辑完成有关文献后，一般并不编制索引，给使用者带来极大不便。所以，像《全唐诗》、《全唐文》、《廿五史》这样的文献索引都是今人编制的。然而这些索引大多属于利用卡片等手工操作，也不可避免地存在着一些遗憾。而如果某大型文献在开始编纂伊始即利用数据库技术，有电子版本，则附带出版一个完善的索引实属举手之劳，易如反掌。
    十分令人遗憾的是，尽管数据库技术已经是十分成熟的技术，其强大的功能哪怕只是利用其很小一部分也能对文史研究提供极大便利，其对古籍整理的巨大辅助作用实无需多加论证，但时至今日，其相关应用却难以令人满意。大致而言，我国大陆地区从事古籍整理者对计算机的了解多限于文字处理层面，对数据库技术知之甚少；而从事IT研究和数据库开发者又多不懂古籍整理，因而给二者的结合带来一定困难。如近年编纂或即将出版的《全宋诗》、《全元文》等，都是手工校刊、边编纂边出版，难免出现重出、误收等现象。这在现代科技高速发展的今天，不能不令人扼腕叹息。
    近年来，某些机构或公司已经利用数据库技术对已有文献如《四库全书》、《四部丛刊》、《全唐诗》等予以数字化，可以实现方便的检索、查询等，为文史工作者提供了很多便利。但是，这些电子化产品并不能对这些文献的错误予以纠正。因为它们并不能对这些文献重新编纂，只是提供复制、检索、查询功能。在日前结束的“中文电脑——汉文史资料库技术应用”研讨会上，北京大学李铎博士向与会者展示了其利用数据库技术对《全宋诗》进行处理的成果，该系统可以使用模糊查询手段快速检索出该文献中的重出作品，并可以为每首诗篇精确标注所用格律。在笔者有限的见闻中，这是到目前为止，把数据库技术运用于古籍文献处理最成功的技术。假如《全宋诗》编纂之初，就能开发利用这类技术，则该书定能避免很多遗憾之处，笔者作为一名宋代文学研究者，每念及此，都惋惜怅叹不已。
    由此可以看出，一旦某项文献整理项目尤其是大型文献整理项目已经完成并付梓刊印，虽然仍有可能将其数字化，并利用数据库技术排查重出误收作品，但是鉴于这类项目的重新编排和出版等工作浩繁，成本巨大，即使配备最优秀的计算机程序员和专业工作者也很难对其二次编纂出版。所以，毫不夸张地说，一旦某个大型文献整理项目已经完成，其所留下的遗憾往往是难以弥补的。因而，在今后实施这类项目时，必须在项目立项之初就确立使用数据库技术，而不能再走边编纂、边出版、边修订的老路。值得欣慰的是，我们文学研究所承担的中国社会科学院A类课题——《元诗文献学》（即《全元诗》）的编纂在我国大陆地区首次运用数据库技术，取得了良好效果。《全元诗》收录元人诗歌十三万余首。与以往总集编纂一边校勘一边出版，力求尽快见到成果的传统方法不同，《全元诗》的编者首先把所有元人的诗作整合到一个数据库中，由计算机对此予以排序、筛选，重复收录的作品一目了然。解决了二千年古籍文献整理中人工绝对无法解决的难题，必将对古籍整理质量的提高有极大的促进作用。笔者也希望当代学者们正在编纂的《全明诗》、重新编纂的《全唐诗》等大型古籍整理项目切实能够利用这类技术，彻底杜绝文献整理中作品重出误收等顽疾在当代及以后的出现。
     当然，由于古籍整理涉及多学科知识，兼之古人在刻书制板时没有统一的规范，异体字触目皆是，这为计算机的精确查询或模糊查询带来一定困难。并且，数据技术只能解决在本数据库中的重出误收现象，一旦超出这一范围，则计算机仍然无法确定该作品的作者及其年代，假定《全元诗》数据库中误收一首清诗，但因为《全清诗》还没有编纂，更没有清诗方面的数据库，则计算机无论如何不能向有关专家提供此一篇作品作者的可疑之处。这就需要广大文史研究者和IT界人士共同努力，在可预见的将来，尽可能多地把现有文献数字化，各种文献的专业数据库越多，就越能减少文献查询的失误。如何能够利用IT尤其是数据库技术真正为浩如烟海的古籍整理工作提供完美的技术支持，还需有关专家的共同努力。

2004年10月12日
备注：此为笔者在2004年9月举行的第三届“汉文史资料库技术应用”研讨会上提交的发言稿，会后又作了少许修订。

[①] 《困学纪闻》卷十七，《四库全书》本。

[②] 《文忠集》卷五十五，《四库全书》本。

[③] 岑著见《历史语言研究所集刊》第九本，指出错误数百处；陈著首先于1985年发表于《文史》第24辑，修订后收入其《唐代文学丛考》，中国社会科学出版社1997年10月出版，修订本考及一百十五位作者，指出非唐诗七百八十二首又五十三句；佟著《全唐诗重出误收考》，则举出2838首互见诗，3157首重出诗。陕西人民教育出版社1996年8月出版。

[④] 劳格文章收入《读书杂识》卷八；岑仲勉文见《历史语言研究所集刊》第九本，后收入《唐人行第录》；陈尚君文收入其《唐代文学丛考》。

[⑤] 社会科学研究的某些学科如经济学、社会学、人口学等，因与自然科学的关系相对密切，学者们利用计算机的水平较高，利用数据库技术分析相关数据的现象相当普遍，与传统文史哲学者不同，故此处仅论文史专家。
(责任编辑：admin)

搜索

热门标签:

数据库技术与大型古籍文献编纂