语言文学网-学术论文、书评、读后感、读书笔记、读书名言、读书文摘!

语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网

当前位置: 首页 > 学术理论 > 古籍整理 >

计算机与古籍整理研究手段现代化

http://www.newdu.com 2017-10-30 中国文学网 于亭 参加讨论

    随着计算机应用的普及和数据库技术、网络多媒体技术的普遍实施,数据积累和数据交换呈加速增长。更重要的是,数据的积累和交换代表了一种全新的交流方式,并正以惊人的强势和速度全方位地改变我们知识的习得、研究和传达模式。作为传统文化和典籍的整理研究者,我们不能再与这种知识交流方式的深刻改变隔膜下去。转变已不再只是取决于观念,而是取决于现实。
    一、关于适用于古籍处理的计算机汉字编码大字符集和工作平台
    汉字作为一种古老而延续的文字体系,呈现出很强的独特性和因数千年历史积淀造成的复杂性。当前计算机汉字信息处理的状况,极大地限制了古籍整理研究、古汉语研究领域计算机手段运用的可能性和可行性。
    缺乏适合古籍计算机处理的统一的汉字编码大字符集,已成为当前古籍整理研究手段现代化实践中的瓶颈。
    1980年我国颁布了CB2312-80《信息交换用汉字编码字符集基本集》,采用八位代码扩充技术和双字节编码方案,编码空间为942=8836个编码位,共收人6763字,主要针对现代汉语的常用文字处理工作。1984年开始考虑繁、简体字对应编码的扩充方案,先后制定了五个辅助集,其中,第二辅助集(GB7589-87)和第四辅助集(CB750-87)为规范字集,第一辅助集(CB12345-90)、第三辅助集和第五辅助集分别为对应于基本集、第二辅助集和第四辅助集的繁体字集。[1]
    国际标准化组织(ISO)为了满足统一的计算机多文种处理的要求,于1984年开始制定通用多八位编码字符集(Information Technology-Universal Multiple-Octet Coded Character Set,简称UCS)标准ISO/IEC10646,也就是我们现在常说的Unicode(Universal Code ),将全球现有的所有文字统一编码。ISO 10646的结构是一个四维编码空间,分为128个三维组(group),每一组包含256个平面(plane),每一个平面包含256行(row),每一行包含256个字位(cell),又称为“列”。每一个编码字符由组八位(Group-octet)、面八位(Plane-octet)、行八位(Row-octet)、列八位(Cell-octet)四个八位数组序列表示,整个可编码空间为128*2563=2147483648。1993年5月发布的ISO/IEC10646.1只定义了00组的00平面,称为基本多文种平面(Basic Multi Lingua Plane,简称BMP),在此平面上仅用行、列两个八位表示一个编码字符,使其作为双八位编码字符集使用,最大编码空间为65536个编码位,分成A-zone、I-zone、O-zone、R-zone四个区。其中表意文字编码区为I-zone,中、日、韩统一编码汉字集(CJK)就在此区从4E至9F行的区间定义,一共20902个编码汉字。
    为了适应ISO 1064.1中的CJK字符集编码,同时保持与CB2312的兼容,我国于1995年制订了汉字内码GBK字集,在保持原GB2312-80原貌和代码页(code page)形式的基础之上,将字集扩展到与ISO 1064.1中CJK字集等量的规模,同时预留了1894个码位的自定义区作为用户扩充区。基于GBK的字库集成到简体中文Windows95以上版本的操作系统之中后,成为我们可以直接使用的计算机系统字库。
    CBK用于汉魏以前的典籍(字书除外)的整理勉强可以应付,但是如果涉及到以后的部分典籍,如字书、韵书、佛典音义、敦煌遗书等等,就出现大量的缺字。例如我们在录人《广韵》时,仅平声一“东”到四“江”四个韵部753个被释字头中,就有254个字形CBK中没有,占了近34%。如此可以想见放到《集韵》、《一切经音义》等书中,缺字比例还会加大。
    台湾地区的工业标准Big 5编码字集有13051字,可以造字5809个,是当前海外通用的汉学工作字集,但在应用中同样面临古籍计算机处理中的缺字问题。
    为了解决汉字信息处理过程中的缺字问题,许多公司和组织都试图通过代码页方式的扩展建立大型的汉字编码字符集,典型的如中易公司开发的“全汉桥”系统和10万字字库,日本的“今昔文字镜”字库等,但由于这种方式在操作中是通过临时占用ISO 1064.1中的20902字符编码位来实现的,因此难免造成使用上的不便,而且不能在编程环境中使用。
    有鉴于此,即将发布的ISO 1064.1:2000对现有的CJK字集进行了扩充,其中包括扩充集A(CJK Extension A)6585个汉字、《康熙字典》部首、CJK部首扩充、汉字结构符、藏文、彝文、蒙文等,在BMP的O区内编码,从而使编码汉字达到了27000余个。随后,ISO 1064汉字工作组又申请了00组的02平面作为新的汉字统一编码空间,并整理出了4万余个汉字组成扩充集B(CJK Extension B),作为标准化议案提供给150组织表决。
    继1999年推出集成办公软件Office 2000后,2000年3月,微软正式发布了基于NT架构的中文Windows 2000操作系统,这些新软件全面支持Unicode。可以预见到,今后计算机软件系统会逐渐地向统一的信息编码和交换方案、统一的多文种大字符集方案靠拢,多年来汉字文化圈计算机应用面临的困境—如计算机古籍整理实践中的缺字问题、由于大陆和港台地区汉字内码不兼容造成的信息阻隔、资源不能共享等等问题,都将在一定程度上缓解。但从当前来看,现有的ISO 1064.1的20902字远远不能满足计算机古籍整理研究实践的需要,而CJK Extension B的标准化和工业实现仍然是个未知数,缺字问题在相当一段时期内还会困扰我们,由此衍生出操作中的如下问题:造字空间不足使新造字码位重叠;新造字不易管理;古籍处理的录人校核工作量大大增加、工序重复;阻碍资源共享等等。
    那么字符集的规模到底应该多大才算合适?是将历史上曾经出现过的汉字字形网罗殆尽,还是有择别去取?一般认为,汉字的总量大概在八到十万左右,但有人根据汉字字形变化的情况,认为汉字总量远不止十万。我们认为,在现有条件下,将汉字字形穷尽式地收人编码字符集的想法既不现实,也不可行。汉字新旧字形的不同和俗写、讹写、异体造成了大量的冗余字形,而且字形的历史累积、合并、分化的层次非常复杂,如果力求穷尽,见字就收,则收不胜收,滥而难精。况且字集扩大到一定的限度,也造成输人法配制和实际的文字录人相当的难度。这样来看,一个经过严格甄别的四万到六万字的字符集大致可以比较好地满足古籍数字化的需要。根据这一需要,当前应该加强面向计算机信息处理技术的汉字学理论的建设,首要的包括楷书汉字基本构形系统的研究和汉字字形的清查、整理以及汉字编码处理理论,进一步深人到古今全汉字构形系统的研究和针对信息处理技术的解决方案,汉字研究领域的学者应当在汉字编码字符集的规划和制定中起相当的指导作用,避免GB2312和CBK中出现的收字和字形上的种种疏误。
    另一个问题有关我们可以利用的计算机系统平台和开发环境。当前国内用于古籍整理实践所依靠的计算机工作平台比较混乱,有的基于Dos系统,有的基于16位的windows3.x版本,有的基于32位的windows9x或NT系统,这中间又存在着使用大陆简体中文版和台湾繁体中文版的不同,开发中所使用的应用软件及其版本也大相径庭。这种局面主要是由工作者开始探索的时间早晚的不同、所能凭借的硬件设施水平和软件手段的不同、工作目的和架构设计的不同造成的。不管怎么说,这一局面对于实现资源共享和维护非常不利。
    从现有计算机软硬件发展的水平和格局来看,使用较为统一的系统和开发平台从事古籍整理实践是可行的。具体来说,除了现有的Windows系统以及在其上运行的应用软件外,我们暂时还无法找到更为通用的、受到普遍支持的软件环境。在较长的一个时期内,Windows系统以及和它兼容的各种应用软件仍然是我们不得不依靠的工作平台,这并非因为它最好,而是因为它最通用。根据国内的具体情况,我认为以选择32位的简体中文版Windows9x和NT系统为佳,最好能够使用支持Unicode的WindowsNT或2000,应用或开发软件则以选择电子表格Excel、数据库软件Access、Visual Foxpro、编程开发软件Visual Basic、Delphi、c++等为佳。
    另一个值得关注的是Linux操作系统,Linux是Unix操作系统的一个变种,它的优势在于不仅功能强大、稳定性好、网络性能强劲、对硬件要求很低,更关键的是,它是以“通用公共许可”(General Public licence )方式发展的,这就意味着,它的源代码是免费的而且是公开的,用户可以根据自己的需要修改和定制系统,而几乎不需要什么额外的费用,同时,有从Web服务器、Web浏览到数据库开发、办公和图象处理等一系列应用软件支持它,较之表现不尽如人意而且昂贵的Windows系统,它有很多优越的地方。当然,Linux也有不足的地方,比如系统比较复杂、图形用户界面(GUI)没有Windows等系统那么成熟、学习的难度较大等等,但是,Linux之所以有如此的生命力和现在的强势是有一定的原因的,我们不应当忽视它。
    二、关于计算机古籍资料库的建设
    在西方,计算机语料库(corpus)的建设是从五六十年代开始的,当时,以N.Franciss和H.Kucera为首的一批语言学家和计算机专家合作,在美国布郎大学建成了机读的布郎语料库(Brown Corpus)至九十年代,西方较大规模的语料库已有数十个,覆盖了英、法、德、意、丹麦、西班牙、芬兰、瑞典、葡萄牙、南斯拉夫等诸多语种,总容量已经达到数十亿字(词)。[2]语料库的研制和建设主要是为语言研究、采样和辞书编纂服务的。另外,西方各大学和研究机构建立了诸多的计算机文本库,将大量的西方经典著作转换为电子文本,并实现了资源的网络共享,比较典型的如以西方活字印刷之父古腾堡命名的“古腾堡项目”(Project Cutenberg)、弗吉尼亚大学电子文本中心(The Electronic Text Center of University Virginia)等。梵蒂冈天主教廷也与IBM公司合作,将教廷图书馆收藏的大量中世纪手写文献全部扫描制作成电子图形库,在网上向全世界开放。
    中国古代历来有重视文字记录和撰述的传统,典籍浩如烟海,流传至今的据初步估算仍有七、八万种以上,是我们研究古代和周边民族语言、历史、文化最重要的依据。但唯以其繁浩,令不同领域的研究者时有力所不逮、博精难兼之叹,研究过程中搜集爬梳材料、欲穷尽证据之苦则为人所共历,因此传统治学埋首故纸、“皓首穷经”的铁杵成针功夫亦所必然,如此仍不免挂一漏万。但计算机的海量存储能力、强大的计算功能和基于主题、关联的穷尽检索功能为我们的学术之路带来了新的希望。利用计算机数据库技术、全文检索(full text retrieval)功能可以补人脑之所不及,快速提供精确的穷尽数据基础,从而将人力从材料的蒐集中解放出来,使学者能萃精力于材料的推绎和诠释。例如,台湾中央研究院研制的“中文全文检索系统”(简称CTP),输人一词,查遍全部《二十五史》四千余万字,只需一、二秒,并将检索结果依序穷尽排出,供浏览或打印。在其“汉籍全文资料库”中键人“妒”、“妒忌”、“嫉妒”三词,在《二十五史》中查询,查阅四千余万字,费时41秒,找到128项、150词;在《十三经》中查询,查阅近九百万字,费时12秒,共得16项、21词;在“古籍十八种”中查询,查阅近八百万字,费时9秒,共得44项、62词;在“诸子”中查询,查阅近六百万字,费时12秒,共得25项、41词。[3]前后数分钟,所得较人力穷年累月之所搜求不可以同道里计,而且精确有序,毫无遗漏。另外,计算机全文检索技术对古代语言研究、古籍整理领域内的辑佚辨伪等工作更具重大意义。甚至,依赖于研究设计者制作的知识库和计算规则,计算机可以对查询的材料进行一定程度的分析和整合,提供精确的类似初步研究的成果,供研究者深人讨论。利用多媒体技术,可以全方位地展现研究对象各种直观的细节和特性。网络技术又令知识传达、数据交流和获得取得新的途径,展现新的面貌。这对于我们的学术研究来说,不啻为革命性的巨变。
    台湾地区早在1984年7月就开始启动汉籍计算机数据库规划的实施,经过十余年的持续努力,仅中央研究院就已完成包括《二十五史》、《十三经注疏》、“古籍十八种”、“古籍三十四种”、诸子、《大正藏》以及台湾档案、台湾方志、台湾文献等在内的数亿字资料的建库工作,目前,中央研究院的“瀚典全文检索系统”已经在Intemet上提供一亿一千六百余万字古籍电子资源的检索服务。中央研究院现正从事的还有“道藏电子文献资料库”的建设测试等。[4]台湾中央图书馆也着手建立古籍善本扫描图象资料库,其“善本丛刊影像先导系统”现已提供十七种明人文集善本扫描影像的网上浏览。[5]此外,台湾地区网络上尚有大量由高校、研究机构、民间团体或私人维护的各种类型的古籍电子文本资源。
    香港中文大学中国文化研究所自1988年起,依靠香港研究资助局拨款,从事中国古代文献资料库的建设,迄今已经完成先秦两汉及魏晋南北朝一切传世文献共九百余种典籍计三千三百万字、九种出土简帛文献计一百万字、《甲骨文合集》所包含的卜辞计八十六万字的建库工作,其“华夏文库”现已提供魏晋南北朝经部文献一百四十九种、史部正史类文献五种、魏晋南北朝子部释家类文献三十八种及补遗八十九种、魏晋南北朝集部别集类文献六十四种共计近一千一百万字的网络检索服务,另外,尚有三百七十万字的资料将于2000年6月上网。[6]
    日本、欧洲大陆以及美国的汉学研究机构也都不同程度地建立了一些汉籍电子文本库和数据库,主要集中在儒学、佛教、道教等范围内。值得一提的是大英图书馆东方和南亚典藏部(Oriental and India Office Collections,The British Library)的“国际敦煌项目”(The Intentional Dunhuang Project),该项目通过国际合作,将分藏于各处的敦煌写本文献扫描为数字图象,并按照收藏地、目录号、写本的文字、主题、形制等分类,使用由巴黎ACI公司设计的称为“第四维”(4th Dimension)的关系数据库系统制作成网络数据库,供使用者检索,从而使世界各地的学者都可以通过Internet完整而便利地利用存世的敦煌文献。
    大陆在这方面起步虽然不能说晚,但操作零散,缺乏持续的经费、技术投人和良好的协调,成果不明显,亦缺乏社会效应。至今除北京大学中文系“《全唐诗》检索系统”、上海师大“《全宋词》检索系统”测试版、陕西师大历史系“《二十五史》全文检索系统”(单机版)外,尚无其他正式开放或推出的古籍全文检索资料库。而且由于缺乏沟通和交流,重复选题、开发的现象比较严重,浪费了可贵的资源和投人。根据建库材料和应用要求的不同,有关的资料检索库的建设大致可分为五个方面:
    1、古籍全文检索资料库,主要包括完整的古籍文本。例如台湾中研院的汉籍全文资料库、香港中文大学的古文献资料库的大部分等。
    2、文史研究专题资料库,侧重按照某一领域的学术主题甄择资料建库,例如上面所举台湾中央研究院的台湾方志、台湾档案数据库等。今后我们还可斟酌开展古代碑志、历代藏书书目序跋等专题资料的建库工作。
    3、古代、近代汉语语料库,按照语言断代甄选具有代表性的语篇文本建库,应用于针对古代汉语的机器翻译、自动分句和处理等的计算语言学研究,另外还可以应用于古代近代汉语计算机辅助教学系统的研制。
    4、文史研究工具资料库,提供与各种语文辞书和其他种类工具书相当的信息服务。例如历史人物传记资料数据库、古代地理与行政建制沿革数据库、汉语音韵训话资料数据库、历史年表和中西历换算数据库等等。
    5、扫描影象资料库,工作对象是古籍珍本善本、出土写本残卷、书册形制、甲金简帛文字、历史地图等以图象数据为重要表现内容的材料,目的是存真,将这些资料的原貌展现在计算机上。缺点是无法进行基于文本内容的检索。
    我们觉得以下几点在项目设计中应当注意:
    1、起点要高,适应当前先进的软硬件平台和今后发展的趋势。
    2、技术标准的开放性和系统的可维护性、可扩展性要好,营造出富有弹性的和具有广泛应用前景的系统架构。
    3、界面友好,体现普及计算机应用的追求。优先考虑网络应用的架构方案。
    这里存在一个问题,无论就项目的组织开发过程还是所达到的最终效果来说,都存在着完美和效率之间的矛盾问题,追求完美的过程和效果,必然会降低效率,计算机技术的发展和更新速度之快,已不容许我们用“十年磨一剑”的方式来指导运作;而追求效率,又往往是以一定程度上牺牲完美为代价的。从计算机技术的发展和信息积累的增长速度来看,从事计算机项目的开发,如果一味地以完美为准绳,是不现实的;但若一味地准之以效率,又会潜伏下另一个可怕的危险,就是技术的粗糙和潜在的缺陷。我们认为,比较现实的态度是,通过较为审慎的论证,努力在完美的追求和效率的要求之间寻求到一个平衡点,通过二者局部的牺牲达到整体的最优化。这个平衡点的求得,取决于具体项目和具体目标的特质,取决于项目整体的定位和技术内涵,也取决于运作者的认识和把握。
    三、关于古籍整理计算机辅助研究系统
    越来越多涉足到计算机应用的古籍整理研究学者倾向于认为,古籍整理研究手段计算机化还应当包括另一个方面,就是我们除了通用的系统平台和应用软件以及古籍文本库、数据库以外,还应当有一个集成了古籍整理特有工作要求功能模块的工具平台,所提供的有诸如校勘模块、统计模块、知识结构的提取模块等等,它们都统一在一个窗口界面下,从而形成为独立的应用软件或软件群,如同一个专家系统。不少学者根据自己的研究兴趣和领域,已经开始了初步的探索,例如台湾中央研究院资讯科学研究所谢清俊教授领导设计开发了计算机古籍校读工具“中文文献处理系统”(Chinese Document Process )的雏形,[7]四川大学古籍研究所开发了汉字索引编辑排版系统(IDX)。[8]台湾的学者更是进一步提出了称之为“汉学工作站”的宏大构想。这种可贵的探索表达了古籍整理研究手段计算机化中的研究倾向,较之单一的古籍检索数据库的建设,是更高层面的追求,是一项极有价值的工作。
    但我个人不成熟的想法是,应该避免过高地估计计算机在古籍整理和文史研究领域所能扮演的角色的倾向。因为计算机所能做的是依照一定的规则甄择和提供材料,资料量越大,越能体现出它较之于人脑的优越性,但是它并不能提供研究,不能表现哪怕是最基础的人类思维,所以我们应该把人力不堪应付的数据工作交给计算机去做,而不必花大量精力去试图让它做难以胜任的事情,计算机“辅助研究系统”的重点是在“辅助”上,而不是在“研究”上。因此,我认为这个“辅助研究系统”应该是一个尽可能大的、可以扩充的数据资料库集合,这个集合可以根据不同的研究领域和课题倾向有所侧重,而具有统一的界面。它基本上包含了上述几种资料库类型,只是在统一的界面底下将各类资料库打通,实现基于主题和关联的数据查询、统计和一些简单处理。同时,提供专门针对古籍的扫描汉字识别、造字、校勘(对)提示、索引、自动标引等模块。说它是一个“系统”(System),毋宁说它是个以数据资料库支持为特点的“工具包”(Toolkit)。例如北京师范大学汉字与中文信息处理研究所研制的“《说文解字》计算机研究系统”,就是由“小篆构形属性数据库”、“《说文解字》意义训释数据库”、“《说文解字》‘读若’与古音韵数据库”这三个主要部分构成,通过这些数据库来分别测查出《说文解字》的小篆构形系统、义类和意义系统、古音韵系统。[9]
    计算机是呆板的,必须通过人之所为来让它有所为、为人所欲为。计算机技术不能代替人文研究,但它可以弥补人脑之不足,可以提供多样、快速的检索和资料的比照,提供穷尽性研究的数据基础,缩短研究的周期,提高学术的精度,这对改变传统的“手工作坊”式的学术研究模式的意义是巨大的,正所谓“工欲善其事,必先利其器”。我们应该依靠长远的规划、灵活多样的协作和广泛的信息交流,在达成共识的基础上充分利用现有的资源,避免重复开发,在古籍整理手段现代化的实践中,既体现自己的特色,又形成资源共享的良好环境。
    注释:
    [1]傅永和、刘连元、陈敏、王翠叶《应用语言学研究的现状和展望(下)》,《中国语言学现状和展望》272-273页,外语教学与研究出版社1996年第1版。王之爟《计算机系统中的汉字交换码和内部码》,《汉语语言文字信息处理》18-187页,上海教育出版社1997年第1版。
    [2]丁信善《语料库语言学的发展及研究现状》,《当代语言学》1998年第1期。
    [3]李贞德、陈弱水《中研院史语所汉籍全文资料库介绍》.《两岸古籍整理学术研讨会论文集》630-631页,江苏古籍出版社1998第l版。
    [4]详见中央研究院网站http://www.sinica.edu.tw.
    [5]详见台湾中央图书馆网站http://www.ncl.edu.tw/flyweb/ncl-book/index.htnl
    [6]详见香港中文大学中国文化研究所网站http://www.chant.org。
    [7]谢清俊、庄德明《古籍校读工具“中文文献处理系统”的设计》,《中国古籍整理研究出版现代化国际会议论文集》,北京,1995年。
    [8]沈治宏、吴洪泽《II)x(汉字索引编辑排版)系统》,同上。
    [9]王宁、周晓文、齐元涛、杨宏《<说文解字)计算机研究系统与各类属性的测查》,同上。
    于亭:(l968-),男,江西赣州人。武汉大学人文科学学院古籍研究所讲师,现在职攻读汉语史专业博士学位。从事传统小学、古文献学和古籍整理计算机应用的研究。
    原载:《古汉语研究》2000年第3期 (责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
评论
批评
访谈
名家与书
读书指南
文艺
文坛轶事
文化万象
学术理论