语言文学网-学术论文、书评、读后感、读书笔记、读书名言、读书文摘!

语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网

当前位置: 首页 > 学术理论 > 书目文献 >

中国古籍书目数据分析

http://www.newdu.com 2017-10-30 中国文学网 朱岩 参加讨论

    《中国古籍善本书目》是一部反映中国大陆七百多个单位收藏中国古籍珍本的大型联合目录,是由数十名古籍出版专家、编目专家历时十五年才完成的一部珍贵的古籍文献查询导引。
    目前国内一些图书馆正在考虑将馆藏古籍书目或整部文献数字化,使其成为计算机可处理形式,以便在网上实现信息资源共享。本文从信息处理角度对古籍书目数据做出分析,即从便于检索的角度对数据进行切分,提炼,使之单元化,成为信息系统数据结构设计的依据。
    这部《中国古籍善本书目》是供人阅读的,不是供计算机处理用的。编辑人员采用的是图书馆的古籍编目规则。从信息处理角度审视这些书目文字,发现尽管已经从选择行列起始、字号大小、同列文字之间置以间隔等形式做了数据项目的区分,但就每项文字来说,仍未区分到最基本的信息单元。而采用新技术处理信息则需要进一步辨别、提炼、切分和置以标识,才可能对其检索、统计、归纳、整理,实现信息增值利用。
    在数据分析中,最重要的是将检索点信息弄清楚,并加以切分、标识。
    

一、书名信息分析
    


    1、正书名与其它书名文字区分
    该书目中正书名与其它书名信息是标引在一起的,中间并无标点符号区分。可是正书名是检索点,其它书名文字不具有检索意义,故应该区分。此类例子到处可见。
    苏东坡诗集二十五卷
    其中,“苏东坡诗集”是正书名,“二十五卷”是其它书名文字。
    西渡集一卷补遗一卷
    其中,“西渡集”为正书名,“一卷”和“补遗一卷”分别为其它书名文字。
    山静居题画诗不分卷
    “山静居题画诗”为正书名,“不分卷”为其它书名文字。
    百泉诗稿口口卷
    “百泉诗稿”为正书名,“口口卷”为其它书名文字。
    淮海集十七卷後集二卷词一卷补遗一卷绩补遗一卷
    “淮海集”是正书名,“十七卷”、“後集二卷”、“词一卷”、“补遗一卷”、“绩补遗一卷”分别为其它书名。
    对上述信息实施计算机编目,就应该启用200字段,用$a标识正书名,用$e标识其它书名文字。对于有多个其它书名的,可以用$e重复地加以标识。其形式为:
    200 1#$a苏东坡诗集$e二十五卷
    200 1#$a西渡集$e一卷$e补遗一卷
    200 1#$a山静居题画诗$e不分卷
    200 1#$a百泉诗稿$e口口卷
    200 1#$a淮海集$e十七卷$e後集二卷$e词一卷$e补遗一卷$e续补遗一卷
    注:#表示字段指示符空格。200为字段号。$a、$e为子字段标识符。
    2、书名中含有多个正书名区分
    可能是由于文献合订的缘故,古籍书目中常出现一些将多个正书名列为一条书名的情况。
    蠙衣生浙草十三卷晋草十二卷楚草十三卷闽草六卷闽藩草九卷家草八卷
    (集部上744页)
    其中“蠙衣生浙草”、“晋草”、“楚草”、“闽草”、“闽藩草”、“家草”均是正书名,其它分别为其它书名文字。
    实施计算机编目,其形式为:
    200 1#$a蠙衣生浙草$e十三卷$a晋草$e十二卷$a楚草$e十三卷$a闽草$e六卷$a闽藩草$e九卷$a家草$e八卷
    大唐西域记地理考证一卷附录一卷印度风俗总记一卷(史部下1073页)
    其中“大唐西域记地理考证”、“印度风俗总记”为正书名,其它可作其它题名文字处理。
    机读形式为:
    200 1#$a大唐西域记地理考证$e一卷$e附录一卷$a印度风俗总记$e一卷
    注:其中“附录一卷”中的“附录”难以作正书名,故作其它书名处理。
    3、对书名前部一些文字的处理
    在古籍的书名中,常出现一些很难具有检索意义的文字,或者出现的文字在某些情况下具有检索意义,在某些情况下不具有检索意义。
    大清太祖承天广圣德神功肇纪立极仁孝睿武端毅钦安弘文定业高皇帝圣训
    该题名出自《四库全书》,取自正文页。很难想象,该题名中全部文字能成为读者记忆和操作的检索点。对这类题名除在题名著录中保持原样(一个字不少照录)外,还应提取检索点题名。可以考虑提取“大清太祖高皇帝圣训”(即取题名头尾有检索意义文字)或“太祖高皇帝圣训”(封面题名如此)作为正书名追加的检索点。
    其机读形式为:
    2000#$a大清太祖承天广圣德神功肇纪立极仁孝睿武端毅钦安弘文定业高皇帝圣训
    512 1#$a太祖高皇帝圣训
    517 1#$a大清太祖高皇帝圣训
    注:200字段第1指示符取0,表示$a中正书名不作检索点。
    有些题名开头文字既具有检索意义,又不具有检索意义,如:
    新刊阴阳宝鑑尅择通书前集五卷
    新编曆法集成前集一卷
    类编曆法通书大全三十卷
    新锲全补发微正通书大全乾集三卷
    五刻理气纂要详辩三台便览通书正宗十
    八卷首三卷
    明译天文书四卷
    新刻杨筠松祕传开门放水阴阳捷径二卷
    重刻校增武侯八门神书一卷
    编集检择家传祕诀不分卷
    钦定选择曆书十卷
    御定星曆考原六卷
    新镌柳庄麻衣相法四卷
    新雕注疏珞琭子三命消息赋三卷
    彚选筮吉指南十五卷
    重订高邮王西楼先生野菜谱一卷
    增补陶朱公致富奇书八卷
    上述数条题名开头均有一些文字(下画标记)就自身含义来看具有一定检索意义,正书名标引时应保留这些文字。但通观整条书名会发现,除掉这些开头文字后,其书名也具有通常的检索意义。因此,这类题名还应提取开头文字之外的通常书名作为文献的检索点。故上述题名中:“阴阳宝鑑尅择通书”、“曆法集成”、“曆法通书大全”“全补发微正通书大全”(包括“曆正通书大全”)、“理气纂要详辩三台便览通书”、“天文书”、“杨筠松祕传开门放水阴阳捷径”、“武侯八门神书”、“家传诀祕”、“曆书”……“陶朱公致富奇书”等。应作统一题名或其它题名(检索点)追加标引。
    机读形式(仅举一例):
    200 1#$a重订高邮王西楼先生野菜谱$e一卷
    500 10$a高邮王西楼先生野菜谱
    500字段即统一题名字段,也可用517字段即其它题名字段记载该题名:
    517 1#$a高邮王西楼先生野菜谱
    二、责任者信息分析
    
    《中国古籍善本书目》在责任者著录中,是将责任者名称与责任者所处朝代以及责任方式等混在一起标引的。有一定知识的读者可以辨认这些信息,但采用计算机处理这些信息必须进一步区分,才可提供责任者的检索点。
    齐民要术十卷杂说一卷 北魏贾思勰撰清陈揆校并跋
    其中:贾思勰是责任者名,所处朝代为北魏,责任方式为撰;
    陈揆是次要责任者名,所处朝代为清,责任方式为校、跋。
    实施计算机编目的形式为:
    701#0$a贾思勰$f北魏$4撰
    702#0$a陈揆$f清$4校
    大元海运记二卷 元赵世延、揭傒斯等纂修 清胡敬辑 清罗以智跋
    实施计算机编目的形式为:
    701#0$a赵世延$f元$4纂修
    701#0$a揭傒斯$f元$4纂修
    702#0$a胡敬$f清$4辑
    702#0$a罗以智$f清$4跋
    阅清楼书目不分卷 清道光六年刘氏味经书屋抄本 清刘喜海跋
    711 02$a刘氏味经书屋$f清道光六年$4抄
    702#0$a刘喜海$f清$4跋
    注:这里选择711字段是因为“刘氏味经书屋”为团体名称。
    三、版本信息分析
    
    对古籍的保管、统计和研究工作来说,善本书目的版本描述信息,也需进一步切分、提炼。因为其中版本形式与版本形成朝代以及与此版本有关的责任者名称混排在一起。见以下例:
    明嘉靖三年刻本
    版本形式为“刻本”,“明嘉靖三年”为版本产生朝代。
    机读目录形式为:
    205##$a刻本$b明嘉靖三年
    清乾隆嵇璜写本
    版本形式为“写本”,“嵇璜”为该版本责任者,“清乾隆”为版本产生朝代。
    机读目录形式为:
    205##$a写本$b清乾隆$f嵇璜
    清乾隆内府朱墨写本
    版本形式为“朱墨写本”,“内府”为该版本责任者,“清乾隆”为版本产生朝代。
    机读目录形式为:
    205##$a朱墨写本$b清乾隆$f内府
    明闵于忱松筠馆刻朱墨套印本
    版本形式为“朱墨套印本”,“刻本”,“闵于忱松筠馆”为版本责任者,版本朝代为“明”。
    机读目录形式为:
    205##$a朱墨套印本$b明$f闵于忱松筠馆
    205##$a刻本$b明$f闵于忱松筠馆
    注:由于机读格式规定205字段$a不可重复,故启用两个205字段分别用$a标引版本。
    明崇祯元年毛氏汲古阁刻唐人选唐诗本
    版本形式为“唐诗本”、“刻本”,“毛氏汲古阁”为版本责任者,“唐人”为版本次要责任者,“明崇祯元年”为版本产生朝代。
    机读目录形式为:
    205##$a唐诗本$b明崇祯元年$f毛氏汲古阁$g唐人
    205##$a刻本$b明崇祯元年$f毛氏汲古阁
    清乾隆三十七年释实懿刻本[四库底本]
    机读目录形式为:
    205##$a刻本$b四库底本$b清乾隆三十七年$f释实懿
    注:“四库底本”属于次要版本说明,故用$b标引。
    四、附注文字处理
    
    有些古籍书目款目中列有附注性文字,如:
    古今图书编一百三十四卷
    存九十一卷 一至十一 十三至二十
       二十二至三十三 三十六至四十 六十六至一百二十
    存九十一卷以下文字为附注性文字,在机读编目时用附注字段标引,此例的机读形式如下:
    200 1#$a古今图书编$e一百三十四卷
    300##$a存九十一卷 一至十一 十三至二十 二十二至  三  十三三十六至四十 六十六至一百二十
    五、分类信息区分
    
    《中国古籍善本书目》的分类体系为四级:
    第一级分为:
    经、史、子、集、丛(五个部分)
    第二级分为:
    卷xxx(卷标识)
    第三级分为:
    xxxx类(大类标识)
    第四级:
    xxxx(具体细类标识)
    例如:
    碧雞漫志五卷 宋王灼撰 明抄本
    其分类为:集部下 卷三十 词类 词话
    机读形式标引为:
    200 1#$a碧傒漫志五卷$f宋王灼撰
    205##$a抄本$b明
    686##$a集部下$c卷三十$c词类$c词话$d四库
    注:686字段为“其它分类法分类号”
    $a分类主要标识,$c分类复分。
    $d为分类系统代码。这里选用的是四库分类法,故标引“四库”。
    六、古籍书目的层次关系及其标引
    
    纵观古籍善本书目,其数据之间分别存在一层、或两层、或三层至四层的关系。尤其丛书类,更存在数据的多层关系。举例说明:
    绿牕女史十四卷
    卷一闺阁部
    懿范
    女论语 唐宋若昭撰
    女孝经 唐郑口撰
    女诫 汉班昭撰
    女范
    女红
    剌繍图 吴张淑撰
    织锦璇玑图 前秦苏蕙撰
    中馈录
    蚕经 明黄省曾撰
    才品
    闺秀诗评
    ……
    卷二宫闱部上
    ……
      ……
    该书目数据分为四个层次:
    总集(绿牕女史十四卷)
      分卷(卷一闺阁部、卷二……)
      分集(懿范、女红、才品——即分集名……)
      分册(女论语……)
    对这种多层次关系的书目如何著录,尤其是在机读形式下如何著录?有两种做法供参考。
    1.第一种方法:不分层著录
    这种方法是,将总集作为书目主体做一条机读目录,将分卷、分集、分册作为其附注著录,机读形式为:
    200 1#$a绿女史$e十四卷
    327 1#$a卷一闺阁部$a懿范(第一分集):$a
    女论语/唐宋若昭撰;$a女孝经/唐郑t撰;$a女诫/汉班昭撰;$a女范。$a女红(第二分集):$a剌图/吴张淑撰;$a织锦璇玑图/前秦苏蕙撰;$a中馈录;$a蚕经/明黄省曾撰。$a才品(第三分集):$a闺秀诗评;$a……$a卷二宫闱部上……
    517 1#$a懿范
    517 1#$a女论语
    517 1#$a女孝经
    ……
    701#0$a宋若昭$f唐$4撰
    701#0$a郑t$f唐$4撰
    701#0$a班昭$f汉$4撰
    ……
    上述517字段记载的是分集和分册题名检索点。701字段记载的是各分册责任者名称检索点。
    2.第二种方法:分层著录
    将总集做一条书目记录,将分册也做一条机读目录,用461字段(总集)实现分册书目记录向上(总集)的连接。
    总集书目的著录可同第一种方法著录。但注意,在那里并未做463单册字段向下的连接,因读者从附注中可以看见子目信息。这里是通过单册实现向总集即向上的连接。
    单册书目的著录形式:
    [1](单独一条记录)
    200 1#$a女论语$f唐宋若昭撰
    461#1$12001#$a绿女史$e十四卷$v卷一闺阁部.懿范
    [2](单独一条记录)
    200 1#$a女孝经$f唐郑口撰
    461#1$12001#$a绿牕女史$e十四卷$v
    卷一闺阁部.懿范
    ……
    200 1#$a剌繍图$f吴张淑媖撰
    461#1$12001#$a绿牕女史$e十四卷$v卷一闺阁部.女红
    这里,每个单册均做成一条机读目录,每条目录都有向总集的连接。中间的分卷、分集名隐含在总集的书目信息中。每条记录中还有200、461以外的字段,这里省略。
    若实现由总集直接向分册的检索连接,则应在总集书目中分别使用463字段。
    实例如下:
    200 1#$a绿女史$e十四卷
    462#1$12001#$a卷一闺阁部.懿范
    463#1$12001#$a女论语$f唐宋若昭撰
    463#1$12001#$a女孝经$f唐郑口撰
    ……
    462#1$12001#$a卷一闺阁部.女红
    463#1$12001#$a剌繍图$f吴张淑媖撰
    ……
    462#1$12001#$a卷二宫闱部上
    ……
    注:此处启用462字段主要目的是为了能打印附注。4xx字段第2指示符取1,即表示除连接功能外,还可将字段内容打印成附注项文字。
    七、结论
    
    从上述多方面分析中可概括如下认识:
    1.手工(传统著录)著录的信息中许多项目未区分到基本的信息单元,读者在阅读中需进一步辨别。用现代信息技术处理,必须作信息基本单元之间的切分和标识。
    2.书目数据无论是整条款目或其中的某一项数据,多数是变长的,即文字数量是不固定的。
    3.书目中的许多同类数据项,常常是重复出现的,如正书名就有多个,责任者有多个等等。
    4.不少数据项是随遇出现的。如有的有分册名,有的没有;有的有责任名,有的没有等。
    5.数据间存在有层次关系。如总集、分集(卷)、分册。
    6.古籍书目用字复杂。有大量的繁体、异体字出现,这就需要ISO/IEC 10646大字符集的支持,不然无法处理。
    [参考文献]
    [1]该书编委会.中国古籍善本书目.上海古籍出版,1989.10—1998.3
    [2]北京图书馆《中国机读目录格式使用手册》编委会.中国机读目录格式使用手册.华艺出版社,1995.
    [作者简介] 朱岩,研究馆员,北京图书馆。
    原载:《北京图书馆馆刊》1999年第2期 (责任编辑:admin)

织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
评论
批评
访谈
名家与书
读书指南
文艺
文坛轶事
文化万象
学术理论