从字频统计看秦简用字的相关性
http://www.newdu.com 2024/11/28 03:11:52 《中国文字研究》2019年第 高魏 张显成 参加讨论
内容提要:文章通过全面的字频统计,分析秦简的用字相关性。研究表明,20种秦简的字频分布密切关联,呈现出普遍的用字相关性。同时,术数、地图、编年史对秦简用字相关性的影响显著,此三类秦简用字均呈现出各自的关联,分别偏离了秦简用字的一般情形。研究结论可为判断秦简的语料性质、构拟秦代的用字特征及深入认识相关文献提供参考。 关 键 词:字频;秦简;用字相关性 作者简介:高魏,西南大学汉语言文献研究所讲师,博士后;张显成,西南大学汉语言文献研究所、出土文献综合研究中心教授,博士生导师。 基金项目:本文为国家社科基金项目(项目号:11XZS001)、西南大学中央高校基本科研业务费团队项目(项目号:SWU1709128)、西南大学科研基金博士启动项目(项目号:SWU1809723)成果。 字频作为文字形、音、义三要素之外的第四要素,是深入认识文字系统的重要视角。①与经过历代传抄的传世文献有所不同,出土文献是长期掩埋于地下而未经流传、改写的共时材料,因而利用出土文献开展字频研究具有传世文献无法比拟的真实性。由于受到文字释读和计算机集外字的限制,出土文献字频研究直到近年才逐渐受到关注,尽管如此,也取得了不少极具价值的成果:张再兴从字频的角度讨论了西周金文文字系统的特点②;刘志基对出土文献字频展开了多个层面的深入研究,涉及古文字的发展程度、构件定量、记语方式、字词关系、专字现象、地域差异、文献话语热点等多个方面③;姜慧、张再兴对秦简的用字习惯进行了计量分析④。这些成果,为出土文献字频研究奠定了良好基础。但是,因不同时期、不同类型的材料众多,出土文献的字频状况仍有进一步研究的空间:一是目前还没有完全掌握秦简字频的总体状况,已有成果多集中于甲骨文、金文及楚简文献的字频探讨,以及初步涉及某一种秦简文献的字频分析⑤,如果能够在全面整理秦简文献的基础上统计其字频,可更加全面地反映当时的文字使用状态。二是研究角度还可继续拓展,特别是用字相关性,即文字在使用过程中因受到各种因素的影响而产生的相互关联现象的研究还可拓展。先秦传世古籍在内容和时代上的用字相关性已经得到证实⑥,这对于深入认识先秦传世古籍具有很高的参考价值。那么,出土文献的用字相关性又将如何呈现?这一问题目前还没有现成答案。如果能够验证并分析秦简的用字相关性,势必可以加深对出土文献用字特征、语料性质、文本整理等的认识。 在研究材料方面,我们全面搜集了目前已经完整刊布的秦简作为研究材料⑦,包括以下20种文献: 1.《睡虎地秦简》10种文献,分别为《编年记》《语书》《秦律十八种》《效律》《秦律杂抄》《法律答问》《封诊式》《为吏之道》《日书甲种》《日书乙种》,本文分别简称《编年》《语书》《十八种》《效律》《杂抄》《答问》《封诊》《为吏》《睡日甲》《睡日乙》,编号为1-10。 2.《天水放马滩秦简》4种文献,分别为《日书甲种》《日书乙种》《丹记》《木板地图》,本文分别简称《放日甲》《放日乙》《丹记》《地图》,编号为11-14。 3.《周家台秦简》3种文献,分别为《历谱》《日书》《病方及其他》,本文分别简称《历谱》《日书》《病方》,编号为15-17。 4.《龙岗秦简》1种文献,本文简称《龙岗》,编号为18。 5.散见秦简2种,即《睡虎地秦牍》《岳山秦牍》,本文简称《秦牍》《岳山》,编号为19和20。 字频统计需要对研究材料进行科学处理。我们对秦简的处理如下: 首先,以各种秦简的整理报告为基础,严格查核图版,统一楷定字形,并综合吸收后出的有关释读成果,形成秦简精校释文。其次,按照汉字信息处理的要求,研制秦简集外字的字体和输入法,将全部精校释文转录为可供计算机任意处理的电子纯文本。再次,对电子纯文本进行深加工,构建秦简语料库,实现释文每个字形与原图版字形、用例、出处等信息的一一对应及其数字化处理。最后,利用语料库提取字频研究所需信息,制作各类字频统计表,根据字频数据开展相关研究。统计字频时,只统计确释字,不统计残缺字、不确字、拟补字及符号。 本文所涉材料及其字频数据,均可通过我们前期编撰的《秦简逐字索引》和《秦汉简牍系列字形谱》进行验证。⑧ 为了便于阐述,本文界定以下概念: 单字,指不重复的单位字形。合文、重文视为单字,异构字分别视为不同单字。字量,指单字的数量。字次,指特定单字在选定语料中出现的次数。字频,指单字的字次与选定语料的总字次的百分比。覆盖率,指特定单字字次之和与选定语料的总字次的百分比。累计覆盖率,指单字字频从高到低排列时,特定单字字频与其之前所有单字字频之和。频序,指单字字频从高到低排列时的序号,频序越小,单字字频越高,反之字频越低。 一、秦简的字频统计 经统计,秦简凡2182个单字,总字次为57868次,平均字次为26.52次。最高字次为1177次,最低字次为1次。表1呈现了秦简字频表的概况,限于篇幅,本文只列出具有标志意义的字频数据。从表1可知,单字频序为1-10、1-100、1-500、1-1000、1-2000时,其累计覆盖率分别为15.12%、55.74%、88.15%、96.31%、99.69%;换个角度来看,累计覆盖率达到10%、20%、30%、40%、50%、60%、70%、80%、90%、100%时,所需的字量分别为6、16、31、51、78、122、193、316、566、1291、2182。 字频分级是用字研究的基本工作。累计覆盖率是一个相对值,便于与其他语料进行比较,故本文据此来划分字频级别。结合秦简的实际情况,本文将累计覆盖率达到50%、90%、98%,作为秦简一级字、二级字、三级字、四级字的切分点。表2呈现了秦简的字频分级情况。一级字、二级字、三级字、四级字是秦简核心内容与非核心内容在用字上的体现,分别覆盖全部文本的50%、40%、8%、2%,各占总字量的3.57%、22.36%、33.23%、40.83%。 表3呈现了20种秦简的字频统计概况。从表3可知,字次、字量最多的秦简均为《睡日甲》,其字次共计11963次,字量为1037个。字次最少的秦简为《地图》和《丹记》,字次均为215次。字量最少的秦简是《地图》,字量为87个。平均字次最多和最少的秦简分别为《放日乙》与《丹记》,《放日乙》平均字次为11.57次,《丹记》平均字次为1.65次。此外,表3“前10高频单字”在一定程度上反映出各种秦简在字频分布上的关联,例如,《睡日甲》《睡日乙》《放日甲》《放日乙》中存在多个重合的高频单字。 二、秦简的用字相关性 秦简共有2182个单字,各单字在20种文献之间存在大量的字次分布数据,这些字次分布数据的相互关联程度,仅凭个人经验或简单统计显然是难以做出科学判断的,所以很有必要运用更为专业的统计方法来进行观测。主成分分析是常用的专业统计分析方法,不需要任何假设,即可从众多数据中提取出具有关联的信息,并重新组合成少数的综合指标,可用于观察、解释数据间的关联及其影响因素。为了验证秦简的用字相关性,下面运用SPSS统计软件(17.0版)⑨,以秦简中2182个单字为对象,以每个单字在20种秦简中出现的字次为变量进行主成分分析。各种秦简的单字字次分布数据如表4所示。⑩ 经统计,SPSS主成分分析的输出结果包括“KMO和Bartlett的检验表”“公因子方差表”“解释的总方差表”“成分矩表”“前3主成分三维图”。限于篇幅,本文不列出数据表,只说明表中的关键数据。下页图1是“前3主成分三维图”,X轴、Y轴、Z轴分别表示成分1、成分2、成分3的相关系数。 从“KMO和Bartlett的检验表”可知,KMO值为0.89,Sig值为0.000,表明适合进行主成分分析。从“公因子方差表”可知,除了《丹记》《封诊》《地图》《日书》《秦牍》的公因子低于0.5外(分别为0.47、0.43、0.39、0.34、0.20),其余秦简的公因子均超过0.5,表明20个变量中的大部分信息均被提取,主成分分析的结果是有效的。从“解释的总方差表”可知,前4个成分的特征值均大于1,其方差贡献率分别为37.09%、13.06%、5.89%、5.31%,累计方差贡献率为61.35%,表明前4个成分可以解释全部总特征的61.35%。而在第4个成分之后,相应的特征值变小,差异不明显。因此,可以提取前4个成分作为主成分。 从“成分矩阵表”及秦简背景知识可知,前4主成分分别呈现出秦简总体文献、术数文献、地图文献、编年史书的用字相关性。下面逐一分析。 (一)秦简总体文献的用字相关性 统计结果显示,《睡日甲》《放日乙》《十八种》《睡日乙》《为吏》《龙岗》《答问》《病方》《效律》《语书》《封诊》《岳山》《杂抄》《丹记》《放日甲》的相关系数均超过0.5,分别为0.83、0.81、0.78、0.77、0.69、0.69、0.69、0.69、0.66、0.63、0.62、0.57、0.56、0.55、0.54,比较能够反映秦简用字的一般情形。《日书》《历谱》《秦牍》在成分1上的相关性较弱,但相关系数也分别达到0.48、0.37、0.36。《编年》和《地图》与成分1的相关性最弱,相关系数分别为0.17和0.12。在图1中,绝大多数秦简的坐标密集地分布在一起,并一致对应在成分1的较高系数上。这表明,2182个单字在20种秦简中的使用频率是相互关联的,秦简用字具有普遍的相关性。显然,这是由秦简文字的社会性所决定的:秦简文字是秦代汉字系统中约定俗成的固定符号,记录同一语言单位时,即使在不同文献中也能够被重复使用,从而使单字的使用频率能够相互关联。例如,在记录“月”这个词时,各种秦简一般使用字形“月”来记录,而不是别的字形。 (二)秦简术数文献的用字相关性 统计显示,与成分2相关性较强的秦简有《历谱》《岳山》《睡日乙》《放日甲》《放日乙》《睡日甲》,相关系数分别为0.67、0.60、0.53、0.46、0.42、0.40。其余秦简与成分2的相关性很弱,相关系数均低于0.1。同时,图1也清楚地显示,此6种秦简的坐标密集地分布在一起,一致对应在成分2的较高系数上,同时偏离了其他秦简的坐标。可见,此6种秦简用字具有明显的内部一致性,并表现出与非术数文献用字的外部排他性。这6种秦简均属于术数文献,其用字相关性显然是受到了特定内容的影响。 与非术数文献相比,这6种术数文献的差异主要体现在时日、五行、形法、杂占等内容上。以术数文献的前100高频字为例,它们的覆盖率可达66.36%。其中,绝大多数单字为表示术数内容的词语,如表示干支时日的“月、日、子、辰、丑、巳、未、酉、申、亥、寅、午、戌、卯、乙、己、丁、戊、庚、甲、癸、辛、壬、丙、除、岁、旬、夕、夜”,表示方位的“东、西、南、北、中”,表示凶吉、禁忌的“吉、凶、忌、利”,表示五行的“土”,表示衣食、居行、杂占的“食、门、祠、室、行、出、盗、取、病、殹、生、死、亡、得”等。经统计,此100个高频字中,有3个单字只在术数文献中使用,分别为“吉、凶、忌”;有53个单字虽然在非术数文献中也有使用,但使用频率低,且分布范围小。如“土”在非术数文献中仅出现3次,且只在《十八种》中使用。由此可见,此6种术数文献的用字集中地反映了时日、五行、形法、杂占等热点内容,而非术数文献的用字则没有集中反映这些内容,所以它们才表现出自身的用字相关性,以及区别于其他秦简的用字特征。 值得一提的是,《日书》同为术数文献,但其与成分2的相关系数仅为0.04,在图2中也偏离了其他秦简术数文献。那么,为何该种秦简的用字相关性会出现异常呢?据整理报告可知(11),整理者根据竹简形态的不同,将出土的竹简分为甲、乙、丙三组。在整理简文的过程中,整理者又对甲、乙两组的内容进行了归并调整:把甲组中的秦始皇三十六年、三十七年的月朔日干支及月大小等简文,与乙组简文归并为第一组,发表时命名为《历谱》;将甲组简文剩下的杂占内容编为第二组,发表时命名为《日书》;将丙组简文编为第三组,发表时命名为《病方及其他》。可见,《日书》并不是原文献的原本面貌,而是经过多次人为归并的,即先根据竹简形态分组,后又根据简文内容重新调整。 分析发现,与其他术数文献相比,《日书》用字的最大差异,就是其表示干支名的单字使用频率低,如“乙、己”等字的字次仅为2次。经统计,这些表示干支名的单字,在《日书》中的字频排序一般都在100以外,不属于高频字。而在其他的术数文献中,表示干支名的单字使用频率极高,如上述单字“乙、己”,在《睡日甲》中分别出现73次、68次,在《睡日乙》中分别出现43次、45次,在《放日乙》中分别出现58次、54次,均属于有关文献的前100高频字。据此可以推测,《日书》的用字特征之所以会偏离术数文献的一般用字特征,很可能与其在整理时受到人为干预有关。因此,该文献的整理可能还需继续完善。 (三)秦简地图文献的用字相关性 统计结果显示,《地图》与成分3的相关性较强,相关系数为0.39。其余秦简与成分3的相关性不显著。图1中《地图》主要对应在成分3的较高系数上,其坐标也偏离了其他秦简。这表明,该秦简表现出自身用字的相关性,而与其他19种秦简用字存在较明显的差异。作为秦简中唯一的地图文献,《地图》的用字相关性主要是受到了地图标注内容的影响。 与非地图秦简相比,《地图》的差异主要体现在表示地名及地理词语的内容上。例如,在《地图》的前20高频字中,“谷、溪、口、堂”是表示地名的通名,“上、下、中、阳”表示方位,“里”表示长度单位,它们的覆盖率达到53.49%。而在非地图秦简文献中,这些单字的使用频率很低,有的甚至没有使用。可见,《地图》的用字集中地反映了地名及相关地理词语等热点内容,而其他19种秦简的用字没有集中反映这些内容,所以该种秦简才表现出自身的用字相关性,以及区别于其他秦简的用字特征。 (四)秦简编年史书的用字相关性 统计结果还显示,《编年》与成分4的相关性显著相关,相关系数为0.72,其在图1中的坐标也偏离了其他秦简。其余秦简与成分4的相关性不显著。这表明,该种秦简也只表现出自身用字的相关性,而与其他19种秦简用字存在差异。秦简中只有《编年》属于编年史书,显然其用字特征受到了编年史内容的影响。 《编年》逐年记述了秦昭王元年(前306)到秦始皇三十年(前217),秦统一全国战争过程中的大事。与另外19种秦简相比,《编年》的用字差异主要体现在编年体记事上。例如,在《编年》的前20高频字中,“王”表示君主称号,“年、月、一、二、三、四、五、六、七、八、九、十、廿、卅、卌”表示编年日期,“攻、死”表示战争活动,“安、阳”表示事件地点,它们的覆盖率达到63.65%。而在非编年史类秦简文献中,这些单字的使用频率较低。经统计,“王、攻、四、六、八、九、廿、卅、卌”在其他19种秦简中均属于使用频率较低的单字;“年、月、一、二、三、五、七、十、死”只分别属于某一种或少量几种秦简的前20高频字,如“年”只属于《丹记》的前20高频字,“十”只属于《放日乙》《睡日甲》的前20高频字,而在其他秦简中此二字则属于使用频率较低的单字。可见,《编年》的用字集中地反映了君主称号、编年日期、大事记等热点内容,其他19种秦简的用字则没有集中反映这些内容,故该种秦简才表现出自身的用字相关性,以及区别于其他秦简的用字特征。 综上可知,20种秦简的字频分布密切关联,呈现出普遍的用字相关性。同时,由于受到特殊内容的影响,秦简术数文献、地图文献、编年史书的用字呈现出各自的相关性,与其他秦简的用字存在较明显的差异。 以往不少研究都会谈到文献内容对用字的影响,这本来没有错,但存在缺憾,即先假设文献内容对用字具有影响,再通过举例来论证。本文在没有任何假设的情况下,先对20种秦简文献的字次分布进行主成分分析,将秦简用字的影响因素形成数据化的综合指标,即主成分1、2、3、4,再结合文献背景对综合指标进行解释,从而更客观地证实了文献内容对秦简用字的具体影响。 除了能够反映特定文献类型的用字特点,用字相关性还在一定程度上反映了秦简的语料性质,为确定具有秦代语言文字特征的断代语料提供参考。本文的统计结果显示,秦简术数文献、地图文献及编年史书内部的用字相关性非常明显,其各自反映的内容热点过于特殊和集中,因而其用字特征均偏离了秦简文献的一般用字特征。基于这一认识,在开展汉语汉字的发展史研究时,如果要选取能够真正反映具备秦代属性的断代语言文字材料,至少应将秦简术数文献、地图文献及编年史书排除在主要语料之外,也就是说,此三类秦简文献只能作为反映秦代语言文字特征的辅助语料。而其他类型的秦简文献——法律文献《十八种》《效律》《杂抄》《答问》《龙岗》、文书文献《语书》《封诊》《为吏》《秦牍》、文学文献《丹记》,以及以医学文献为主的《病方》,它们所反映的内容热点并不如以上三类文献特殊和集中,其用字特征基本符合秦简文献的一般用字特征,因而不影响它们作为真实反映秦代语言文字特征的主要语料。 此外,本文通过主成分分析得出的综合指标,还可继续挖掘其价值。例如,可为构拟秦代的总体用字特征提供参考。成分1是2182个单字在全部秦简中的字次分布经过数据化测量的综合指标,与各种秦简均有关联,故可将其视为秦简用字的一般特征,在继续补充更多秦简新材料的基础上,必然越来越接近秦简用字的总体特征。又如,可为构拟秦代文献的分类用字特征提供参考。部分秦简分别与成分2、3、4存在显著关联,表明这些文献的用字均表现出较明显的内部相关性,故可将成分2、3、4分别拟作各类特殊秦简的用字特征,即秦代术数文献、地理文献、编年史书的用字特征。再如,可为深入认识相关文献提供新思路。根据各类文献的用字特征,可以推测出偏离同类文献用字特征的“另类”文献。这些“另类”文献,在内容、版本、整理等方面,都可能与同类文献存在差异。如上文成分2中,《日书》就偏离了术数文献的一般用字特征。经过分析,偏离的原因可能是整理过程受到过多人为干预。这就为相关文献的科学整理和深入研究提供了新的思路。 ①冯志伟:《现代汉字和计算机》,北京大学出版社,1989年,第109页。 ②张再兴:《从字频看西周金文文字系统的特点》,《语言研究》2004年第1期。 ③刘志基:《战国出土文献字频的初步研究》,《中国文字研究》第十一辑,大象出版社,2008年;《字频视角的古文字“四书”分布发展研究》,《古汉语研究》2009年第4期;《西周金文字频特点成因初探》,《语言科学》2010年第1期;《简论甲骨文字频的两端集中现象》,《语言研究》2010年第4期;《先秦出土文献字频状况的古文字研究认识价值》,《中国文字研究》第十八辑,上海书店出版社,2013年;《先秦出土文献语料类型分析刍议——以〈包山楚简〉与〈郭店楚简〉为例》,《语文研究》2015年第4期。 ④姜慧、张再兴:《秦简牍文献用字习惯计量研究》,《语言研究》2017年第4期。 ⑤倪娅岚:《〈睡虎地秦简〉用字频度研究》,硕士学位论文,西南大学,2013年;马芳:《岳麓书院藏秦简(壹、贰)整理与研究》,硕士学位论文,华东师范大学,2013年。 ⑥覃勤:《先秦古籍字频分析》,《语言研究》2005年第4期。 ⑦由于部分秦简尚未完全刊布,只刊布了部分图版及释文,故本文未将其作为研究材料。 ⑧参见张显成:《秦简逐字索引》,四川大学出版社,2014年;张显成:《秦汉简牍系列字形谱》,中华书局(即将出版)。 ⑨SPSS是目前主流的统计分析软件,具有界面友好、操作简单、功能强大等特点,可以非常便捷地实现主成分分析。 ⑩因篇幅所限,表4只列出部分数据以供参考,表中“……”为省略的字频数据。表4中的字频数据,亦可通过《秦简逐字索引》进行验证。 (11)湖北省荆州市周梁玉桥遗址博物馆:《关沮秦汉墓简牍》,中华书局,2001年,第155页。 (责任编辑:admin) |
- 上一篇:敦煌马圈湾汉简通假字系统量化研究
- 下一篇:中国民族古文字的文字学意义