4. 三点结论 综合以上统计和分析,我们大致可以认定以下三条结论: 1、当代汉语的词语确实存在着地域差异。而“共用词语”无论在数量上(占90 % 以上), 使用频率上(在高频段和中频段),还是在累计频率上(覆盖率达到 95 %) 都占了绝对的优势。 “双区词语” 和“单区词语” 数量上占了不到10 % 的比例,且大都出现在低频段。其覆盖率处在 95 % 至 100 % 的区间里。所以汉语词语的“内部一致性” 还是相当高的。京、台、港三个区域词语的相同之处始终是主流。 2、《汉库》中累计使用覆盖率到达95 % 的词语可以分为如下等级: 《汉库》各级词语的分级界标和实际数量 甲级词 1,200 个, 乙级词 2,500 个, 丙级词 2,500 个, 丁级词 6,500 个。 3、《汉库》中“共用词语” 、“双区词语”和“单区词语”的数量和比例在各词频段级的分布情况如下: “共用词语” 、“双区词语”和“单区词语” 的数量和比例在各词频段级的分布情况 “九十年代汉语词汇地域分布的定量研究” [香港] 陈瑞端 汤志祥
A Quantitative Analysis on the Lexical Distribution in different Chinese Communities in 1990's
论文提要:Chan shui-duen Tang Zhixiang 本研究以香港理工大学《中国大陆、台湾、香港汉语词库》的六百万字语料为基础,通过检索和统计,对九十年代通行于整个汉语·汉文化区域的汉语词汇进行定量分析研究。本文着重考察当代汉语词汇的“共同底层”和三个区域之间的“地域差异” , 从数量特点及其分布角度,对流通于整个汉语区域的“基本词汇集”和仅在各自区域或者其中两个区域之间流通的“子词汇集”作一个初步的定性分析。 Abstract: Based on the Chinese Corpus of The Hongkong Polytechnic University which was completed in June 1997 and contains over 5 million Chinese characters, the paper focuses on the common base of Modern Chinese words in 1990's, as well as their lexical varieties among different Chinese communities( eg.Mainland, Taiwan and Hongkong). The quantitative search by the concordance of the Corpus and its corresponding analysis lead to an objective and qualitative conclusion on the lexical distribution in above-mentioned three regions. 联系地址: 汤志祥: 广东深圳大学文学院中文系 邮编:518060 香港理工大学中文及双语学系 QT 528室 [1] 本论文在收集资料和撰写过程中得到香港理工大学语文教学中心(Chinese learning centre)主任陈瑞端教授(A. Professor Chan Shui-duen)的指导和帮助。特此鸣谢。 [2] “两岸”指“海峡两岸” ,即大陆和台湾。“三地”指大陆、台湾和港澳三个区域。 [3] 这是原香港理工大学中文及双语学系首席教授张日升 ( Chair - Professor Cheung Yat–shing ) 于一九九一年创办的。此处沿用原来的暂名。现任项目负责人为陈瑞端教授 。 [4] 该词库用“已切分单位”指称根据本身研究制定的切分条例的切分出来的语言单位。此处使用通行的术语“词条”和“词次” 。 [5] 有学者建议称之为“京港台汉语词库”或者“陆港台汉语词库” 。此处采用前者。 [6] 这里表示的是所收的一地区的语料量和三区域总的语料量之间的相对比例。后两项同。 [7] 比如辞书《大陆和台湾词语差异辞典》 邱质朴主编,南京大学出版社,1990年 [8] 比如辞书《香港话词典》 吴开斌著,花城出版社,1997年,广州。 《香港话· 普通话词典》 朱永锴著,汉语大词典出版社,1997年,上海 [9] 比如辞书《当代港台用语词典》 朱广祁编著,上海辞书出版社,1994年 [10] 国内学术界存在着一个所谓“港台词语”的术语。这仅是一个以大陆为立足点进行观察的结果。因此实际上还应有“京台词语”和“京港词语”之说。况且,台湾词语和香港词语完全不能够混同一起说,其间既有各自的“区域词语”之分,也有闽、粤方言之分。 [11] 根据《中港台汉语语料库》的切分条例,凡是音节长度超过四个音节的语言单位都要硬性进行切分,所以《中港台汉语语料库》并没有五音节或以上词长的词语。下同。 [12] 《汉库》里外语字母看成为一个音节的单位。故“卡拉OK”算作“四音节词语”。 [13] 现在例举的是九十年代前期的情况。不包括在过往的时间里因三个区域的人员的交往而引致的词语互相交融和吸收的结果。 [14] 因为粤港两地均通行粤语,而台湾不通行,因此下表中包含有一部分粤语词语。 [15] 所谓“人工干预” ,也叫做“专家干预” 。它指的是:请专家用专业“定性”的办法,根据经验和辅助材料对语料进行人为的人工方法判别,试图纠正因为纯电脑统计中语料数量不足或语料偏差所造成的“误差” 。(参见《汉语水平词汇与汉字等级大纲》13页至15页,国家对外汉语教学领导小组办公室汉语水平考试部编,北京语言学院出版社,1992年6月)。 [16] 北京航空航天大学汉语预料库库量近两千一百五十万。台北中央研究院资讯科学科学研究所中央研究院历史语言研究所新闻语料库库量近一千五百万。而《中港台汉语词库》总库量为五百万。其中每一个区域的分语料库量大约是一百三十多万。这个数量现在看来显然无论从相对量和绝对量来说都是很不足够的。 [17] 将《中港台汉语词库》的高频、中频、低频的分界分别划在3,000 次、300 次和30 次之处,是因为这个词库和其他的单区语词库相比,实际上是一个有三个独立的单区语分词库相加的总词库。按照通行的频率划分法,单区语词库的高频词的频率为 1,000 次,低频词的频率为 5 次。因此,上述画法仅是将这个三区总词库的数值相应扩大了三倍,以便划分标准彼此一致,方便两者之间进行比较、分析。而把每一级再细分为二,是为了将统计做的得更细致、更详尽。 [18] 北京语言学院出版社,1992年6月. [19] 这里是指经过专家“人工干预”后的实际数量。 [20] 此比例引自《现代汉语频率辞典》北京语言学院出版社1986年 ,原文并无。
|