九十年代汉语词汇地域分布的定量研究[1]
0.导言汤志祥 0.1 二十世纪八、九十年代是华人社会(涵盖中国大陆、台湾、香港等地区) 在政治、经济、文化、生活等各方面都飞速发展变化的时期。这世纪之交的最后十来年间, 在这个也叫着“汉语文化圈”地域中,凡是可以觉察到的时代演进的每一步伐和各自社会的点滴变化都充分反映在通行的汉语 — 这一“信息载体”上。 而语言的“四大要素” — 语音、词汇、句法、语义中,唯有词汇和语义具备了折射时代以及反映社会的功能。这两者都是一个“动态”的体系。它们一直是处于一种与社会同步发展变化的状态之中。从这一点出发,可以说,研究一种语言的词汇及其变化是研究考察这个社会变迁的重要方面。反之,研究一个社会也可以从词汇及语义的角度出发,去寻找确凿的印证。 由于历史的原因,长期以来华人社会有所谓的“两岸三地”[2]之说。这“两岸三地”所使用的语言是“同源、同体”的民族共同语 — 汉语。但又具有各自不同的地域特点。因此今天研究汉语词汇,应该具有更高的“视点”和更广的“视野” 。 0.2 当代汉语词汇研究应当具有以下五方面的特质: (1)广泛的地域分布: 涵盖中国大陆、台湾、港澳等地区; (2) 崭新的时期分段: 截取二十世纪八九十年代的时段; (3) 坚实的语料基础: 运用中大型的精语料库; (4) 客观的分析方法: 从定量到定性的分析过程; (5) 现代化的研究手段: 电脑检索、统计和分析。 0.3 前后历时六载,于一九九七年六月完成了全部语料录入,词语切分,并具备了各项基本检索功能的中型当代汉语语料库 — 香港理工大学的《中港台汉语词库》(原暂名,以下简称《汉库》)[3]基本具备了以上五方面特质。其基本情况和数据如下: 建库单位: 香港理工大学中文及双语学系 建库时间: 1991年—1997年 语库容量: 6,100,194个符号 汉字: 5,139,920个 (+ 960,274个非汉语符号) 词条[4]: 60,811个 (汉语) 6,373个 (英语) 词次: 3,273,760个 (+ 218,528个专名) 收词地域: 大陆、台湾、香港三个区域 语料时段: 1990年 — 1992年 语料来源: 1、大陆: 《人民日报》、《北京晚报》(北京)、《新民晚报》(上海)、《羊城晚报》(广州) 2、台湾: 《中央日报》、《中国时报》、《联合报》 3、香港: 《明报》、《信报》、《成报》 编列方式:词频排序, 普通话和粤语音序索引 编排内容: 1、词序 2、词语 3、汉语拼音 4、粤语拼音 5、词频 6、累计词频(覆盖率) 7、总使用度 8、地域使用度:(1)大陆 (2)台湾 (3)香港 9、学科使用度:(1)政治 (2)民生 / 治安 / 环境(3)财经 (4)体育 (5)文化活动(6)娱乐 (7)读者来信 (8)广告(9)副刊:旅游、影评、述评、小说、人物、艺术、科学、健康等 据悉,这是迄今为止已经完成的语料地域分布涵盖整个汉语文化圈的第一个汉语语料库。 0.4 《汉库》由以地域划分的大陆、台湾、香港三个独立的“分语料库”(以 下简称“京、台、港” [5] )的语料组成,然后再合成一个“整语料库” 。 《汉库》中京、台、港三个分语料库的语料容量数据是:
《中港台汉语词库》中三个分语料库的语料容量(字数)
为此我们可以从横和纵的两个角度,在“整语料库”中统计和分析出整个京、台、港三地的词语共时地域分布状况。从而从定量的考察中得到比较客观的定性结论。 (责任编辑:admin) |