语料库语言学视角下的台湾汉字简化研究(2)
http://www.newdu.com 2024/11/28 05:11:19 《北京大学学报(自然科学 王博立 史晓东 陈 参加讨论
由于政治上的对立和分隔,海峡两岸的文化交流在20世纪80年代之前几乎完全停滞,致使两岸在语言文字的使用习惯上形成一定的差异,表现在字音、拼读系统、标点符号、书写系统、词汇、语法以及中文排写等多个方面,其中以书写系统的差异最为明显。两岸书写系统的差异常被概括为汉字字形上简体字与繁体字(或台湾所言“正体字”)的差异。但本研究发现,实际上两岸在字形方面的差异十分复杂,台湾亦存在汉字字形简化的现象。我们收集了大规模的台湾语料,建立台湾汉语语料库,借助该语料库,采用定性与定量相结合的研究方法,研究台湾的汉字简化现象及其影响因素。 1 相关概念界定 本节对研究台湾汉字所涉及的简体字、繁体字、俗字、汉字简化等概念做出界定,以便下文的讨论。 1) 简体字:指大陆推行《简化字总表》后的中文书写系统。 2) 繁体字:与“简体字”相对,指由历史上流传下来,目前仍在台湾、香港等地广泛使用的传统汉字1。 3) 俗字:亦称“俗体字”“俗写”“简写字”“手写简笔字”“手头字”“破体字”“小写”等等,指流行于民间,有别于官方认定的“正体字”的另一种字体[1],可以认为俗字是在民间约定俗成、广泛使用的异体字,且通常具有较简单的字形。由于俗字的这两个特点,在汉字简化过程中,往往采用俗字作为简体字形,是大陆简体字的重要来源。台湾“教育部”于1979年公布《标准行书范本》,梳理了台湾民众习惯使用的简笔俗字。 4) 汉字简化:指在汉字的实际使用中,逐渐以笔画较简的字代替笔画较繁的字,即在整个社会范围内,一部分繁体字的使用频率逐渐降低,而与之对应的笔画较简的字使用频率逐渐提高。 2 语料库建设 我们从互联网收集、爬取,并加以整理,得到一个规模为17亿字的台湾汉语语料库。目前该语料库已经在互联网公开2,并且规模仍然在不断扩充。如表1所示,依据来源将该语料库划分为8个子语料库,语料内容涵盖政府公文、新闻和博客3种不同类型的文本,语料的时间跨度为1991年至2014年。本研究主要使用发布时间早于2013年12月31日的语料。 值得注意的是,语料中夹杂着少数用字错误:一些媒体或博主发布的内容系原始简体文本经低质量的简繁自动转换系统转换后得到;在博客语料中甚至存在一定数量的大陆简体文本。 (责任编辑:admin) |