基于《中国语言生活状况报告》的字与词对比研究(2)
http://www.newdu.com 2024/11/30 08:11:22 《北华大学学报(社会科学 郭曙纶 马玄思 李 参加讨论
一、引 论 近年来,有关字本位和词本位的争论一直在进行着,人们从各种不同角度来阐述各自的立场和观点。我们也曾讨论过类似的问题。在《对外汉语书面词汇教学要从汉字抓起》一文中我们曾提出,“汉语词大多数可以见字知义,汉语字比词的使用效率更高”[1]; 在之后的研究中,我们“发现现代汉语常用字比常用词具有数量更少、更具操作性、更方便教学等优点”[2]。本文拟在大规模语料库数据的支持下,相对客观地讨论一下现代汉语中字与词的使用状况。 二、基于语料库的字与词使用数据的对比与分析 我们选择了近年来较有影响的《中国语言生活状况报告》(2005-2011年7个年度)中的数据来进行对比分析。[3-9]《中国语言生活状况报告》(以下简称“绿皮书”),是对各年度国家语言生活的若干方面所作实态调查报告,是个庞大的动态数据库。充分利用其丰富详实的数据,对其成果进行再度开发,有利于我们对国家语言生活的全面了解和深度把握,同时,还会为新的研究提供方向上的引导和数据上的支持。绿皮书每年都会发布年度媒体用字用语调查,其语料库规模超大,除了2005年外,其他年份都稳定在10亿字以上,因此,其数据具有较好的代表性。本文的数据基本上是来自这7年的媒体用字用语的统计分析结果。 1.绿皮书中高频字与高频词的覆盖率对比与分析 高频字词的覆盖率是考察字词使用状况的一个常用数据。这里以2005-2011年7个年度的绿皮书中的相关数据为基础,来考察高频字与高频词在实际文本中的覆盖率。 表1的数据表明,10%左右(950个上下)的高频汉字覆盖了文本的90%,25%左右(2350个左右,个别年份达到了2431个)的高频汉字覆盖了文本的99%。这些数据清楚地说明:高频汉字的使用效率非常高,只要掌握了高频汉字,就能认识文本中绝大多数的汉字。高频汉字以覆盖率90%作为标准的话,只有不到1000个字,以覆盖率99%作为标准的话,也不超过2500字。2500个汉字基本上是我国小学语文教学要求小学生掌握的汉字总量。 由此,高频字的使用规律可以简单总结为:高频字比例(相对量)较高(覆盖率90%时基本上在10%以内,99%时基本上在25%以内),数量(绝对量)较小(覆盖率90%时基本上在1000字以内,99%时基本上在2400字以内)。 (责任编辑:admin) |
- 上一篇:介词标记“连”的构句机制及情景语义研究
- 下一篇:三位一体字标注的汉语词法分析