基于《中国语言生活状况报告》的字与词对比研究(4)
http://www.newdu.com 2024/11/30 08:11:59 《北华大学学报(社会科学 郭曙纶 马玄思 李 参加讨论
表4数据表明,除了2005年由于总词种数较少,共用词、部分共用词和独用词三者占总词种数的比例分别为20%、30%和50%。后4年,33万多共用词,其占各年度总词种数比例居于14.07%-16.34%之间,4年平均值为14.84%。部分共用词数量在66万多到76万多之间,4年平均为72万多,各年度部分共用词词种数占当年总词种数的比例在30.92%-33.74%之间,4年的平均值为32.62%。独用词数量在103万多到129万多之间,4年平均为117万多,各年度独用词词种数占当年总词种数的比例在51.01%-55.01%之间,4年平均为52.53%。这说明5年共用词数量不到总词种数的15%,即使加上部分共用词,也不到48%,还没有一半,而独用词则超过一半,超过52%。所以,可以说5年中共用词只占很少的一部分,所有使用的词语变化是比较大的。这跟前面汉字的情况很不一样:5年共用字占三分之二以上,加上部分共用字,则占到93%以上,独用字则只占百分之五六。也就是说,5年中所有使用的汉字变化很小,而词语变化则较大。前者独用部分只占百分之五六,而后者独用部分则占一半以上。 三、基于语料库的高频词使用次数的统计分析 另外我们还计算了高频词的平均使用次数及不同音节词的覆盖率。根据计算,2010年25546个高频词的平均词长为1.58。其中单音词共2760个,其累计频率即对整个语料的覆盖率为42.61%;双音词共18322个,其覆盖率为45.45%;多音词(3-8音节)共4464个,其覆盖率为3.20%。2011年26023个高频词的平均词长为1.59。其中单音词共2757个,其累计频率即对整个语料的覆盖率为41.69%;双音词共18558个,其覆盖率为46.24%;多音词(3-8音节)共4708个,其覆盖率为3.34%。比较一下,可以发现,2011年的数据与2010年的数据非常相似。从这些数据中可以看出,双音词的覆盖率基本上占了一半,而单音词也几乎占了一半,超过两个音节的多音词只占很低的比例。单音词虽然词种数量不多,可是它们的平均使用次数却非常高,是高频词平均使用次数的4倍多,远高于双音词和多音词。具体数据详见表5。 四、结 论 本文根据2005-2011年7个年度的《中国语言生活状况报告》相关数据,经过对比统计、分析后发现: 1.高频字比例(相对量)较高(覆盖率为90%时基本上在10%以内,为99%时基本上在25%以内),数量(绝对量)较小(覆盖率为90%时基本上在1000字以内,为99%时基本上在2400字以内),简言之“高频字比例较高,数量较小”。 2.高频词比例(相对量)很低(覆盖率为90%时基本上在0.70%以内,为99%时基本上在9%以内),数量(绝对量)很大(覆盖率为90%时基本上在13000左右,为99%时基本上在180000左右),简言之“高频词比例很低,数量很大”。 3.不同年份之间共用字已经占了三分之二以上,加上部分共用字,则已经占到93%以上,有的甚至已经达到98%以上,即不同年份使用的汉字变化很小。 4.不同年份之间共用词不到15%,即使加上部分共用词,也不到48%,还没有一半,而独用词则超过一半,达到52%多,即不同年份使用的词语变化较大。 5.高频词中单音词的平均使用次数远高于多音词。 因此从汉语的使用来看,字比词的使用效率要高;为了适应汉语使用的需要,在汉语教学中,强调字的教学会比词的教学更有效率。 (责任编辑:admin) |
- 上一篇:介词标记“连”的构句机制及情景语义研究
- 下一篇:三位一体字标注的汉语词法分析