汉语教学用话题库及话题分类影视资源库构建(10)
http://www.newdu.com 2024/11/25 02:11:12 《世界汉语教学》2014年第 刘华 方沁 参加讨论
(四)最终,按常用度从低到高排序。 例如,5.1.1中第一个片段的常用度为2.47(平均权重为1.27;长度为16,取对数后为1.2),第二个片段的常用度为2.09(平均权重为1.4;长度为5,取对数为0.69),第二个片段比第一个片段更常用。 6.2 基于词语常用度计算的影视片段常用度排序 6.2.1 词语常用度计算 篇章段落常用度计算的基础是词语常用度计算。我们认为词语的常用度与词语的分布密切相关,这主要表现在时间与空间两条轴上。以词频来描写的话,在一段时期内,时间上,常用词语的词频很少或较少变化;在领域空间(主题)上,常用字词的词频在每一领域空间基本一致。实质上,词语常用度就是词语在时间和空间上均匀分布的程度。 可以采用词语在主题领域的分布均匀性(分布越均匀,越常用)和词语本身的生成能力(生成能力越强,越常用)来模拟词语常用度(时间分布因素暂未考虑进计算公式,只是通过按年历时抽样来平衡语料): 我们用IDF的改进公式IWF×IWF来体现“词语在总语料中越多,分布也应该越广”的规律。但是,这种频率多少并不能完全说明词语在领域中的分布差异性。因此,我们再采用方差除以该词在各类中的频率之和,来表示词语在不同领域之间的分布差异性。方差大小会受到词频大小的影响,方差需要的只是词频之间的差异性表示(陈克利,2003)。 我们已经在构建的超大规模平衡语料库中(1919年至2010年,历时抽样,16大类,23亿字),进行了词语常用度计算和搭配抽取(刘华,2010:95)。由于人工过滤搭配的量太大,因此,抽取搭配后,只是批量删除了互信息值小于3或者 Z值小于2.58(洪荣丰,2009)或者频次低于10的搭配词,并未进行人工过滤。之后,将左右搭配词的频次相加,除以语料库中总的词语频次,即为 Pdi。 词语常用度举例如下(数值越低,常用度越高。前20个): 的(4.76)、在(6.76)、了(8.08)、是(8.28)、一(9.43)、和(10.9)、有(11.2)、也(12.09)、这(12.19)、还(12.5)、与(12.74)、上(12.79)、个(13.18)、一个(13.26)、中(13.7)、多(13.72)、不(14.35)、到(14.43)、为(14.43)、就(14.48)。 6.2.2 影视片段常用度计算 我们认为,影响篇章段落常用度的因素主要有:段落句子数,句子数越多,相对越复杂,越不常用;段落中所有句子常用度的均值;段落中常用度最低句子的常用度。段落常用度可通过这三个因素来综合模拟,第二个因素最为关键。 同理,影响句子常用度的因素主要有:句长;句中所用词语常用度的均值;句中常用度最低词语的常用度。句子常用度也可通过这三个因素来综合模拟,第二个因素最为关键。 句子常用度计算公式如下: (责任编辑:admin) |