语言文学网-学术论文、书评、读后感、读书笔记、读书名言、读书文摘!

语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网

当前位置: 首页 > 学术理论 > 语言学 > 词典学 >

语料库建设与词典编纂(5)

http://www.newdu.com 2017-11-16 《辞书研究》2002年第1期 钱厚生 参加讨论

    地域变体 包括各种地区变体和重要的方言,如英语中的英国英语、美国英语、澳大利亚英语、南非英语等,汉语中的港台地区用语等。这些变体在语料采样中需要妥善考虑。 
    专业语言 包括社会科学、自然科学、工程技术、医疗卫生、服务行业等各方面的专门语言。其语言材料又根据专业化程度高低而有所区别。这些材料在采样时既要考虑门类分布和比例,又要考虑难易程度。 
    语料采样计划很大程度上取决于语料库的用途。语料库根据用途可以分为通用语料库(general corpus)和专门语料库(specialized corpus)。前者旨在反映语言的基本面貌,供编纂普通语文词典使用,各类语料的比例应当保持平衡,不能偏重某一类别。后者用于反映某个专业、年代、地域、体裁、阶层或年龄组等的语言使用情况,供编纂各种专门词典使用。 
    语料库还可以分为主语料库(main corpus)和辅语料库(subcorpus)。主语料库以普通语言材料为采集对象,反映共核语言(core language)的使用情况; 辅语料库则以特殊语言材料为采集对象,反映各种语言变体(language variety)的使用特点。主语料库与辅语料库联合使用,则形成大型综合性语料库;各个辅语料库加以扩充便可成为较大规模的专业语料库。 
    各种语料的采样比例确定之后,大量的工作就是选取具体语言材料(即语篇),输入计算机。其中难度最大的是口语语料入库,需要把口语录音材料逐词转录成电脑文字材料。文字语料入库,早期使用键盘录入或光学字符识别(OCR),相当费时费力。现在电子书籍很多, 囊括古今中外各种题材,入库就方便多了。互联网的普及又给采集最新语言材料带来极大的便利。当然,在语料入库之前,必须慎重考虑版权问题。  (责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
评论
批评
访谈
名家与书
读书指南
文艺
文坛轶事
文化万象
学术理论