语言文学网-学术论文、书评、读后感、读书笔记、读书名言、读书文摘!

语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网

当前位置: 首页 > 学术理论 > 语言学 > 语言应用 >

军事英汉汉英平行语料库建设存在的问题及对策(6)

http://www.newdu.com 2017-11-16 《解放军外国语学院学报 王岚 严灿勋 参加讨论

    
    为检验大词汇量词典和小词汇量词典对句子对齐结果的影响,我们分别用自建的大词典和取自Champollion原型系统的词典在我们自建的平台上对4个短小独立的平行文本进行了句子对齐处理。自建的大词典由3部不同的大词汇量电子词典合成,英语单词236374个,汉语词义678167个,其中含大量常用单词及词义,也含大量专业术语。相比而言,Champollion 原型系统的词典是个小词典,只包含英语单词4885个,汉语词义41814个,主要含大量常用单词及词义。另外,为了检验自建的句子对齐平台的效果,我们同时用Champollion原型系统基于其原有的词典对上述4个短小独立的平行文本进行了句子对齐处理。所有的句子对齐处理使用了统一的句子边界识别方法。结果见表2。 
    
    从表2数据来看,基于大词典的自建平台句子对齐结果的正确率、召回率和F值最高,后期需要的人工校对工作量最少;基于Champollion的词典时,自建平台比Champollion句子对齐结果略好,但是差异不明显。实验结果证明,基于大词汇量双语词典实现句子对齐处理是军事英汉汉英平行语料库建设的最佳方案。 
    3.3统一军事英汉汉英平行语料库的标记和标注 
    对语料库标记和标注一般都需要根据研究的目的和需要来进行。GALE的语料中有初期的手工标注和后面的机器自动标注。(Olive et al.2011:1)句子对齐的军事英汉汉英平行语料库目前主要服务于机辅翻译、军事英语教学和军事英汉汉英词典编纂,但是将来势必会应用于全自动机器翻译、跨语言信息检索和情报分析。随意标记或标注将给后续语料库的扩建和合作共享带来一系列的麻烦。 
    对军事英汉汉英平行语料库的标记和标注既要满足目前的需要,又要考虑将来语料库的持续扩建和多单位语料库合作共享的可能性。因此,至少每个单位语料库的标记和标注应该尽量统一。军事英汉汉英句子对齐平行语料可以参考北京大学汉英双语语料库标记规范(常宝宝、柏晓静2003),统一以XML可扩展标记语言设置标记,具体的标记工作可以设计一个软件平台实现自动设置标记。 
    4.结语 
    就全自动机器翻译和实时语音翻译等相关技术而言,目前国内有多家科研机构和公司已经实现,但是,还没有看到这类技术在我军情报领域和军事行动中有效应用,究其原因,主要是缺乏高质量的军事领域平行语料库。例如,双语口语平行语料匮乏是语音翻译系统在专业领域效果不佳的首要原因(杜金华等2013:4-5)。军事双语平行语料库的建设和研究应用是这类技术为我军创造战斗力的基础,必须大力发展,否则,这类技术在我军的情报处理和军事活动中可能只是屠龙之技,无法发挥其真实重要的作用。军事英汉汉英平行语料库建设只是众多军事汉外外汉平行语料库建设中的一个方面,其他语种的军事双语平行语料库也需要加速建设、研究和应用。 
    注    释: 
    ①语料1是2009年奥巴马就职演说全文;语料2、3和4分别为全新版《大学英语综合教程3》第一单元A篇、第三单元B篇和第六单元B篇的课文原文及翻译。 
    参考文献(略) 
    (本文参考文献请参阅《解放军外国语学院学报》2015年第38卷第5期)  (责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
评论
批评
访谈
名家与书
读书指南
文艺
文坛轶事
文化万象
学术理论