0.引言 军事英汉汉英平行语料库是指为军事服务,内容涉及军事,以英语为源语、汉语为目标语或以汉语为源语、英语为目标语的汉英对译语料。军事英汉汉英平行语料库能够为军事领域的英汉汉英机辅翻译(冯志伟2007;钱多秀2011)、英汉汉英翻译教学和培训(王克非2004;麻丽莉2009)、英语教材编写(赵勇、郑树棠2003;刘敏贤2007)、英汉汉英双语词典编纂(刘庆荣2001;常宝宝2006)、自然语言处理研究(常宝宝、俞士汶2009;卫乃兴等2014)等工作提供丰富真实的军事语料。有效利用军事英汉汉英平行语料库能够大幅度提高工作效率。 当代语料库研究出现于20世纪60年代,其标志是美国Brown语料库的建成和使用。语料库研究快速发展始于20世纪80年代,随着 PC 机性能的提高和普及,语料统计分析不再是一件繁琐的事,普通研究者只要学会在PC机上运行语料库分析工具就有能力从事语料统计分析。另外,从大规模语料分析中获得的数据真实可靠,说服力强,并且能够揭示很多平时观察不到的语言现象。网络技术的发展为语料的获取和共享提供了方便,同时还为语料库研究者提供了更多语料处理工具,从而进一步促进了围绕语料库所进行的各种研究和应用。现在,语料库语言学已涉及语言学的各个领域,而且已经影响到其他社会科学问题的探索。(卫乃兴等2014:1) 语料库也广泛应用于自然语言处理领域。平行语料库,尤其是句子对齐的平行语料库已经成为全自动机器翻译、跨语言信息检索、语义消歧等自然语言处理应用的重要基础。国内一些科研院所和商业公司,不但基于大规模平行语料库建设了多套全自动机器翻译系统,而且还开发出了支持受限领域使用的,甚至是面向通用领域的实时语音通信翻译系统,如中国科学院自动化所的紫冬口译(ZTSpeech)软件(杜金华等2013:4)。 相比其他平行语料库,我国军事领域平行语料库建设数量少,规模小。本文以军事英汉汉英平行语料库建设为例,讨论我国军事领域双语平行语料库建设存在的问题及对策。 1.军事双语平行语料库发展现状 1.1国外军事双语平行语料库发展现状 美国在军事双语或多语平行语料库的建设利用方面进行了多年的研究,并积极把研究成果应用到情报分析、军演和实战中。日本、俄罗斯、欧盟等国家和国际组织在军事语料库研究与开发等方面也投入了大量资金,并取得了显著效果。(梁晓波等2008:53) 美国国防高级研究计划署(DARPA)的GALE计划(Global Autonomous Language Ex-ploitation program)充分利用基于语料库的自然语言处理技术,采集、翻译、分析、应用包括多国语言的语音、文本语料库,实现对海量信息的自动情报提取。GALE的情报提取系统的最终性能指标是以95%的准确率和90%~95%的一致性翻译阿拉伯语和汉语,以达到或超过人的熟练程度抽取和提供关键信息;系统能够以上述准确率和一致性实现多领域情报提取;能够处理非正式语言和口语。(梁晓波等2008:56;Olive et al.2011:1;马晓雷等2014:15)美国棱镜门事件证实像GALE这样的情报提取系统在美国情报界的确大有用武之地。 (责任编辑:admin) |