语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网移动版

首页 > 学术理论 > 语言学 > 语用学 >

语言学理论对自然语言处理的影响和作用(6)


    目前自然语言处理的一个“魔戒”是大数据,数据足够大,深度学习就可以发现其中隐藏的各种规律。但是,数据不仅要大,还要好,也就是低“噪音”的数据。然而,一般来说,“大数据”的前提就是好的数据,为什么还有不好的“大数据”呢?如果,对于自然语言处理来说,“大规模真实文本”就是所需的大数据,那么只要是数量足够大的真实文本就可以奏效了吗?问题是,多大的数量就足够,还有的问题是,何为“真实文本”。实际产生的文本是否就是“真实文本”?互联网上海量字数的文本是否就是“大数据”文本呢?据报道,百度在使用其获取的大量网络文本来训练其翻译系统的时候,还需要对这些语料进行“清洗”,要筛除其中一部分不合格的语料。为什么实际产生的语料会有不合格的语料呢?不合格的语料是否是“真实”的语料呢?
    原来,“真实”也是有相对性的。真实于“言语”,不一定真实于“语言”;真实于“网络语言”,不一定真实于整个语言生活的语言。百度认为“怎么老是你”不是“How old are you”可取的翻译,所以,尽管其在网络语料中出现多次,还不能接受为规范译文。(34)实际上,这里就有一个不自觉的语境意识。百度将其语境限制在“规范”的范围内,所以,这些不规范的译文自然不是“真实文本”了。因此,语境是无所不在的,不管你是否意识到它的存在,你总是受到它的制约。
    对于“普遍语法”来说,任何“自然语言”就是一个语境,在这个语境下,我们有了汉语语法、英语语法等。对于一种语言来说,使用这种语言的每一个不同的社区都是一个不同的语境。因此,将一个特定的语境当做一个通用语境来处理,无异于将某一种自然语言的语法等同于普遍语法。上面提到,一个言语社区的特点包括其独特的语境系统。在没有公共交通服务的社区,就没有“报站”的语境,没有这种语境经验的人就需要学习这种知识,也许一个现代人学习这种语境知识并不难,可以从类似的语境知识来类推。但是,对于一个完全没有语境意识的机器人来说恐怕就没有那么容易。尽管它装备了许多关于“北京”“站”“到”“了”的词汇语义、词汇连接、句法结构、语法语义的知识,检索这些知识及其可能的组合,需要十分复杂的运算,而其运算结果产生的多项语义中也只有一项对应“到站”的语境,而再无从选择。反过来说,如果该机器人只具备语境知识,再配备“北京站”的语音功能恐怕就可以完成任务了。
    然而,特定语境的自然语言处理是一种较低智能的处理。理想的处理是全语境的处理功能。如果我们的计算框架是针对全语境的,我们就需要给它配备言语社区整个语境系统的知识库。如果我们期望深度学习系统去发现语境模型,我们就需要为它提供相应的语境大数据。如果你的语言处理系统是针对特殊语境的,与该语境无关的语料就不是真实的语料,再大的数量也无济于事,或适得其反。如果你获得的语料只是来自部分语境而你的处理目标是全语境,其“大数据”的性质就受到质疑。“大数据”的数据不是指绝对的数量,而是相对而言。不好的数据不是大数据。大数据是对全局有代表性的数据。
    如果百度找到了它需要翻译的英文句子中全部合格的配对中文句子,那它的机器翻译系统就可以很简单,也可以达到百分之百的正确率。但是,它现在实际要翻译的句子不是一个封闭的集合,所以不可能采用上述的做法。虽然不是一个封闭的集合,但从实际的语料中我们也可以找到大量频繁出现的句子。而且,如果限定语境,由于言语社会的规范的作用,其高频率出现的文本几乎近似于一个封闭的集合。所以,直接进行配对的翻译模式,根据不同的应用需求,不仅可以词组配对、句子配对,还可以篇章配对。而且,可以建立一个语用功能配对框架,找到在言语行为、言语事件、交际功能、主题模式、文化功能等多个层次的匹配文本,从而大大提升翻译的质量和系统的工作效率。
    对于无语境语用意识的自然语言处理来说,即使它采用了亿兆字数的数据库,也不一定是正确的大数据模式。举例来说,如果我们把一个人一年内所说的话全部记录下来,进行充分的标注(包括语境标注),再采用先进的机器学习技术来建模,我们可以相当准确地预测他在相似语境中会说的话,这是一个正确的大数据模式。但是,如果用这个数据库来预测另一个人会说什么话,恐怕就会大打折扣。根据社会语言学的理论,其准确率会根据说话人的社会背景、生活经历等方面的差异第次下降,以至于可能低到接近随机的程度。那么,这另一个人往往就是属于一个不同言语社区的说话人。
    如果你依赖一个10亿字的语料库来做面对10亿人的自然语言处理,恐怕不会很成功。因为,一个人一天就可以产生几万字的语料,10亿人就已经几十万亿字,而且一个人一天也不一定经历所有可能的语境。例如,春节这天,几亿人反复说“新年快乐”,并不等于他们每天都这样说。多大的语料库可以概括多大的语言变异范围是一个实证问题,但是已有研究证明,言语社区是一个定性的界限。在一个言语社区内,有的语境需要僵化的语体、有限的句式、许多固定的话语片段,甚至固定的篇章格式。针对这些语境的自然语言处理基本可以采用受限语言的处理模式。有些语境具有社会规范性质,在面对这些语境时,自然语言处理面可以采取规范推荐模式。有些语境互动性强,有些语境客观性强,现有的不同技术都可以有针对地采用,以适应其特点。总之,自然语言处理的计算框架应该优先考虑语境区分,通用的处理需要具备语境识别功能并进入分语境的处理。 (责任编辑:admin)