语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网移动版

首页 > 学术理论 > 语言学 > 语用学 >

语言学理论对自然语言处理的影响和作用(5)


    三、社区语境语用大数据
    如上所述,自然语言处理与大数据的应用紧密相关。人类的语言能力,特别是使用语言的能力主要是在语言实践中获得的。一个成人的语言能力与一个3岁孩子的语言能力的差别基本上体现在使用语言进行各种不同的社会交际的能力上。应用机器学习技术的自然语言处理可以像人一样,通过“经验”而获得一些语言能力。然而,与人不同,机器学习语言,一般面对的是语料,它的“经验”不过是处理语料的过程和结果。人类的语言习得过程同时也是一个社会化的过程,(29)而机器学习语言往往就缺乏这方面的内容。
    人类的语言经验一般是在言语社区中获得。言语社区是规范语言生活的一个框架。目前的自然语言处理,基本上忽略了语言生活、言语社区、交际规范等内容,由此导致了计算框架上的缺失。目前的框架把这些内容基本上归入“百科知识”。但是,自然语言处理专家还没有有效地解决怎样把现有的语言处理框架与“百科知识”结合起来的问题。其实,这里存在着一个“社会语言学”盲区。该盲区即社会生活与语言生活的区分和千变万化的人类生活与有限的言语社区规范的差别。
    语言是社会的粘合剂。人类社会的构成在很大程度上依赖人类的语言能力。谈到语言能力,语言学家都熟悉乔姆斯基提出的“语言能力”的概念,同时也了解其与“普遍语法”的关系。与此同时,我们也可以找到乔氏“语言能力”/“语言表现”一对概念与索绪尔的“语言”/“言语”一对概念之间的联系。相对而言,“语言能力”指关于“语言”的知识;而“语言表现”产出“言语”的实践活动。因此,乔姆斯基将语言学的对象限定为“语法”,可以从索绪尔将语言学的对象定义为“语言”而不是“言语”中找到渊源。
    然而,抽象的“语言”体现在具体的“言语”之中。社会语言学的直接研究对象就是“言语”。(30)目前的自然语言处理已经超越基于语法规则的阶段,开始进入面对大规模真实文本的机器学习阶段。机器学习有其自身的优势,已经开始超越符号学语言模型的局限。但是,社会语言学的研究成果仍然可以对其进一步的发展有所启示。
    社会语言学的研究显示,就像人类社会是一个层级结构,具体体现为不同层次的人类社区一样,人类的“语言世界”也体现为一个个具体的“言语社区”。(31)语言的习得和使用,都是在具体的言语社区中实现。同理,自然语言处理的应用也应该面对具体的言语社区。一个言语社区由一群保持言语互动的说话人组成。而且,一个言语社区与其他言语社区的区别,不仅仅是在其成员的构成上,还在于其言语互动规范的特征上。传统的言语社区往往与语言社区重合。因此,面对特定语言的自然语言处理,原意可能是面对言语社区的。但是,现代社会的发展,言语社区已经与语言社区不再重合;甚至也不再与方言社区重合。所以,即使是面对特定方言的自然处理也不能“自然地”适应一个言语社区的全面需求。如果面对一个机器人产生的文本,我们可以容忍其中类似外语学习者产生的错误,那目前的自然语言处理可以说已经达到能接受的程度了。但是,外语学习者的错误几乎是没有底线的(当然可能有“普遍语法”的底线),所以,自然语言处理的理想目标应该是达到合格言语社区成员的语言能力的标准。而这些能力不仅包括词汇和语法能力,还包括“交际能力”。(32)具体来说,这些能力包括具有社区特征的词汇和语法能力,例如“社区词”(33),“社区语法”等等;尤其重要的是,理解和适应作为社区规范的场合语境,应用适用不同语境的语用策略的能力。
    有关这些内容,语用学的理论和社会语言学的理论都可以应用到自然语言处理建模工作中去。因此,除了现有的语法类参数之外,还可以增加社区参数、语境参数和语用参数。应用这些指标和参数,必然可以进一步解决语义消歧的问题。例如,上述的“报站”语境,可以排除“玩具火车”的语义。
    延伸开来,根据社区的具体需求,自然语言处理的智能标准也可以得到灵活的应用,以提高其收益比。例如,语境明确的应用,类似“报站”,即使是问答服务,其词汇和句式范围也十分有限,其词汇语法库可以相应缩小,甚至可以尝试跳跃语法词汇层次,直接针对最常出现的文本串做出发应。
    语言学成果的应用不一定局限于增加计算框架中的显化知识和特定算法,在机器学习中也可以发挥作用。融合在真实文本中的语境语用特征理论上是可以被深度学习的算法发现的。但是,如果我们训练机器的语料是未加语境标注的语料,必然增加深度学习自行建立语境模型的难度。 (责任编辑:admin)