语言官能研究的核心问题及其对自然语言处理的启示(2)
http://www.newdu.com 2024/11/28 05:11:07 《外语研究》2015年第1期 程工 杨大然 参加讨论
0.引言 对人类语言的研究是系统研究最古老的分支之一。从古至今,众多 学者以思辨性的方法探索语言的本质。从著名的“柏拉图问题”即为什么人类在较少证据下能够知道的很多,到康德提出 的“天赋图式”概念,再到笛卡尔的“第二实体”及其“创造性”特性的思想,学者们对人类语言的本质问题达成的共识是:人类语言属于一种“物种属性”,唯人类所独有。换句话说,人类区别与动物和计算机的真正标志在于人类能够用语言符号自由地表达思维(乔姆斯基 2006)。此外,语言的特性还体现在习得方面。人类的母语习得具有普遍性、快速性和创造性的特点,即所有儿童都能在相对较短的时间内(即关键期内)借助有限语料获得大致相同的语言能力(程工 1999)。这是其他物种甚至是计算机都无法做到的,虽然计算机的计算能力和记忆能力远强于人类,但无论我们给计算机输入多大的语料库或写入多少条句法规则,按照目前人工智能的水平,都无法达到人类的语言能力,这种差别说明人类的语言具有生理基础。根据生成语法的构想,这种生理基础就是人脑中专门负责语言产出的器官,称为“语言官能”(Faculty of Language),它是人类所共有且特有的一种生物属性,决定了人类与其他物种以及计算机在语言能力上的根本差异。 计算机虽然不具备语言官能,但我们通过计算机进行自然语言信息处理的努力方向还是希望实现人机交互,如让计算机自动回答用自然 语言表述的问题,或 实现机器翻译等。因此迫切需要用自然语言与计算机进行通信,用 自然语言替代程序语言实现人机交互。自然语言信息处理作为人工智能的分支学科,其最终的目标是“通过计算机模拟、重构作为人类智能重要组成部分的语言能力,以符合人类语言直觉的方式理解、生产自然语言的句子”(何卫 2009:88)。该目标的实现不仅需要不断充实和完善语料库,更需要我们对人类语言能力的生理基础,即语言官能的基本特征和运行机制进行深入探究。下面我们首先系统阐述生成语法理论对语言官能研究的一些最新成果,并在此基础上提出其对自然语言信息处理的一些启示。 1.语言官能的基本特征 生成语法理论认为(Chomsky 2001,2004,2008),语言官能作为人类的一种生物特征,与其他生理器官(如听觉、视觉器官等)一样,是人类共有的生物秉性。出生伊始,人类的 语言器官处于一个初始状态S0,它是由遗传因素所决定,好比是人脑中预设的“语言习得程序”,其中包含人类生而有之的语言知识,即所谓的“普遍语法”(Universal Grammar)。普遍语法由两部分组成:首先,它包含一套人类语言所共有的原则;其次,它还包含一套参数,每个参数就好比一个开关,儿童在接触外界语料的过程中,将这些参数设为“开”或“关”的状态,当所有的参数值都设定完毕,儿童习得母语的过程也就结束。从这个意义上讲,某种自然语言(如英语或汉语)的习得过程就是语言官能的初始状态(即普遍语法)中参数值的设定过程。普遍语法的原则和参数模型能够很好地解释儿童语言习得的创造性特点:原则部分是儿童与生俱来的,无需后天习得;语言的习得过程只是参数值的设定过程,语言间的差异也体现在参数值的差异上,因此儿童只要能借助所接触的语料实现所有参数值的设定就完成了母语的习得,这就合理解释了儿童所接触的原始语言数据与其自身语言能力之间的差距,即著名的“柏拉图问题”。 (责任编辑:admin) |