从哲学的角度来看,基于规则的研究方法实质上是一种理性主义方法,而基于统计的研究方法实质上是一种经验主义方法,计算语言学的超学科研究从前者到后者的转变意味着一场史无前例的战略目标转移。当前语料库的建设和语料库语言学的崛起,正是计算语言学战略目标转移的一个重要标志(冯志伟 2011b)。要从语料库中挖掘和获取语言知识,就必须使用来自数学的统计方法和来自计算机科学的大数据处理技术,进行基于统计的超学科研究。 6.大数据环境下计算语言学的超学科研究 任何一个学科本身既有长处与合理性,也有其弱点和局限性,Barnett(1990)曾经提出外部审视的标准,即通过其他学科的原理和方法,在更广阔的情景下审视核心科目。从本质上看,超学科理念有这样一种预设:当代社会的问题和人类问题只能通过整体分析才能解决,而不能人为地分割成局限于学科内部的狭窄研究主题。学科内与学科之间的互涉、交融越来越成为相互补充和促进的动力;学科边界逐渐开放,讲究学科间的交叉与融合,跨越学科边界所形成的整体性和联系性增强。语言学、数学、计算机科学等在各自的领域内都是完整的,在现实应用领域也并非冲突,超学科性强调相互沟通的行动,要求这些学科知识在各研究阶段都有密切及持续的合作,其意义在于提供一个将这些学科结合在一起的世界观。 在历史上很长一段时期中,语言与技术被视为风马牛不相及。事实上,没有技术就没有现代意义所指的语言,因为人类在进化之初只有言语,直到发明了文字的载体才形成包括言语和书面语的语言。时至21世纪,语言及语言学研究已经与现代网络技术密不可分。超学科的理念通过批判性、系统性和整体性的思维,帮助人们构建一种不同知识领域之间相互联系的认识。 上世纪90年代开始至今,大数据环境下的、基于统计的超学科研究以惊人的速度发展着。高性能计算机系统广为应用,为机器学习系统的大规模训练和效能发挥提供了必备的条件。计算语言学研究者与统计机器学习的研究者之间互动更加频繁,统计机器学习成为计算语言学超学科研究的重要内容。同时,在语言数据联盟和其他相关机构的协助下,计算语言学研究者可以获得大规模海量语料,其中包括一些带有句法、语义和语用等不同层次标记的语料,蕴藏着丰富的语言知识。这些带标记的语言资源有效推动了人们使用有监督的机器学习方法来处理那些在传统上非常复杂的自动句法分析和自动语义分析等问题。 (责任编辑:admin) |