在大数据环境下的计算语言学研究中,有的学者极力排斥语言学,而有的学者则强调语言学的重要性。美国IBM公司语音研究组的Jelinek就曾在一次自然语言处理评测讨论会上这样评价:“每当一个语言学家离开我们的研究组时,语音识别率就会提高一步”(Jurafsky&Martin 2005)。他贬低了从事超学科研究的语言学家,采取了嗤之以鼻的态度,这是一种错误的倾向。我们认为,计算语言学在相关学科间的融合对于计算语言学的发展具有导向性作用,一旦脱离了多学科融合的研究轨道,计算语言学的研究将会走向歧途。 与Jelinek不同,美国计算语言学家Kenneth Church却主张在采用大数据和统计方法的同时,还应当加强语言学的学习。他在《钟摆摆得太远了》(Church2007)一文中叙述了他的认识发展过程 。上世纪90年代,Church和一些志同道合的青年学者在国际计算语言学学会中创建了一个“数据研究兴趣组”。当时,他们出于实用主义的考虑,没有把自己局限于基于规则方法的传统研究之中,而是采取了以语言数据为基础的经验主义方法,也就是上述的基于统计的超学科方法,选择利用那些可以轻而易举得到的语言数据,率先摘取了那些挂在大树低枝头上唾手可得的果实。发展到如今的大数据时代,他们倡导的这种基于统计的超学科方法取得了很大的成功,甚至成了计算语言学的标准方法和主流方法。这些辉煌的成就在于他们当时大胆采用大数据和基于统计方法来补充基于规则方法的不足。但是Church仍然非常重视语言学知识,他重新审视了那些“大树上挂在高枝上的果实”,要求他的学生认真学习语言学知识,深入研究语言学规律和各种规则,把语言学规则融合到统计方法中去,以问题为出发点,进行名副其实的超学科研究,他认为只有依靠深层的语言学知识才有可能进一步摘取高枝上的果实。 与Church的主张相呼应,计算语言学家Lori Levin在2009年欧洲计算语言学会的专题讨论上指出,语言学已经失去了它应有的位置,在整体上是缺位的!由于在当时的自然语言处理工程中,大家几乎都只关注程序技术或者算法问题,很少去思考自然语言处理工程背后真正的语言学问题,计算语言学事实上已经成了没有语言学支持的语言学科。Levin倡议计算语言学要关注语言学的基础研究,建议在国际计算语言学学会中设置一个语言学专委会。这个建议在计算语言学界引起了热烈的讨论,Wintner(2009)在题为《什么是自然语言工程的科学支撑?》的文章中强烈地呼吁“语言学重新回到计算语言学中”。 (责任编辑:admin) |