大数据时代的自然语言处理 进入信息网络时代之后,语言研究开始从大规模真实文本语料库中来获取语言知识,必须使用统计方法,进一步推动了数学在语言学中的应用。在自然语言处理中,提出了隐马尔可夫模型、最大熵、噪声信道等基于统计的数学模型,统计方法成为机器翻译研究的主流,机器翻译由基于规则到基于统计,统计机器翻译的势头日益强大,一直延续到2007年。 从2007年开始,在大数据、云计算等因素的影响下,自然语言处理在统计方法的基础上又向前跨进了一步,开始采用深度学习的方法,机器翻译、自动问答、信息检索、信息抽取等领域的研究,广泛采用循环神经网络、长短时记忆、卷积神经网络等深度学习的数学方法。深度学习比统计方法更胜一筹,取得了振奋人心的成绩。自然语言处理的研究离开数学几乎寸步难行了。 随着我国自然语言处理研究的进一步发展,越来越多的学者开始关注语言学中的数学方法,数学方法在语言研究中的应用越来越广泛。就是在传统的语言学研究中,也开始采用数学方法,而不再认为使用数学方法来研究语言是一种离经叛道的古怪行为。在语言研究中采用数学方法,现在已经得到了我国语言学界的普遍认同。随着自然语言处理研究的发展,数学已经成为语言学研究的一种最重要的工具。 今天,现代语言学的研究,特别是面向计算机的语言学研究,越来越离不开数学了。我们应当与时俱进,进行更新知识的再学习,更加自觉地把数学方法应用到语言研究中,用数学的逻辑之美来揭示语言的结构之妙,从而推进我国语言研究的现代化和信息化。 (作者:冯志伟,系杭州师范大学特聘教授) (责任编辑:admin) |