解析互联网背景下语言信息化产业三种方式发展特点和趋势
http://www.newdu.com 2024/11/30 12:11:02 中国社会科学网 张卓晶 参加讨论
原文作者: 郭玉箐,百度公司自然语言处理部高级研究员;徐俊;王海峰,百度公司副总裁。 原文标题: 《走向智能时代的语言信息化产业》 原文出处: 《语言战略研究》2016年第6期(总第6期) 在互联网的大潮下,语言信息化产业迅速发展,产生了网站这一新型信息承载形式,网络上的语言信息资源的特点也呈现出新的变化,与此同时,互联网也带给了我们新的挑战。 网络作为一种新型的信息承载形式,文章通过关键性事件简要讲述了网站发展的历史。网络蕴含的语言信息量巨大,这有待学者进一步以此为语料库进行分析。交互式网站为互联网时代带来新的语言信息,网站的UGC数据分为知识分享数据、博客/微博数据以及社区/论坛数据三类,文章分别解释了三类数据的基本概念做了解释,并重点对博客/微博数据的特点进行了分析。互联网不仅给予了我们机遇,也向我们提出了挑战,这些挑战包括新的语言现象大量涌现以及数据噪声问题,UGC数据的膨胀催化了新语言现象的涌现,新语言现象需要不断更新的自然语言处理技术,这就涉及到词语切分、概念挖掘、用法统计、语言规范等等诸多技术难题的破解;数据噪声问题涉及到互联网数据的不实信息和语言失范现象等,亟待语言信息处理技术对此进行甄别过滤。 在此背景下,如何高效搜索信息成为语言信息化的焦点,文章对传统搜索模式和现代搜索模式进行了阐释。传统搜索模式早期以雅虎为代表,但这种模式难以适应互联网信息爆炸式增长;新一代搜索引擎以谷歌、百度为代表,其模式是基于关键词的全文检索模式,搜索引擎具体工作的过程是自动搜索机器人遍历开放网页,随后搜索引擎保存搜集的信息并“创建索引”,最后用户使用关键词查询,搜索引擎对搜到的信息进行相关性排序并以网页链接的形式返回给用户。文章认为现代搜索引擎具有三大特点,即结果排序更准确、答案显示更直观以及用户引导更高效。 机器翻译也是互联网时代语言信息化的主要方式。文章论述了机器翻译的发展简史和网络时代机器翻译的发展。机器翻译的发展曾经陷入停滞,然而在此之后翻译技术不断发展,各种机器翻译产品不断出现。互联网背景下机器翻译需要解决三大问题,即互联网时代翻译系统计算负荷加重、翻译知识获取困难以及机器翻译对于语义的准确翻译。 文章最后对语言信息处理技术的发展前景进行了分析预测。文章提出,语言信息化技术和产品未来发展方向是人性化和智能化,语言信息处理技术未来更应该关心语言和认知问题,同时应该做到与相关学科相互促进发展,让计算机真正地理解语言。 (中国社会科学网 张卓晶/摘编) (责任编辑:admin) |