语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网移动版

首页 > 学术理论 > 语言学 > 圈外·视野 >

《大辞海》迈向“大数据时代”


    文汇报讯(首席记者许琦敏)下载一个App,或在网上点击鼠标,即可在卷帙浩大的《大辞海》中轻松找到需要的内容,并可链接到丰富的相关词条。今天发布的《大辞海》在线数据库测试版,让原本在图书馆、资料室静待人们查阅的大部辞书,成为人们口袋中随时可用的“知识顾问”。
    数字化《大辞海》的背后,是一个融合了知识图谱、语义分析、深度学习等大数据技术的知识云平台。推动《大辞海》迈入“大数据时代”的一个重要力量,则是上海产业技术研究院搭建的大数据成果转化平台。读者在《大辞海》的平台界面,输入一个词汇,辞典上的释义立刻跳了出来,同时显示的还
    有很多相关词条——这是传统纸质辞书难以企及的。据上海辞书出版社相关项目负责人介绍,数据库的二期工程还可能加入视频、音频、增强现实技术(AR)等内容。
    2012年,上海产研院成立,将大数据作为产学研结合的方向之一,建立起成果转化平台。2013年,在产研院的牵头下,复旦大学、新华传媒、世纪出版集团与上海精灵天下数字技术有限公司成立联合实验室,探索大数据技术在数字出版领域的应用。
    《大辞海》数据库给精灵天下带来了不小的技术挑战:要为5000多万字的内容构建起相互交错的知识网络,让内容可以有机地关联起来,必须要用到知识图谱、语义分析等技术;《大辞海》中有大量需要造字的“外字”,必须让它们可以
    输入,并能够被计算处理……这对一家创业企业来说,研发投入和周期难以承受。而产研院的联合实验室则为它寻找到合适的科研资源,及时突破了瓶颈。
    刚上线的《大辞海》在线数据库仅仅迈出了探索的一小步。据介绍,《大辞海》数字化之后,可能尝试社会化网络编撰,类似维基百科、百度百科的方式。但与后者不同的是,《大辞海》的内容必须坚持专家和出版社编辑层层审核后才发布,以确保内容的权威性和准确性。据悉,联合实验室正在发展机器人编撰、审稿技术,通过深度学习训练,让机器人能够判断出专家的权威性、词条内容的严谨性。 (责任编辑:admin)