语言文学网-学术论文、书评、读后感、读书笔记、读书名言、读书文摘!

语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网

当前位置: 首页 > 学术理论 > 古籍整理 >

合理规划数据库建设与图书资料数字化工作

http://www.newdu.com 2017-10-30 中国文学网 郑永晓 参加讨论

    日前,笔者有幸参加了由我院网络中心和中科院、台湾中研院联合举办的“两岸三院信息技术应用研讨会”,对三院计算机和网络部门多年来的辛勤劳动和丰硕成果深表钦佩。同时也聆听了各研究所在未来几年中有关信息化建设主要是图书文献的数字化和虚拟技术的使用等方面的宏伟规划,在颇受教益的同时,也产生了几点困惑,在此提出来,以就教于方家。
    第一,笔者在会议期间聆听各研究所在陈述其宏大计划时,无不以建设若干个数据库为目标。数量之多,规模之大,令笔者颇感诧异。且不论建立这些数据库需要花费国家多少资金,但从用户角度而言,如果数据库的品种过于繁杂,数量(不是指信息量)过于庞大,则普通用户在查找所需信息时,仍会产生无所适从之感。举例而言,假如某位用户需要查找有关古代思想家庄子的资料,他必须在众多的数据库中先找到所谓庄子的数据库,而不能在一个古代哲学、思想家或者在一个古代历史人物的数据库中找到所需资料,那对用户造成的不便显而易见。假如这位用户还想查找有关人庄子文学成就方面的资料,他又必须去查找文学类的数据库,那就更加耽误时间。数据库的品种和数量越多,则用户在寻找所需数据时就越浪费时间,自然也就违背了建立数据库以方便用户的初衷。事实上,以IT技术发展的日新月异,目前的数据存储技术已完全可以满足超大或者海量数据的存储需要,而把几个或者几十个小型数据库合并成一个较大型的数据库,在技术上并非难事。那么,为什么各单位都争相标榜建设数据库的数量呢?依笔者妄加揣测,答案可能是这样可以多争取经费。每一个数据库都可以单独立项,自然也就可以申请到一笔数量可观的经费。而这与数据库技术发展的宗旨,即是否方便最终用户的使用显然不相吻合。切盼有关部门在审核这类项目时,不以数量的多寡作为划拨经费的依据。在规划这些惠及子孙后代的项目时,应以切实有用、方便易用为原则,而不仅仅是看建立数据库数量的多少。
     第二,关于图书文献数字化的先后顺序。目前国内正在建设中的数字图书馆,包括超星公司在内的一些民营公司,已经积聚了相当庞大的电子书库,可以通过网络浏览阅读。这对于加速图书的流通,传播先进文化,显然大有裨益。会议期间,笔者曾经向与会的一位超星公司的员工询问该公司已经数字化了多少图书,回答是约有四、五十万册,建国以后的图书基本上都可以在超星公司的网站上读到。笔者在对他们深表敬意的同时,也感到一丝悲哀。我无意否认这些机构和公司的功绩,而且每个公司的运作和经营完全是其公司内部的自由,他人无权干涉。只是觉得有限的资金未能花在最急需的地方,或者说某些资金的运用,还可以利用政策引导等方式,去完成更急迫的课题。即以笔者服务的文学所而言,所藏数十万善本和准善本图书,多年来静卧于恶劣的环境中,长期遭受潮湿、霉变之害。我院新馆建成后,部分图书有了新家,图书环境改善幅度之大,为建院以来所罕见。但是,对某些图书而言,由于年代久远,损害严重,实际上已经不再适合使用传统方式供读者阅览,亟需首先把它们数字化,给读者提供一个电子版本,而把原件封存保护起来。但是,文学所限于经费不足,只能先做一个电子版的线装图书目录,而不敢奢望把那几十万册古籍和上个世纪二三十年代的图书制成数字版本。文学所如此,推而广之,历史所、近代史所及其它图书馆古籍的命运也大多如此。反观当代图书,数字化程度却已相当可观。而其数字化的途径,却绝大多数是通过扫描等手段实现的。依笔者看,这就浪费了相当数量的人力物力。因为自上个世纪实现激光照排以来,各出版社实际上在出版纸质书刊以前,都曾产生一个电子版本。然而,多数出版社都不注重保护和再利用这个电子版本,即使现今部分出版社已意识到这个问题,但鉴于经济利益的考虑,也不会轻易把这个电子文本拱手送给制作数字图书的机构。于是,后者只能再按照纸质版本重新扫描录入。这一过程所造成的浪费显而易见。因此笔者呼吁,对于当代和以后出版的图书,国家应制定切实可行的政策,在照顾作者、出版社、数字图书馆等各方利益的前提下,直接利用现有出版资源实现数字化,尽可能节约经费,而把有限的资金投入到亟需保护的古籍和近现代报刊的保护和数字化工作中。
    第三,关于图书数字化和数据库建设中的一些技术标准。毋庸讳言,我国的信息化进程与发达国家相比还处于较为落后的阶段,与隔岸的台湾相比,也有所不及。但正因为如此,我们在建设中就必需力争高起点地快速前进,及时掌握最新技术和标准,力求在较短时间内赶上国际先进水平。笔者在参加两岸三院的会议期间,发现几乎每一个规划或者正在实施中的数据库建设项目都包括文字、音频、视频等多媒体技术,图文并茂,流光溢彩,令人叹赏其技术之先进。但也有少数项目在使用一些濒临淘汰而自以为还十分先进的技术标准,这些技术已经流行达数年之久,而在当今国际IT界技术迅猛发展的的大潮中,早已难觅昔日的光彩。例如,关于视频压缩技术,除民族所谈到使用Real Networks公司的流媒体格式(RM文件)存储视频外,颇有一些机构使用MPEG标准(MPG文件)。这种格式的文件虽然在画面质量方面差强人意,但因体积太过庞大,除了便于制作VCD外,在当今网络传输中鲜有使用者。我们的目的是建设图文并茂的数据库,而数据库是为了让尽可能多的用户查询所需的数据,而这些潜在的用户理应包括远在外省市甚至异域的人们,也即是说,这些数据库若非想要独家使用、孤芳自赏,必然是一种网络数据库,这就涉及网络带宽、传输速度等一系列问题。在可预见的数年之内,即使所有用户都能使用宽带上网,也不会有多少人乐意下载或在联机状态下观赏这类文件。相比之下,微软的Windows Media Video格式 (WMV文件)压缩比例极大而播放效果甚佳,近年来口碑甚好,却未见有人提及。与此相类似的还有存储图像时使用微软的位图格式(Windows Bitmap,即BMP文件),如使用二十四位位图格式,清晰度固然甚好,但其文件体积往往是JPEG格式的数倍之多,而JPEG文件的清晰度用肉眼观察并不比BMP文件逊色。近两年来网络间流行Portable Network Graphics(PNG文件)格式,某些情况下体积与图像质量之性能比又优于JPEG文件。尽可能利用这些最新技术标准,不仅能够极大地节约宝贵的存储空间,也便于用户的使用,同时也有利于缩短与发达国家在技术方面的差距,使得这些数据库在建立之初,就处于一个高起点的领先水平上。做到少花钱,多办事,以推动我国的信息化建设获得良性发展。
    以上所言,或有不妥之处,敬请批评指正。
     (原载《中国社科院院报》2002年8月2日,发表时有删节,此为原稿。)
    原载:《中国社科院院报》2002年8月2日 (责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
评论
批评
访谈
名家与书
读书指南
文艺
文坛轶事
文化万象
学术理论