大数据:提出一个重要话题 《大数据》,涂子沛著,广西师范大学出版社2012年7月出版 涂子沛的新著《大数据》,已经完成,是一部300多页的大作。最近他将这本书的打样稿送来给我看,并且要求我作序文。可惜的是,我将要远行,而他索序甚急,我只能在浏览一遍之后,发抒自己一些感想。至于细细咀嚼和消化这本有趣作品的内容,必须要在一两个月以后,也就赶不上涂子沛大作的出版时间。我事先声明,这些只是我浏览他大作以后的一些感想,非常立即的直觉,也一时谈不上深刻的见解。 这本书的内容,强调今天是一个大量数据公开于大众的时代。自从资讯革命以来,资讯工具、硬件、软件,平行发展,与时俱进。数据在我们生活之中,日常接触,已是处处可见的现象。收集数据,当然是靠电脑的快速分类和记录,然而更重要的是搜索引擎的进步,与网络之间网际的交流。到今天,一个一个网,不但可以串联在一起,互相沟通,而且“云端(云计算)”的设计,可以将每一个地区个别数据,储成一个大的数据库,有助于我们更迅速广泛地搜索。 这些20世纪最后四分之一时间以来已经呈现加速度发展的新事物,在21世纪进展速度之快,更是铺天盖地、无所不在。涂子沛在这本书里强调:不仅数据经过管理而大量地存在,而且,在现代的国家,开放的社会与政府之间,经由数据,彼此一目了然、无所隐瞒。掌握公权力的政府,跟任何其他政府一样,有压倒社会的庞大力量,因为他们手上掌握了人生需要的许多数据。不过,这些数据,公民也可以一样取得,使政府所作所为,可以摊开在天地,让我们检验。过去封建专制和集权各种政体,其执政者能压迫老百姓,而老百姓没有办法反制公权力的压迫。涂子沛特别标榜,美国奥巴马接任以后,尽力将数据开放于大众,如此也是拜时代所赐,有如此的机缘,才能将数据公开。 涂子沛引用胡适之先生与黄仁宇先生的话。胡适之说中国人习惯于“差不多”先生,凡事马马虎虎、不求精确。黄仁宇认为,中国不懂得用数字来管理国家。涂子沛引用这两位先生的名言,当然是要彰显传统中国和今天美国之间的巨大差异。不过我必须有所说明:胡适之和黄仁宇的话语,都是“爱之深而责之切”的心态,他们身经当时中国的混乱,激愤而出此感言。 从历史上看,不论中国和西方,任何国家发展到可以有一个复杂文官系统管理以后,没有不依照数据来治国的。人口、资源、土地、财产种种的统计数字,在中国历史上,自从战国时代形成列国的国家体制以后,没有一个朝代不具有一定的数据库;只是以今天的标准来讲,粗糙和细密之间,古今有很多的差别而已。以汉代为例,汉简所显示的家户统计,每一户中的人口,男女老小,以及拥有的资产数目字,都详细统计,而且不论是居延边塞,或是荆州内郡,格式一致。汉简各种家户统计,与唐代西域州府的记录对比,其内容格式也是相当一致的。这种基本的数据,在列朝的会典中,都见到其大概。当然,各个朝代的数据,有做得好的,也有做得差的。大致讲起来,少数民族入主中原建立的朝代,以武装力量强制建立政权,也往往依靠暴力的掠夺,取得他们所需要的资源。一个上轨道的朝代,其数据还是相当完整的。 再看西方历史。希腊时代,我们了解的资料不够。罗马帝国时代,全帝国包含不同的政治单位,并没有一个大一统的文官政府,因此,全国性的资料库似乎不存在。等到中古黑暗时期,国不成国,地方不过是大小封建领主占有领土而已,他们并没有建立详细的资料库。近代以来,列国各自组成完整的主权国家,这些数据也纷纷出现了。 这是以历史上政权掌握数字而言。一家大型的企业,例如,中国清代的票号,如果他们手上没有复杂的数据库,就不能进行汇兑、放款、存款等活动。英国的东印度公司,手上握有丰富的资源,也不能不具有一个相当完整的数据库,否则无以经营这么复杂的开拓业务。 今天的数据时代,我已在前面提过,不仅公司单位都有搜集数据的能力,而且更重要的,有搜寻引擎可以将资料迅速检索,从其中归纳出条理,有助于了解情况。举一个例说,最近我们才看到,数据资料显示,美国百分之一的人口,拥有全国财富百分之四十以上,百分之九十九的人口,拥有全国财富才过半而已。对于许多长期习惯于美国是开放社会的人民,这一组数据显示的现象,几乎可说是理想的破灭,使大家必须检讨:美国真是如此开放吗?还是相对地在逐渐关闭?是不是财富与权力,已经逐渐集中到社会顶端一小撮人的手中?他们以财富作为魔法师的指挥棒,安排了我们的生活、决定了我们的未来。 涂子沛这部书,清楚地叙述了资讯时代对我们生活的影响与社会的控御力。他讨论的范围方方面面,极为广泛。我盼望有了这本书作为起头,还有很多对资讯工具有研究、也有心得的人,参与讨论,让我们更清楚地了解,这个21世纪正在坐长的新的知识工具。为此,我们要对涂子沛致敬与致谢,因为他为华文世界提出一个重要的话题。(此文系《大数据》一书序言,本报有删节) (责任编辑:admin) |