语言文学网-学术论文、书评、读后感、读书笔记、读书名言、读书文摘!

语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网

当前位置: 首页 > 学术理论 > 文艺理论 >

文学经典的大数据分析与文化增殖(2)

http://www.newdu.com 2018-10-08 《浙江社会科学》 傅守祥 参加讨论

    二、文学经典的大数据分析与“小阅读”体验
    通过相关报道而得知,利用数据库可以更好地研究和传播古老手稿和经典文本,数字化能够使人类更接近经典(15)。大数据通过事物的整体数据化,实现了定性定量的综合集成,使外国文学经典研究等类人文社会科学曾经难于数据化的领域像自然科学那般走向了定量研究,譬如文学经典创作中的言语倾向、褒贬风格、词语使用以及文学经典接受中的受众类型、阅读方式、接受态度和全媒体增殖延展等。随着大数据、云计算、图像检索等技术的发展,外国文学经典信息化的重点应当由数据检索向数据分析、数据挖掘转型;在图像处理领域,针对疑难文字的OCR技术与利于版本校勘的图像检索,都是值得期待的方向。
    使用电脑算法来分析外国文学经典文本不是让电脑复制人脑的功能或者更大规模地完成人脑擅长的任务。人脑和电脑在阅读文本的时候所用的方法和关注的重点不一样,读出来的东西也可能截然不同。不过人脑和电脑在阅读阐释文学的时候也往往可以互为体用,互补短长,外国文学经典的“大数据分析”和学者个人的“小阅读”之间存在着许多交融与合作的可能。正因为如此,借助电脑进行文本分析是近年来不断升温的“数字人文”(16)(digital humanities)的一个重要分支。不能说它已经全然被文学研究界的主流所接受,但是人们原先持有的误解和怀疑正在慢慢消散。
    人脑在阅读小说或诗歌的时候,不太会注意冠词、介词、代词等与“意义”并无直接联系的词,即便注意到了,也很少能够记住他们出现的方式或频率,更不要说理解它们在文学作品的语言结构中所起的作用了。人脑在进行文体分析(即文笔风格)的时候力量是很微弱的。因此,语言学学者早就已经运用电脑来研究这些封闭类词语(closed class words)。借助计算机的研究方法在语言学中逐渐壮大,从而成为了一个独立分支,即语料库语言学。近年来,语料库语言学已经逐渐成为一种能够为其它学科服务的工具;利用语料库技术来进行文体分析,这就是语料库文体分析(corpus stylistic)。
    用电脑进行文体分析让我们有可能回答一连串与文学史休戚相关的问题,也能启发一些新型问题。这样的电脑甄别法确实有一些很实际的用途,譬如说对大量已经电子化但尚未进行人工处理的文本进行分类,也可以运用于对疑似假托或作者身份不明的作品进行鉴定,根据其文体特征判别其真实作者。用电脑分析文本的形式特征还给了我们一个更深层次的启示。文学研究的一个基本任务就是描绘和解释文学形式的变迁,而一般研究者在解释文学形式变化的时候大多无法证明自己的观点,只能按照研究者本人有限阅读量做出印象性判断,所依据的信息也多是“情节”和意象等人脑比较容易识别的信息。应用大数据分析可以给自己的假设提供系统的数据支持,也可以通过电脑把注意力放在人脑难以追踪的语言元素,包括介词、冠词、标点符号等。
    文学研究的另一个基本任务就是判定“影响”,即文学史上特定作品的影响力,解决这个问题也可以借助电脑操作的文本形式分析。目前的方法是判别不同文本之间的相似度,由此断定一部作品到底与后世的哪些作品具有比较显著的形式重合。加拿大麦吉尔大学学者Andrew Piper正着手统计歌德的《少年维特的烦恼》中出现的文体特征(比如说作品中出现的比较独特的辞藻),再利用现成的电子文学数据库(如Hathi Ttrust)用相关算法测量出数据库中同时代的欧洲小说和歌德作品在形式上的相似度,以此来考察精细阅读所无法勾勒的“散落”的文学影响。因为牵涉到的文体特征可能有几十个,计算同时代文本和歌德诗歌的距离就意味着想象一个几十维的空间,而这些不同的文本在这个空间中的距离也就只能通过电脑来测量并转化成人脑能够理解的图像了。(17)
    用电脑来分析“影响”问题不仅是为了追求更高的精确度,更是基于一种对“影响”的非人文主义理解。一般的人文主义者,如哈罗德·布鲁姆,认为虽然“影响”是发生在两个文本之间的过程,作者或诗人只是这种影响过程发生的媒介,但作为媒介的作者主观上也感受到了这种影响,经常会使用防御和否定的对策遮盖自己的文学渊源,而大数据分析所认为的影响与作者的主观感受全无关系。一个文本中大多数形式特征并不是作家有意识的选择,而是由文化无意识所决定,文学形式的传承和演变遵循着任何个体都无法控制的路径,即使是天才作家的传世经典也建筑在大量重复现成语料和语言规范的基础上。也就是说,虽然人脑并不是机器,但与机器有着相似的特点,两者都会很机械地模仿固有的语用习惯,而一个语言文学共同体也会在社会历史因素的影响下有规律地改变这些习惯。这些习惯也就是所谓的文化“模因”,即文化的基本单元。
    由此可见,大数据分析这个概念所包含的不仅是一套技术手段,还有一种与传统人文精神相抵牾的文学生成理论。也可以说,大数据分析和小阅读代表了两种不同的文学史观,用不同的方法来证明各自的观点,构筑各自的文学史。归根结底,大数据分析和小阅读都是阅读体验,只不过一个是电脑的,一个是人脑的;它们得出的结论也在不同层面上触摸到了关于文学的一些“真理”,但这里的真理只能是相对的。
    当然,电脑与人脑之间、大数据分析和小阅读之间并非绝对的“各执己见”。大数据分析并不能完全支配外国文学经典研究,外国文学经典中所包含的创作和阅读活动经常不能被完全数据化,同时数据本身的提取就具有价值倾向和审美需求差异;要在强化技术重要性的积累上,更加突出人文因素对技术选择的导向作用,从手段转向意义。大数据进入外国文学经典,只能对其将来会怎样进行预测,但不能单方面对其本身的终极意义进行追问。从最深层次来说,小阅读中包含的思维方式和问题意识是“大数据”分析的重要导向。换句话说,用电脑来进行数据处理经常需要研究者“告诉”它们如何进行分类。电脑需要研究者来“引导”,同时也给研究者带来许多新的便利和发现。这就说明在文学研究中如果能把数据分析与小阅读结合起来,可以让好的研究者如虎添翼。
    文学研究长期以来注重经典和对个别作品的解读,而从统计学角度来说,经典就是“逸事”——小概率或随机事件的同义词。小概率事件或许是最有意义的事件,但只有在一个广阔的背景中才能看到它们的意义。研究者在各自的书斋里进行“小阅读”是永远不会过时的。用电脑进行大数据分析可以帮我们发现某一个体裁(譬如19世纪小说)普遍的形式特征,但被人们公认的“好”文学区别于“普通”文学的最关键因素并不在这些特征里面,也正是这些难以捕捉的小因素才是文学阐释的核心焦点。每个阐释者对“好”文学的认识都不一样,他们的判断如何决定一个文本在历史中的地位和持久力也因事而异。好的文学为什么“好”,凭什么得以传播?取决于什么审美特点,什么样的阅读习惯、文化环境和文学评价机制?这是文学研究的一个终极问题,需要把文本数据分析、个人化的文学阐释和历史性思索结合起来,才有望发现一些有价值的研究路径,更重要的是它开辟了更多带我们离开当前结论的道路。为了打造新的文学史和新的文学价值理论,职业阅读者必须学会让电脑为人脑所用,学会发现人脑中本来就蕴含的电脑程序。(18)
    斯坦福大学文学实验室的创办人佛朗哥·莫雷蒂(19)(Franco Moretti,1961-)认为,过去对文学经典的研究是随意而不成体系的,文学研究已经成为所有人文学科中“最落后的领域”,他决意借助大数据分析改变人们一直以来谈论文学的方式。美国小说家乔纳森·弗兰岑(Jonathan Franzen,1959-)(20)指出:“经典只有那么几部,而一代又一代人都在努力从中解说出新的来。所以,谈论普鲁斯特如何伟大总是用那些方式……使用新的技术,把文学作为一个整体看待,要比专注于复杂和特出的单个作品,更会是将来文化批评的一个方向。甚至,新技术可能是文学经典的解放者,让经典们回到当时被写作的那个语境里让人阅读。”(21)
     (责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
评论
批评
访谈
名家与书
读书指南
文艺
文坛轶事
文化万象
学术理论