专题数据库建设实践 在口头传统数字建档的研究体系中,所谓专题数据库,一般是指针对某一具体文类的资料属性与特点,侧重一定专题的数据内容,开发专业元数据标准,确定数据项,进行数据采集、编码与归档而建成的数据库。需要注意的是,在专题数据库建设实践中,往往会遇到科研人员的需求调研与计算机人员的技术实现双方博弈与磨合的问题,这也应该是专题数据库建设成功与否的关键点。 中国社会科学院民族文学研究所(以下简称民文所)巴莫曲布嫫研究员和郭翠潇助理研究员《定制中国活态史诗数字档案元数据标准——基本原则和挑战》,具体介绍了民文所“中国少数民族口头传统音影图文档案库”的建设与元数据标准研制的进展情况。活态史诗在中国有着相当大的规模和多种类型,创世史诗、迁徙史诗和英雄史诗在许多少数民族中仍以口头方式流传。2011年,民文所启动了“中国少数民族口头传统音影图文档案库”项目,通过建设口头传统数据库,实现保存和管理这些资料。巴莫曲布嫫研究员指出,元数据标准的定制有三个原则:一、基于学科,从科研需求出发;二、在实践中定制标准;三、充分借鉴和使用相关国际国内标准,促进信息共享。郭翠潇助理研究员提出,元数据标准定制过程中遇到的挑战有四,即定制元数据标准如何与资料采集同步实施;如何使元数据项既符合学科的知识架构和元数据标准定制的规范,又能与使用者一般概念相衔接;如何平衡元数据项设定的客观性与学术研究的主观性之间的关系,又该如何把握描述深度;以及如何照顾到学科知识的更新。对于这些挑战,民文所提出了一些自己的解决方案。 台湾“中研院”语言学研究所研究员萧素英《“中研院”的阿尔泰语言数位典藏:<格斯尔>语料库和满蒙汉文<老乞大>语料库建设札记》,将数字化作为管理和开发个人学术资料的研究手段。“台湾数位典藏计划”(digital archives in Taiwan)于2002年开始执行,主要开发数字博物馆、数字图书馆等。阿尔泰语言语料库的主要架构是从数字词典链接到田野调查使用到的词条(音频、视频均可)。蒙古文《格斯尔》语料库的制作,先将行、词、句子、翻译、图片分开操作,再使用结构化查询语言(Structured Query Language)链接。在这一过程中,编码是数字化的关键工作。先要校对史诗文本的版本,在原纸介文献的数字扫描文件上添加行号,形成每个词所在文本位置对应的“卷+页+行+句+词”的唯一编码,以利于检索查询。满蒙汉平行语料库——老乞大(http://altaic.sinica.edu.tw),通过逐词语料库建置,一方面在平行文本的基础比较满语与蒙语的动词形态,另一方面形成在线平行语料库成果。 新疆大学人文学院教授热依拉·达吾提(Rahile Dawut)与其数字化团队成员,作了题为《维吾尔族达斯坦数据库建设若干问题》的报告,对当前达斯坦数字化研究现状予以陈述,并对口头传统数字化的相关问题做出回应。达斯坦是维吾尔族民间说唱形式,是融文学、表演、音乐为一体的特殊民间口承文化。从使用语言上看,达斯坦是突厥语演唱的民间说唱艺术。新疆大学自2007年开始着手搜集达斯坦民间作品,目前他们迫在眉睫的工作是,建立网络数据平台,把从民间记录来的作品返还给民间,以更好地保护和传承这项国家级非物质文化遗产代表作。随之而来的问题有,如何重新反思达斯坦数据库的概念,如何寻求从民间来、到民间去的最大可能性,如何解决关于数据库的规范原则、分阶段合作、信息化知识产权、经费支持等问题。此外,关于达斯坦数据库数据准备的标准、达斯坦元数据格式、数据库应用软件的选择等,这些问题引起了与会专家学者的共鸣与热烈讨论。 (责任编辑:admin) |