内容摘要:
关键词:
作者简介:
核心阅读
计算机可以帮助学者在纷繁庞杂的信息中快速发现和定位议题,在宏观的学科脉络中把握关键问题;学者又可以发挥个人学养所长,深刻探究问题所在,解释背后的义理与规律
新兴数字技术正在加速数字中国的构建进程,以数字媒介和人工智能为基础的新兴文化形态和知识生产体系正日见雏形,数字人文正在积极引领文化时空的数字化转换,并展现出广阔的发展前景
数字人文是一种将计算机方法与技术融入人文研究,进而提出并回答人文问题的新范式。在传统人文研究中,研究过程多表现为一种书斋式的、针对典籍文献的细读和考据。随着计算机和电子文本的发展,研究者开始利用数据库查找资料,并借助地理信息系统、机器学习、信息可视化等多种计算分析工具,开展认知计算、文本挖掘、情感分析、图像识别、视觉分析、社会网络分析、数字记忆构建等研究。在此过程中,一些新型研究方法,如远读、文本计量、文化分析等陆续浮现,并在文学、史学、文化研究等领域得到创新性应用。
为人文研究提供显微镜和望远镜
数字人文为人文研究开启三种新维度,分别是快读、远读、共读。
快读,指的是借助计算机技术,大大加快阅读和利用文献资料的速度。随着图书文献的数字化转换,高校、科研院所、图书馆等机构建设了大量数字资源。如果用传统研究方式,以个人之力“穷尽”所有文献资源,根本不可能。如何从海量数字资源中发现并获取所需文献,完成研究任务,这就需要元数据、关联数据、知识图谱等数字技术支撑研究者实现“快读”的需求。比如《红楼梦》中姓名称谓有730多个,想要从70多万字的文本中找到这些人名,需要花费大量时间。清华大学统计学研究中心团队利用数据科学方法,在不到1分钟的时间内,得到按照词频排列的各类词,其中出现两次以上的人名抓取准确率达93%以上。这极大缩短了研究者的搜索查询时间,同时还减少了手工筛选过程中的失误。再比如中国历代人物传记资料库,共收录超过42万条人物传记资料,记录了各方面的详细数据,这些数据可以为各领域的人物关系和历史事件研究提供基础数据支撑,检索技术可以帮助研究者快速获取所需数据。
远读具有两重含义,第一重含义是指传统的细读方法导致大量文学作品从未被研究者阅读,如果要理解整个世界文学体系,就必须采取远读方法,聚焦“比文本小很多或大很多的单位:手法、主题、修辞或文类和体系”。在该理论影响下,研究者开始运用计算方法研究文学作品。也有学者将社会网络分析方法和信息可视化技术相结合,描绘小说的叙事结构、情节发展和人物关系。这些尝试都为文学文本提供了一种新的解读视角与研究路径,凸显了一种更为“宏大”的叙事逻辑。
远读的第二重含义是指时间跨度上较大或素材数量较多的研究,这在近年来数字文化遗产和数字博物馆建设中体现得较为充分。在我国,敦煌研究院和上海博物馆率先引入数字人文理念,并借助“数字敦煌”和“董其昌数字人文”书画专题展览,为文化遗产知识与数字资源的关联性可视化呈现提供了示范。以“数字敦煌”为例,敦煌研究院在已经完成的敦煌石窟数字化基础上进行敦煌知识图谱建设,借助更细粒度的敦煌壁画图像语义标注,可以实现图像片段的全球发布和链接,研究者和大众在看到特定主题图像的同时,也能看到全球其他博物馆中相同主题的图像片段。这为图像学、考古学以及文化研究学者提供了巨大的“阅读”便利,也为公众亲近人类丰富的历史文化遗产提供了更多可能。
共读则强调合作。尽管我们强调数字人文在人文研究方面的“快”与“远”,但并不意味着数字人文就以机器阅读代替了人工阅读。数字人文强调人与机器的合作,远读与细读的结合。计算机可以帮助学者在纷繁庞杂的信息中快速发现和定位议题,在宏观的学科脉络中把握关键问题;学者又可以发挥个人学养所长,深刻探究问题所在,解释背后的义理与规律。比如有研究者在对中国近代“美”的观念进行概念史研究时,借助大规模数据库的文本资料,以一亿两千万字的文本为研究范围,对中国近代“美”观念的发展轨迹进行远读式描绘,为传统细读研究提供了颇为有效的实证支撑。
除了人与机器的合作,共读还意味着将多种阅读模式结合,获得全新知识图景。其中值得关注的是电子文本与数字地图相结合形成的时空交互阅读框架。比如中南民族大学研究团队就“唐宋诗人行旅路线”建立“唐宋文学编年地图”,以地理信息系统为基础架构,在数字地图上呈现唐宋着名诗人词人的行旅踪迹,为读者理解唐宋诗词打开新视角。时空交互阅读框架不仅以时空架构直观展示时间、地点、人物、事件、作品间的网络关系,还为深入解读文本内涵提供可能。
此外,共读还强调众包协同。借助开放众包技术,上海图书馆开发“中国家谱知识服务平台”,允许用户上传和编辑自己家族的家谱。中华书局建立的古籍整理平台,也采取众包模式,组织高校学生、出版社编辑、图书馆馆员等社会力量进行底本校对,日均工作量达100万字,大大提升了古籍电子文本的审校速度。