新青年 | 郭翠潇：计算民俗学

主编推介

本期新青年郭翠潇，女，黑龙江人，民俗学硕士，现为中国社会科学院民族文学研究所中国少数民族文学研究资料中心助理研究员。本文阐述了计算民俗学在国际上是一个新兴学科，虽起步未久，却已显现出广阔的发展空间。在中国，民间文学、民俗学及少数民族文学的数字化建档和数据库建设取得了相应的阶段性成果，但也存在一定的现实问题和困境。

计算民俗学

郭翠潇

原文发表于《民间文化论坛》2017年第6期

随着数字时代和网络时代的到来，全球范围内民俗数字资源急剧增加，数据量空前庞大，数据类型多样。社交媒体、自媒体在信息传播中起到越来越重要的作用。当代民俗学者能接触到的资料数量之大、获取方式之便捷是前人无法想象的。

然而，在这样一个时代，早期的民俗学方法开始遭遇困境：手工制作的索引卡片跟不上数字资源的增长，原有的基于小样本的民俗学分类和索引不能满足多样化和个性化的建档与检索需求，传统的“文本细读”（close reading）方法无法应对海量资料。民俗学者必须要适应这样的新环境，掌握新的研究方法，来应对这一巨大变化。

2012年，加州大学洛杉矶分校亚洲语言文化系的蒂莫西•坦盖利尼（Timothy R.Tangherlini）等学者联袂发表文章，明确提出“计算民俗学”（computational folkloristics）这一新概念。他们认为计算民俗学是民俗学的子学科，并将其初步定义为“以计算机算法为研究方法的民俗研究属于计算民俗学”。计算民俗学本质上是方法论的革新，是将信息技术与传统民俗学研究相结合实现学术创新。其方法论层面涉及民俗研究全过程和民俗档案的全生命周期：从采集、立档、存储、分类、索引、检索，到呈现、利用、分析解释乃至分析工具的开发，每一步都可以运用计算机和信息传播技术来实现。

其实，在“计算民俗学”这一概念提出之前，就已有学者探索利用计算机技术做相关研究。如中国学界熟悉的约翰•迈尔斯•弗里（John Miles Foley）从20世纪70年代初就开始尝试用计算机技术辅助史诗研究，并成功利用计算机分析《贝奥武甫》的步格和韵律。自20世纪80年代以来，芬兰、美国等发达国家相继开展了一系列实践，各地的民俗学研究机构和民俗学者积极进行民俗资料数字化和数字档案库建设工作，取得了丰硕的成果，国际间学术交流日趋频繁。

然而，就术语构词和方法论而言，“计算民俗学”（computational folkloristics）不同于“数字民俗学”（digital folkloristics）。坦盖利尼及其合作者的相关文章表明，“计算民俗学”主要侧重于运用计算机算法来开展研究性分析，或基于现有数据库进行研究，或利用更先进的计算机技术改进现有数据库，而非基础性数字化和数据库建设工作。在前期数字化、数据化工作积累的基础上，民俗学研究正步入“算法时代”。

计算机算法给民俗学研究带来了新机遇和创新空间，也带来了新挑战。面对数字形式的研究对象，坦盖利尼认为民俗学者应当特别注意四个方面：

搜集和立档：民俗学者可以不必与人面对面地调查搜集资料，而是可以利用网络爬虫技术搜集信息，在更大范围内做调查研究，但网络爬虫抓取到的数据可能会引发隐私侵犯等相关伦理问题。虽然民俗学者更容易获得大量数据，但过量数据又带来数据处理的负担。从资料立档方面看，前数字化时代的民俗资料，不论从数量上还是从形式上看都较少，易归档，而现在数字化的资料数量庞大、格式多样，但技术更新换代易导致旧有格式数据不易被读出、异构数据不易整合的问题。此外，提供数字化资料有时会引发复杂的知识产权问题。　

分类、索引和检索：以往的民俗学分类，是基于分类者个人的语言、学识水平和掌握的有限资料而得出的。计算机算法能够基于民俗语料库建立相关的统计模型，突破这些局限，助力学者做超越类型、母题之上的研究。民俗档案库资料的多模式呈现，可以让分类方式和检索方式适应研究者个性化的需求，而不是让研究者的需求受分类和检索方法的制约。

可视化和导航：可以运用诸如地理信息系统（GIS）、时间线、统计图表、社交网络图等可视化方式呈现民俗资源。比起传统的民俗地图方法，低成本GIS软件的出现和易用的网络地图服务为制作民俗学提供了便利。

计算分析：基于优质数据和数据库，用计算机技术发现问题、分析问题、解决问题。在传统民俗学的文本细读之外，运用文本挖掘分析、可视化等技术实现的“远读（distant reading）”为研究者提供了一个宏观视角。

从实践层面上看，计算民俗学的学者积极探索，在多个领域均有创新成果。下面选择具有代表性的项目择其要略予以分述。

在分类、检索方面，格雷戈尔•斯特勒（Gregor Strle）和马蒂亚•马洛尔特（Matija Marolt）运用自然语言处理（NLP）方法对斯洛文尼亚民歌中潜在的语义结构进行研究；分析结果表明，适当的算法可以在民歌的主题分布和相似性度量的基础上生成多维语义空间，从而实现对民歌更细致的类型分析。福尔格特•卡尔斯多普（Folgert Karsdorp）等人开发了汤普森民间文学母题索引（Motif-Index of Folk Literature）的在线搜索引擎——MOMFER，通过使用自然语言处理和信息检索技术，实现了语义搜索。特奥•梅德尔（Theo Meder）等人在论文中介绍，荷兰民间故事数据库建设过程中，他们使用命名实体（named entity）探测技术，为未标记数据创建人名和地名索引，将元数据信息自动分配给民间故事。这些自动生成的元数据既可以用于地理可视化和社会网络呈现等各种分析工作，又有助于更好地理解民间故事的类型和母题序列。

在可视化呈现方面，丹麦民俗数据库是一个优秀案例。该数据库由加州大学洛杉矶分校基于丹麦民俗学家唐•克里斯滕森（Tang Kristensen）记录翔实的田野调查资料建成。其特色是将时间、地点（包括故事搜集地点和故事涉及地点）、人物（故事讲述者和学者）、故事文本相互连接起来，用可视化互动地图方式呈现。

在计算分析方面，成果丰富且多样化。例如坦盖利尼开发了一种统计方法，基于故事讲述者的性别、阶级或教育识别某一传统的主题“趋势”，并可以在微观层面进一步探索。马克•阿兰•芬雷森（Mark Alan Finlayson）依据普罗普故事形态学理论，从普罗普语料库中选取15个民间故事，采用人工智能技术学习并导出规则，很好地再现了普罗普的功能项。这表明计算技术对于民俗学研究来讲，不只可以处理表层的词汇和关键词分析，在检测民间叙事的深层结构方面也能提供很大帮助。斯科特•魏因加特（Scott Weingart）和珍娜•乔根森（Jeana Jorgensen）探讨了是否有可能运用计算分析技术来理解欧洲童话中性别和身体的表征与建构。凯瑟琳•拉根（Kathleen Ragan）用定量分析的方法研究民间故事讲述者性别与民间故事“性别”的关系。拉尔夫•肯纳（Ralph Kenna）和帕德里克•麦卡隆（Pádraig MacCarron）用网络科学方法研究神话史诗，以社会网络分析的方法呈现了四个著名的欧洲神话史诗的复杂网络，通过比较人物之间的关系，确定了他们之间的相似性元素。尤里•别列兹金（Yuri E.Berezkin）通过对美洲民间故事和神话的母题地理分布规律的可视化分析，呈现了美洲移民的分布和迁徙路线。该研究结果与考古数据形成关联，印证了15000至17000年前早期移民从波尼吉亚迁徙到美洲大陆的假说。贾姆希德•德赫拉尼（Jamshid J.Tehrani）和朱利安•于伊（Julien d’Huy）用生物信息学方法研究国际民间故事，通过两个实例——小红帽和波吕斐摩斯，展示了如何使用这些方法来识别不同社会和时代的故事之间的同源关系，重建故事演变过程。达沃尔•尼古利奇（Davor Nikolić）和尼古拉•巴卡里奇（Nikola Bakarić）结合语音学、计算分析和统计方法检测和区分声音模式及其对克罗地亚绕口令中音效的影响，并与其它类似的民俗文类进行了比较。约翰•劳顿（John Laudun）和乔纳森•古德温（Jonathan Goodwin）用计算机方法描述了美国三种民俗学研究期刊125年间所发表的学术论文的50种主题。

在分析工具开发方面，坦盖利尼及其团队针对丹麦民俗数据库开发了两套工具：WitchHunter可以将故事主题与地理位置之间的关系可视化展示出来，使研究人员能够在大型民俗语料库（大于3.5万个故事）的中发现和探索文本间潜在的地理—语义关系，提炼研究问题；GhostScope则可以将故事讲述者置于一个概念性的“中心”，以此为起点测量某一地点相对于他们的方向和距离，从而描述故事讲述者对当地环境的概念映射。

就计算民俗学的特点和未来发展方向而言，由以上计算民俗学的代表性研究和案例，可以发现计算民俗学具有如下特点：（1）绝大多数项目由民俗学领域和计算机科学、统计学等领域的学者跨学科合作完成。（2）计算民俗学领域的民俗学者主要来自欧美国家，代表性学者有蒂莫西•坦盖利尼、约翰•劳顿、特奥•梅德尔、尤里•别列兹金等人。（3）尚无专门刊物，较为集中地讨论见《美国民俗学刊》2016年冬季号刊出的“计算民俗学”专辑，以及《当数学遇见神话：古代叙事量化研究方法》论文集。（4）优质数据库是计算民俗学的基础，民俗学研究过程和民俗资源的生命周期各个阶段彼此密切相关。（5）越来越多的民俗资源是音声、图像数据，但目前计算民俗学的研究对象仍主要是文本数据。（6）在传统的“文本细读”的细致分析之外，补充和拓展了“远读”的宏观视角，将民俗学研究对象放在更大的语境中去研究，同时提倡二者相结合；重视数据与数据之间的多维度、多模态的连接关系。在未来的理想情形下，研究者既可以“远读”，宏观观察整个研究语料库，观察到人、地点、作品之间的复杂互连，又可以用很多民俗学者擅长的“文本细读”方法来审视，并且能够在“远”“近”之间自由移动。（7）计算机算法带来的突破和自由，反过来迫使民俗学者思考民俗学的一些基本概念，比如当我们说“A故事与B故事相似”时，“相似”到底意味着什么？

回观计算民俗学在中国的译介和实践，与民俗学界较为熟知的“数字民俗学”相比，“计算民俗学”还是一个较新的概念。目前有三篇关联性译文：（1）德国学者利洛•贝格（Lilo Berg）的《小红帽2.0版——数字人文学的新发展》，约翰•劳顿的《故事计数：论计算方法在民间叙事研究中的应用》和《计算机民俗学研究：百年学术论文主题地图绘制》。此外，董晓萍的《数字民俗搜集理论》一文对数字时代的民俗资料搜集工作进行了理论思考。就实证性操演和计算研究而论，吉国秀及其团队在IT笑话研究中使用了R语言文本挖掘技术，堪称计算民俗学在中国的先行实践案例，值得关注。

综上所述，计算民俗学在国际上也是一个新兴学科，虽起步未久，却已显现出广阔的发展空间。在中国，民间文学、民俗学及少数民族文学的数字化建档和数据库建设取得了相应的阶段性成果，但计算民俗学的基础非常薄弱，面临着诸如民俗资源相关数据库开放程度不够、数据质量不高、复合型人才缺乏、跨学科合作不足等现实问题和困境。在大数据时代，这些瓶颈问题尤其是科际整合当引起学界和政府相关部门的重视，相关的理论和方法论讨论也亟待展开。

本文为国家社会科学基金重大项目“中国少数民族口头传统专题数据库建设：口头传统元数据标准建设”（编号：16ZDA160）的阶段性成果。

（注释及参考文献见原文）