中国文学与文化典籍大数据研究

2021-06-16 14:20:46 阅读6次

(一)研究方向总体概述

本研究方向主要开展机构:数字人文典籍大数据分实验室

协同开展机构:四川省大数据分析与融合应用技术工程实验室、四川省网络大数据认知分析工程实验室

长久以来国内的文学研究往往忽视对中国传统文化经典作品的发掘而导致国学根底、学术基础薄弱,从而使学科建构流于表面,缺乏学术创新的内在动力,导致无法与西方学术展开平等交流等问题。在学术全球化的时代,中国语言文学学科必然面临着跨越民族与文化界限、走向世界的机遇与挑战,立足传统经典本身是东方特色的学术传承与话语建构的重要基础。在西方的强烈影响之下,过去的文学研究范式和学术话语常常出现生硬地以西释中的情况,进而加剧了中国学界的“失语症”,使当代学术话语的创新与传统学术话语的现代转换都受到了不同程度的抑制,背离了全球化时代背景下东西平等对话的发展趋势,不利于东方文明的学术传承与话语建构。

基于对这一学科现状的反思,中华文化传承与全球传播数字融合实验室的数字人文研究首先着眼于中国文学中的传统经典,在此基础上为人文学科提供真正具有重大国际影响力的新话语,使中国文学与传统经典在当下焕发出新的生命力,发挥具有现实性意义的指导作用。因此,数字人文研究首先凸显的特色是将传统经典与学科理论前沿相结合,赋予中国文学以创新性、国际性、开放性与启发性的视野,从而实现知识结构上的中西融通。该研究重点关注中国文学的话语理论建设,引领学术前沿,融入文明互鉴与交流融合、理论与实践兼顾的创新理念。研究方向围绕如下重大问题展开:

1)围绕中国文化典籍“走出去”和“收回来”开展工作。全球中华文化珍贵典籍藏书的数字回收和数字化检索追踪。具体可以分为:1.中华文化典籍与作品翻译;2.全球对中华文化的研究;3.全球中华文化的改编、影响、变异;

2)基于上述构建的中华文化典籍数据库,利用数据融合和人工智能技术构建中英文机器翻译系统,实现中华传统文化典籍的国际化呈现,便于中华文化典籍的分享和传播;

3)以智能化数据库共享平台建设带动中华文化海外传播的新模式,完善内容创作环节中的数据共享、确权、推广和定价机制,为中华文化研究和文化产业市场推广奠定基础。

 

(二)研究方向特色

全方位中华文化典籍数据库,基于深度学习的智能阅读系统,中华文化典籍数字化共享平台

(一)涵盖海外传播情况的特色中华文化典籍集成化基础

   本方向组建了一支涵盖多领域跨学科的研究型专家团队,使文学、哲学、传播学等人文学科与计算机软件领域的学科优势相结合,为文科研究注入科技的力量,形成“古今文学与文献数据库”建设的立体态势。进一步优化完善本研究团队现有的六大核心数据库:“唐宋文学编年系地信息数据库”、“唐宋文学编年地图平台”、“唐宋文官编年系地数据库”、“唐宋进士编年系地数据库”、“20世纪海内外研究中国古代文学论著目录数据库”和“现代中国文学文献研究数据库”,最大程度上实现古代文学的数据共享,整合古代文学研究领域尤其是唐宋时期的现有资源,改编过去文献零落分散的状态,保证现代化的文科研究高效科学地开展。

    在此基础上,实验室设计建成了“中华文化典籍数据库”。本数据库以十三经文本为基础,拥有强大的文献数据检索功能,支持一键检索、分类检索与高级检索等功能。同时,系统还将实现古籍与元典的管理、分类、展示、阅览、分享等功能,并建立有效的激励机制,鼓励使用者主动贡献数据库中可能缺少的内容,促进数据库内容的不断完善。使其成为一套面向四川大学师生、中国文学研究学者、海内外汉学研究者、文化研究机构、文化传播机构及文史爱好者的中华文化典籍资料数据库。

(二)打破传统文学研究范式,探索利用人工智能传播中国传统文化

在数据融合、大数据认知分析、神经网络分析等实验室的协助下,基于四川大学计算机学院1990年以来开发的国内首个网页英汉机器翻译系统,数据库团队还开发出一套适配本数据库特性的中英互译阅读系统。并且该系统与团队正在建设的“中华文化海外传播数据库”和“先秦两汉魏晋南北朝文学编年系地数据库”结合,提供经典作品和机器自动译本的对照阅读,充分发挥四川大学“中国语言文学与中华文化全球传播”一流学科群在外国语言研究、学科建设、人才培养、比较文学研究、中国文化研究、中华文化海外传播研究、古典文献学研究等多方面的综合优势,利用高校作为推动中国文学、中华文化海外传播的身份优势,以数据库建设带动中华文化海外传播的新模式;再者,以多媒体手段突破传统文学研究与文本鉴赏的界限,对文学艺术进行数字化整理,建设图文音像数据库。2019年11月,川大艺术学院就利用艺术实验教学中心资源对北宋王希孟名画《千里江山图》进行了数字化处理,运用动态影像方式将国宝名画呈现给了全校师生,不仅丰富了人文艺术与现代观众的互动方式,同时也更直观生动地传达了艺术之美。实验室还可依托计算机强大的数据处理功能,对汉字与中华原典进行多角度的分析与分类,并申报“大数据时代四书五经域外诠释的范式转变研究”社科基金重大项目,进一步对儒家典籍的版本流传及演变、中国文学海外传播中的规律进行相对定量描述,在很大程度上突破文科现有的研究范式。

    (三)建设中华经典文化典籍数字化共享平台,完善创作内容的推广和传播机制

结合四川大学计算机学院在基于区块链的数字化共享技术的研究基础,使典籍内容的权属信息在区块链上生成唯一真实的、且不可篡改的存在性证明,将资源上传的全过程以及版权流转记录在链上,追溯知识产权在互联网上的传播。这样做可以解决发布内容的确权问题,所有版权信息公开透明,防止抄袭。同时,基于现有的数据价值评估理论基础,对平台上共享的典籍数据进行交易定价,保护用户的原创权益,提升平台用户的参与活跃度。

(三)研究方法

四川大学在文学与计算机科学领域、在西方世界的中国文学典籍的数据库建设与对外译介研究、《中华续道藏》电子文献数据库构建、“汉典重光”海外中文古籍数字化回归及研究整理、基于区块链的数据资产的确权-管理-共享-定价机制研究、基于深度学习的自然语言处理和文本挖掘、大数据可视化软件研制等方向均有着深厚的研究基础。同时与腾讯、阿里云、华为等知名企业在科学研究和平台搭建等方面有密切的合作基础。

研究将围绕“文献集成化”、“知识体系化”,“应用智能化”的三步走战略,加速推进中国文学知识图谱的完善,并通过构建的知识共享平台向全世界提供服务,促进我国传统经典文化的传承与传播。

首先是文献的集成化。既可把分藏在不同藏书单位、不同网络空间的文献聚集整合,又能将分散在不同学科门类的文献调集融聚在一起,如书写牡丹的作品主要收录在集部的别集、总集里,而介绍牡丹植物特性和栽培技术的文献则收录在子部谱录类,另外在当今植物学著作和相关网页内也有相关知识。平台将这些散藏在不同地方、分隔在不同领域与不同网络空间的文献、音像全部有机集成,实现不同门类、不同学科知识的融合联通。

其次是知识的体系化。该平台提供的搜索结果,无论是原始文献还是检索出的二次文献都按照相应的知识体系有序排列,而非随机分布。如在平台输入一位作家姓名查询其史料,平台会将数据库里所包含的这位作家的全部文献资料分类编排陈列,如分作品、传记、评点、研究、交往、传播、接受等七类,每类之下又细分若干种。作品搜索结果则分别按文体、系年、系地、主题编排。传记分史传和杂述等类,史传又包含正史中的传记、文集中的墓志、行状、神道碑和方志中的小传等;杂述包含史部、子部和集部其它文献中的零星事迹记载。“评点”指古代诗话、词话、文话等著作评点资料,又分对其人的总评和对作品的评点,作品之下又分篇辑录相关评点资料。“研究”指20世纪以来有关作家作品的研究和鉴赏,作家作品研究之下又细分若干门,研究分行实考订和理论阐释两大类,行实考订和理论阐释又各分若干专题。“交往”指其人与他人的交往活动和交往作品。“传播”指别集版本、选本、书画等对其人其作的传播资料。“接受”包括作品的改写和追和,语句的引用、化用、仿用等。

 最后是应用智能化。平台提供中英文互译功能,用户可以通过中英文对照的方式进行阅读。同时资料数据已按知识体系分类打包,支持一键下载功能,用户无需像传统数字化资源库那样将检索结果逐条识别后再拷贝下载。平台的资料数据还可以“个性定制”,开放的共享互动模式可满足不同用户的个性需求。用户将个人所需数据资料上传平台后,基于人工智能的用户画像模型自动进行分检处理,然后由人工干预,提供用户所需资料数据,满足用户的个性化需求。

(四)学术价值

    (一)构建中国特色的学术话语体系,提升我国社会科学影响力   

    中国文学的发展要走出多年跟随西方学术的彷徨失语困境必须具有世界性眼光,要主动参与到国际语境中去。中华文化传承与全球传播数字融合实验室致力于文学和文化的主动发声,力图形成真的国际影响力,构建具有中国特色、中国风格、中国气派的中国特色哲学社会科学话语体系。这就要求我们一方面须结合中国优秀传统文化与时代命题,打造中国学术话语体系;另一方面,积极推动具有原创性、时代性的中国优秀学术成果走向国际舞台,参与到世界学术建设之中。这对增强我国哲学社会科学研究的国际影响力、掌握国际发言权具有现实意义。

(二)促进社会科学与计算机科学的交叉融合,驱动中华文化传播

    实验室通过发挥自身学科优势,通过跨学科交叉合作的手段开展学术前沿问题的整合性研究,为人文学科的发展注入新的活力。以创新数字融合为技术手段,以中华文化创新传承与全球传播相关问题为研究对象,推进包括语言、符号、文学在内的优秀文化经典的保护、传承与全球传播。

(五)实践意义和实际贡献

   (一)参与全球学术对话,构建中国学派,助力中华文化海外传播

新文科面临的艰巨任务是努力提升实践能力与创新能力,通过整合多方学术资源,结合高性能计算集群与决策支持平台,该实验室主要为中国文学的本土创新、中华文化海外传播、科幻文学与文化产业以及巴蜀符号学等领域的新发展提供支持。推动中华文化海外传播,同时梳理与研究中华文化海外传播成效等相关数据,是提高中华文化国际影响力、实施文化强国战略的重要内容,也是加强中国哲学社会科学话语体系建设、讲好“中国故事”的重要举措。

(二)中华文化典籍数字化共享平台

 根据文学研究的知识体系,平台将全面集成中国文学传统典籍,使其成为了一个涵盖古今的关系型结构化大数据平台,以满足大数据时代学术研究对中国文学数据化和检索智能化的需求。并且平台将拥有英汉比对、文本重编、自标平仄、自动注释、主题检索、互文分析、知识关联、时空定位、数据统计、可视化呈现等十大功能。该平台建设项目还将开发建成中国古代文学模块,并逐步融入中国现当代文学模块。平台数据库以古代文学的相关文献为基础,与之研究相关的文献都在采集开发的范围之列,不仅包括古代文学典籍,还包含由今人整理的中国古代文学总集、别集、研究论著与所涉及的相关史料。依据不同的研究层次与需求,该数据库还将各个类型的典籍与文献整理分为作品、目录、评点、研究、辞典、史料等六大类。

     数字人文典籍大数据分实验室将紧紧把握自身特色、服务当前国家与社会对人文学科建设和文科人才培养的需要,积极主动探索文科实验室的合理发展模式,力争为国内文科实验室建设提供可参照方案。该子机构将引导中华文化传承与全球传播数字融合实验室中骨干学者的带头作用,构建科研产出、教学建设与一流人才培养相结合的创新格局,推动中华文化走向世界,增强国家软实力和中华文化国际影响力。