首页> 数字经济 >2025 >第12期>  正文
AI赋能古籍整理研究的价值、问题及对策
来源:雷竞技app下载安卓 -《数字经济》     作者:闻家祯 2026-01-08 01:20:14
微信分享二维码

扫码分享到微信

关闭

古籍作为文化的重要载体,承载着丰富的历史文化信息,古籍整理与研究对文化传承意义重大。近年来,AI技术逐渐应用于古籍的整理与研究,对古籍的修复整理、活化利用、普及传播都发挥了重要作用。与此同时,AI的应用也存在着技术局限、解读偏差及版权归属等问题,有待进一步提升与完善。本文从AI技术赋能古籍整理研究存在的现实问题入手,提出通过技术提升、制度保障及跨学科融合协作来提高赋能效果,更好地完成古籍整理研究工作,传承中华优秀传统文化。

我国古籍浩如烟海,是中华民族宝贵的文化遗产,其中蕴藏着丰富多彩的中华传统文化精神。孔子曾说:“夏礼吾能言之,杞不足征也;殷礼吾能言之,宋不足征也;文献不足故也,足则吾能征之矣。”可见古籍对文化传承的重要性。整理、研究这些古籍,并使之流传下去,不仅是我们每个文史学者的任务,更是时代赋予我们的责任。

2022年4月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》,明确提出加快古籍资源转化利用,推进古籍数字化。同年,全国古籍整理出版规划领导小组发布了《2021—2035年国家古籍工作规划》,将“国家古籍数字化工程”列为四项重大工程之一。近年来,AI技术逐步应用于古籍的整理研究,在AI技术的辅助下,古籍整理研究效率有了明显提升,促进了文化资源的挖掘和利用,古籍数字化在一定程度上实现了古籍资源的全民共享。可以说,“数智化”成功打破了时间与文化壁垒,使曾经束之高阁的古代典籍走入“寻常百姓”。正因如此,关于如何借助AI技术更好地赋能古籍整理研究,助力文化传承与传播的探讨,具有重要意义。

AI在古籍整理研究中的应用价值

提升了古籍整理研究的效率和质量

AI的应用使古籍整理研究工作完成得更快、更好。在AI的助力下,古籍修复整理的效率有明显提升。国家古籍保护中心调查结果显示,我国现存古籍20多万种,存世版本50万个,数量3200多万册,已修复整理出版的古籍不到4万种,国内从事古籍整理的专业人员仅有一万人左右。这样的比例之下,单纯依靠传统人工,可能需要300年的时间,才能完成对现存古籍的修复整理。而AI的应用大大提高了古籍整理的速度,降低了时间成本。

AI技术能够快速对古籍中的文字进行识别和录入。以OCR(光学字符识别)技术为例,对于大量手写体古籍,OCR技术结合深度学习算法,只需要扫描文字,就能够自动识别,将古籍的纸质文本转化为可编辑的数字格式,转入到计算机上生成文档。相比传统人工录入方式,速度提升了数十倍甚至上百倍。古籍整理中相对较难的一步就是标点断句,传统人工标注的方法耗时耗力,借助AI技术,可以完成自动标点,由北京大学数字人文中心给出的测试结果显示,AI自动标点的正确率超过90%。

AI技术还能够对古籍图像和文本进行智能修复,除了通过图像识别技术进行数字化处理,AI的自然语言处理技术能够在一定程度上对古籍文本中的语义语法进行分析,对文字错误,包括错、脱、衍字的情况给予纠正。CNN(卷积神经网络)、RNN(循环神经网络)及其LSTM(变体长短时记忆网络)等,能够自动学习古籍图像和文本的特征,实现对古籍的智能分析和修复。这不仅大幅提升了修复效率,还能最大程度还原古籍原貌,为学术研究和文化传承提供高质量的数字化资源。北京大学数字人文研究中心主任王军在有关“古籍智能信息处理”系列研讨会上曾谈道,信息技术的发展,尤其是人工智能和大数据技术的出现,为古籍的修复整理带来了革命性变化,利用人工智能技术辅助修复整理,300年的任务,二三十年内就能够完成。

促进了学界对古籍时代价值的深层挖掘

AI具备强大的数据挖掘和分析能力,可以从海量古籍数据中发现隐藏的模式和关联,基于AI的数据分析平台,为研究者提供数据可视化与模式识别等服务,揭示隐藏在数据背后的文化脉络和历史关联。例如,通过对不同历史时期古籍中词汇使用频率的统计分析,揭示语言演变规律;通过主题和情感分析算法,可以比对发现不同典籍间的共通之处,匹配典籍构建关联,如匹配《诗经》的植物意象与《本草纲目》的医学记载;或者通过对大量古籍的对比分析,挖掘古籍中的人物关系网络,挖掘不同历史时期与不同地域文化间的复杂联系,构建出复杂的社会关系图谱,为研究古代社会结构提供新的视角。

同时,古籍文献资源分散、资源共享机制不健全,阻滞了整理与研究工作的进度。AI技术将古籍数字化,通过云端平台实现资源共享,打破信息孤岛,为学术研究提供了资源交流的平台。AI算法根据古籍内容特征、语言风格等对文本自动进行主题分类,提取关键信息并建立索引,研究者可以通过关键词的检索,迅速查找到研究所需的相关文献资料,极大地缩短了资料查找时间,使研究者可以将更多的时间和经历投入到更有价值的研究中。可以说,AI技术的出现为古籍研究提供了新的视角与方法,AI技术强大的数据整理、挖掘、分析能力,在一定程度上推动古籍研究向纵深发展。

拓宽了传统文化的传播路径

古籍作为传播中华文化的重要载体,应该为人们所共享,但由于自身的特殊性,古籍显得并不“亲民”。一方面,古籍流传时间久远,纸张脆弱,难于保存,出于对珍贵典籍的保护,一些珍贵典籍只能成为“标本”,即便是相关学术研究人员,也较难借阅。另一方面,古籍主要由古汉语书写,相对晦涩难懂,阅读理解有难度,使人们“望而却步”“敬而远之”。

随着数字化时代的到来,AI技术的应用降低了这两方面问题对古籍传阅、文化传播的消极影响。古籍数字化开辟了古籍资源分享的新路径。通过高精度扫描、图像处理及修复技术,AI将古籍原件转化为高质量的数字图像,通过数据平台分享给大众,既不破坏馆藏版本,又最大限度地将古籍原貌呈现给大众,满足了大众的阅读需求。同时,通过与VR、AR、5G等新技术相结合,AI与古籍达成了“数实”结合,以更易于新时代人们所接受的新形式呈现传统文化,以更为直观的方式让人们“看见”文化,让古籍“活”起来,实现跨时代的文化交流。例如,开发互动式古籍学习平台,让读者拥有沉浸式的古籍阅读体验。用户可以通过VR设备“走进”古代书房,近距离观赏古籍,并根据个人兴趣和学习进度,由AI推荐相关的古籍内容和解读资料。

古籍不应被束之高阁,只有让古籍真正走出藏书阁,才能将其承载的文化真正地传承下去。AI技术的运用,为传统文化的传播提供了更宽广的路径。2022年5月,中共中央办公厅、国务院办公厅印发《关于推进实施国家文化数字化战略的意见》首次提出了“文化数字化战略”,指出要“搭建文化数据服务平台,推动文化数字化成果全民共享”。党的二十大报告中明确指出,“实施国家文化数字化战略”“加大文物和文化遗产保护力度”,利用数字技术对其进行数字化保存和展示,鼓励利用数字技术推动文化创新,打造具有文化内涵和创意的数字文化产品与服务。AI赋能古籍的整理研究,古籍数字化建设,是国家文化数字化战略的应有之义。降低古籍的阅读和整理门槛,全民共享文化资源,这也是古籍整理研究的核心与初心。

AI赋能古籍整理研究的现实问题

存在技术局限

当前AI技术在处理古籍时仍然存在技术局限。第一,对古籍中部分文字识别困难。古籍年代久远,难免有所破损,且为手书,书写形式多样、字体多样,又因年代更迭,存在大量异体字、生僻字,这都给AI智能识别增加了难度。现有的OCR技术难以完全准确地识别各类古籍,尤其是一些特殊的字体,如篆书或草书字体,AI可能无法正确解析其笔画结构,导致识别错误率较高。第二,对部分语义解读失误。古籍中包含大量古代文化特有的概念、术语和表达方式,而现代AI模型基于当代语言数据训练,在理解这些内容时存在困难。比如对古代礼仪制度、官职名称、地名沿革等专业术语的理解不够深入,难以准确把握古籍中的语义关系,容易产生误解或错误的分析结果。第三,对不同来源和标准的数据整合困难。不同来源的古籍数据格式不统一,低质量的数据会干扰AI算法的正常运行。与人类的分析研究不同,AI对古籍的整理分类主要依赖于数据分析,如果原始数据中存在大量错别字或标点符号错误,AI模型可能会产生误判,降低分类的准确性。

四川大学特聘教授王瑞来对AI的古籍标点准确率做了实验,用参数达到1万亿个的最新版GPT-4对四库本宋代类书《仕学规范》卷五的部分条文进行了测验,试验结果表明,在大量的数据加持下,AI标点的准确率能够达到95%,但仍有未逮之处,涉及人名、地名、官名及文化史知识之处,发生误标,对于原文也出现有擅改的现象。由此管窥,基于数据分析的AI技术仍有待提升与完善。

存在文化理解偏差

AI对古籍中所蕴含的文化存在理解上的偏差,试图通过AI去全面系统地解读古籍,目前依然无法达成。古籍之所以珍贵,是因为它的成书背后有着特定的历史背景和文化精神,为我们今天的历史文化研究发挥了重要的作用。古籍资源整理研究的深层意义,在于推动中华优秀传统文化创造性转化、创新性发展,古籍数字化、古籍资源的分享传播,绝不仅是让大众“看见”古籍,更是传递文化。古籍是大众接触、了解传统文化的重要途径。而AI对古籍的处理主要是基于数据驱动的算法,机械式的处理注定只关注文字的表面意思,忽略了行文间蕴藏的文化思想。对于文献中蕴含的一些处世哲学、价值观念、文化思想,AI缺乏对蕴含其中的人文精神的深层次理解的把握。例如,在翻译古籍中的诗词时,AI可能只关注字面意思,而忽略了诗词背后的情感寄托和文化意境,导致翻译结果生硬、不准确。仍以《诗经》为例,《诗经》作为我国最早的一部诗歌总集,运用了多种修辞手法来增强其艺术表现力,包括赋、比、兴等,比如在《豳风·七月》中对农事活动的描述,“七月流火,九月授衣”;又如《召南·甘棠》中“蔽芾甘棠,勿翦勿伐”的拟人手法,AI难以准确解读其中的深层含义和文化内涵。

另外,古籍中蕴含着丰富的历史文化内涵,常存在一些文化概念,包括特定时代背景下的文化制度、宗教信仰、民风民俗等,需要结合具体的历史文化语境进行综合理解,AI在处理这类概念时,往往只能给出表面化的解释,无法深入挖掘其内在含义。

存在版权归属问题

数字化古籍的版权归属问题较为复杂。其实,古籍年代久远,作者早已失去了法律意义保护的著作权,且部分古籍或作者不详,或拥有不同历史时期的多位作者,很难界定版权,作为公共文化资源,版权问题并不突出。但是随着AI在古籍整理研究领域的应用,数字化后的古籍版权归属问题涉及经济利益和法律问题,古籍的版权问题已经逐渐影响到古籍数字化的研究进程。换言之,数字化古籍的版权问题主要是源于二次创作,由此而产生的“二次版权化”。古籍本身是全社会共享的社会文化资源,不存在任何版权问题,但是经过了校勘、注释、句读、整理、分析后的古籍,就产生了版权归属问题,而古籍的数字化处理,进一步突出了版权问题,经过数字化扫描、影像优化、智能重编的古籍归属应如何判断,这其中涉及个人、学校、机构、出版社及各个平台。版权问题会阻碍古籍的整理与研究,限制古籍的流通,削弱文化的传播与推广。

如果没有妥善解决版权问题,还会由此引发一系列的社会问题,甚至法律纠纷。比如,在利用AI进行古籍整理和传播时,将未经授权的古籍注释版本纳入AI训练数据集,或者在公开平台上发布基于这些版本的AI研究成果,都可能侵犯版权所有者的权益。古籍数字化过程中收集的大量数据,包括古籍内容、研究者个人信息等,如果缺乏有效的安全管理措施,可能会面临数据泄露、滥用等风险。特别是在涉及国际合作的古籍研究项目中,数据跨境传输可能受到不同国家法律法规的限制,增加了数据管理的复杂性和风险性。

AI赋能古籍整理研究的对策建议

提升技术水平和数据质量

针对AI赋能古籍存在的文字识别困难、语义解读失误,以及对不同来源和标准的数据整合困难等技术问题,相关研发机构应当不断加强技术的研发与创新。

一方面,要加强AI算法的研发。重点加强OCR文字识别、自然语言处理等关键技术在古籍领域的深度研发。提高OCR技术对手写体、异体字等特殊字符的识别能力,针对古籍特有的繁体字、异体字、竖排版式等特点,开发专门的算法模型,增强对古籍文字特征的提取能力,提升识别准确率。

另一方面,构建标准化数据体系,扩大训练数据集。一是制定统一的古籍数字化数据格式标准,规范古籍数据的存储和管理。通过标准化建设,确保不同机构间的数据互通共享,收集更多不同类型的古籍样本,比如更多类型的古籍字体和异体字,提升数据质量控制水平,为后续AI分析提供可靠的基础支撑。二是建立严格的数据采集和审核机制,确保古籍数字化过程中的数据准确性。例如,采用多人协作校对的方式,对录入的古籍数据进行反复核查,及时纠正错误。三是可以建立国家级古籍资源数据库,规范古籍数据的存储和管理。

加强跨学科交流合作和人才培养

如前文提到,智能机读标点可以成为古文标点的辅助利器,但绝不能替代人工。AI技术对古籍的整理与研究依赖于数据的直白分析,然而人文学科需要温度,不能单纯地进行机械化解读。即便AI技术不断发展与完善,也不能完全替代人在古籍整理与研究中的位置。在充分重视科学技术应用的同时,要清醒地认识到,AI作为一种科技手段,主要用来完成前期的基础工作,是提升工作效率的辅助工具,相关学术研究人员仍然是古籍整理与研究的主力,在不能达到百分之百正确率的前提下,人工审查、校对、分析、研究是必不可少的。

要将AI技术与人文思想结合到一起,既要利用AI强大的数据处理和分析能力,又要充分发挥人类学者在人文素养、学术经验及直觉判断方面的优势,将他们的专业知识和经验融入AI模型,转化为AI模型的训练数据和规则约束,使AI能够更好地传达古籍的文化内涵。鼓励各学科研究人员共同参与古籍整理研究工作,通过跨学科交流与合作,充分发挥各学科的优势,弥补AI在文化理解方面的不足,提高古籍研究的整体水平。同时,要注重和加强人才培养,现在国内已有高校设立了相关的专业,培养跨学科的专业人才,既懂古典文献学等古籍整理研究的专业知识,又能够进行数字化操作。

完善古籍数字化版权管理机制

随着AI技术在社会科学学科的广泛应用,相应的机制应当建立健全。要完善古籍数字化版权管理机制,明确古籍数字化过程中的版权归属和使用权限,制定合理的授权模式。首先,建立数字化古籍版权数据库,登记古籍及其相关作品的版权信息并进行备案,既方便研究者查询和获取授权,也为版权归属提供明确的依据。其次,加强数据安全防护措施。对敏感数据进行加密存储,设置严格的用户权限管理,防止未经授权的数据访问和泄露。再次,要加强行业自律,制定古籍数字化的技术标准和操作规范,避免因不当使用而引发版权纠纷。还要注重培养专业人才,提高从业人员的版权意识和法律素养。最后,加强古籍数字化版权的管理,探索开放共享与版权保护相结合的监管模式,既促进古籍资源的广泛利用,又保障版权所有者的合法权益,确保古籍研究项目的顺利开展。

结束语

我国强调人工智能领域要占领先机、赢得优势,必须在基础理论、方法、工具等方面取得突破,以人工智能引领科研范式变革,加速各领域科技创新突破。AI赋能古籍整理研究,是科技与文化的深度融合,更是文化自觉与自信的体现,它标志着我们在尊重保护传统文化的同时,也在积极探索如何利用现代科技为传统文化注入新的生命力。 

“睹乔木而思故家,考文献而爱旧邦。”古籍“数智化”任重而道远。我们应当珍视古籍的文化价值,积极探索AI赋能古籍整理与研究路径,深化AI技术在传统文化研究中的应用,以科技推动文化传承。

作者简介:闻家祯  中共辽宁省委党校 

没有了

新质生产力赋能中华优秀传统文化的创新发展

构建文化数字基础设施构建系统完善的文化数字基础设施是培育传统文化新质生产力的技术基石数字经济视域下…

2026-01-08 01:28
你可能也喜欢这些文章
Baidu
map