人工智能如何读懂四书五经?
人工智能改变古籍存续形式
“整理国故,再造文明”,胡适在一百年前说。国故也即是古籍,古代的书,一般指1911年之前历朝写本、刻本、稿本、拓本等。这些纸质文献在悠悠历史长河中其命运可谓颠沛流离。纸质古籍损毁是不可逆转的。如明代《永乐大典》,永乐时期的原本已经完全湮灭不见,嘉靖重抄本11000册现存不到5%。这样的损失难以估量。
哲学家罗素曾说:“中华文明是唯一的历史文化从未间断的文明。”古籍作为中华文化的一支重要血脉,便是文明未断的依据之一,今年,国家图书馆藏清宫“天禄琳琅”历时8年修复成功,在标准的存藏条件下,能保存200年。
尽管古籍原生性保护有很大改善,但依然改变不了“纸”的脆弱。2015年年初,位于莫斯科西南部的俄罗斯科学院社会科学信息研究所图书馆突发火灾,约有200万册文献资料遭到损毁。俄罗斯科学院院长称“这是俄罗斯科学界的切尔诺贝利事件”。
在很多人的印象里,古籍文本往往艰涩难懂,而且接触机会不多。但在数字时代,这种情况正在发生转变,目前数字化、平台化、智能化成为古籍“再生性”保护的方向。在国外,哈佛燕京图书馆和美国国会图书馆,已经将他们收藏的中华古籍扫描完成,并对外公开。但它们仅仅是图片扫描版,并未利用智能技术实现文本化,无法复制粘贴,只能服务于少数研究者。
国内较为有名的古籍智能平台,如“汉典重光”古籍平台,让一批珍藏于加州大学伯克利分校的中文古籍善本,以数字化的形式回归,该平台涵盖的古籍数量为20万页。再如浙江大学的“古籍智慧平台”,其利用OCR光学字符识别技术,将图片中的文字换成文本格式,它的识别准确率在90%以上。
这些平台有着各自的优势,但也各有各的局限性,如网速慢、智能化程度低。比如“书同文古籍数据库”收费较高,“中国哲学书”电子化计划目前囊括了超过三万部著作,用户却常常无法正常访问。
今年3月,字节跳动与北京大学联合成立“北大——字节数字人文开放实验室”,双方协作研发推出古籍数字化平台——识典古籍。10月,识典古籍测试版已上线,目前,已整理上传390本古籍经典(均为四部丛刊书目),3000卷,3000多万字,预计在3年内将整理10000种古籍,基本覆盖儒家、道家和佛家的经典书目,对用户免费开放。
识典古籍平台主页面截图
古籍是如何实现数字化的?
识典古籍有何技术特点?项目负责人介绍,识典古籍主要运用了三种技术,文字识别、自动标点、命名实体识别。
文字识别技术,即使用OCR技术对古籍的影印版文字进行单个切分、文字识别、顺序识别。所谓文字切分,是指古籍扫描件中的单字检测技术,能够获取每个字符的具体位置;文字识别,将切分的图片送入文字识别模型,获取每个文字的具体编码;顺序识别,结合文字内容和文字位置,获取整张古籍扫描件的阅读顺序。
古籍数字化过程视频截图
OCR的应用流程,是用电子设备对纸本古籍进行扫描,内容转录到计算机中,并生成相应的数字文档,效率与人工录入不可同日而语。目前行业内OCR识别准确率平均为93%至94%,识典古籍的准确率为96%至97%。
自动标点技术,是通过序列标注的方式对古籍自动进行标点划分,支持“,。?!、:;”七种常用标点。举例来说,“学而时习之不亦说乎”,自动标点后的结果是“学而时习之,不亦说乎?”命名实体识别,则是通过序列标注识别古籍文本中的命名实体,支持识别人名、地名、书籍、时间、官职这五种类型的实体。
自动标点技术解析视频截图
人工智能识别的工作完成后,为了方便用户阅读,整理平台要进一步对成型的文本进行整理。
首先,是对3%和4%错误率进行人工修改,分出段落和标题,然后再赋予不同的格式。而对于不同质量的古籍文献,整理标准不一,人力承担着不同的职能,大致流程为制定整理标准、人工整理、审核、上架,相关管理者是有古籍知识经验的北大团队。
其次,是对用户访问数据进行统计。然后是资源管理的功能,用户可以更清晰地看到每本书的基础信息,具体内容,以及当前所处的整理状态。
最后,将古籍划分等级,如经典书目、常读书目、基础书目,像《论语》这种经典书目,对正确率、标点和注释的要求都较高。负责人介绍,目前这些功能有的已经成型,有的还需要进一步增强,古籍数字化并非易事。
古籍数字化的现实困境
中国是全球拥有古籍最多的国家,国内现存汉文古籍300万部,散居在海外的古籍超过40万部,它们依然面临着衰朽,而已完成数字化的古籍为7.4万部,数字化进程仍处于初步阶段。
其中面临几大难点。首先是部分古籍在数字化之前要先完成修复,但古籍修复工序复杂,难以完全用科技手段,且培养古籍修复人员需要极高的时间成本。其次,花费高昂,有专家估算,如果将全国尚未数字化的古籍全部数字化,采集、组织、加工、存储、管理等费用大约需要60亿元。第三,技术难度高,现有的数字化很多是由缩微胶片转换而成,呈黑白影像且分辨率较低,难以切实满足读者的需求。
过去,古籍内容转化为数字文本主要依靠专家人工录入,耗时费力。北京大学数字人文研究中心主任王军算过一笔账:我国现存古籍约有20万种,从1949年到2019年,共修复整理出版了近38000种,要将现存古籍全部修复整理出来,可能需要三百年的时间。若利用人工智能技术辅助修复整理,大概二三十年就能完成。
相关负责人介绍说,目前古籍的使用人数众多,一些高校斥资买古籍数据库,但是访问不是很方便。建立数字化平台,各类学科的专业人士能更容易查看古籍文献。一些潜在的古籍爱好者,数字化平台可将这部分用户迅速连接起来。
目前,识典古籍测试版的句读错误率在3%到4%,文字识别也有一定的错误率存在,影响阅读体验。在人工智能机器学习一段时间后,准确率将会提升到98%左右。
古籍修复师在工作
作为北京大学-字节跳动数字人文开放实验室的成员,王军有着丰富的古籍数字化经验,他曾研发过“《宋元学案》知识图谱可视化系统”,对240万字的《宋元学案》进行了文本处理和分析,将2000多位宋元理学学者、近100个学术流派所涉及的人物、时间、地点、著作等提取出来构造成知识图谱。
据他介绍,对于识典古籍的开发和应用,北京大学主要从三方面入手,第一,联络国内的图书馆寻求公版资源,保障版本的正当性;第二,联系北师大、复旦、南大、陕西师大等高校的学者和文献专家,进行人工审核与校对,弥补人工智能有识别错误率的短板;第三,北大利用自有的学术平台,链接学术界和高校的年轻用户,对识典古籍进行推广。
古籍保护的更多可能
字节跳动旗下有多个信息分发平台,沉淀着大量关于内容平台的经验和技术,这些技术可以逐渐向古籍智能数字化的方向上迁移。过去半年,识典古籍技术开发团队整合了包括字节跳动人工智能实验室、今日头条的设计团队和抖音的开发、测试团队成员加入,其中有不少是古文献专业和文史哲专业的成员。
识典古籍在使用性上强调用户体验,网页打开流畅。主页有检索栏,用户可直接搜索书目;右上方是书库,点进去可看到经、史、子、集四个栏目;下方是古籍书样,如《周易》、《荀子》、《左传》,主页下方是“儒家经典”“道家经典”“文学经典”三个栏目。点开一本书,左边是目录,右边是正文,上方有四个功能项,依次点击可看到古籍原本的影像、注疏、繁简字体切换以及书库,且每部古籍都有精校和粗校的标签提示。
点开古籍呈现出的界面
目前识典古籍只有网页版,相关技术负责人预测,今年11月份识典古籍将会推出移动端,到时会链接到抖音和今日头条,活化更多的古籍内容。
在数字化之外,一年多来,字节跳动在古籍修复和活化上也有所进展。现在,字节跳动资助国家图书馆定向修复的珍贵古籍104册件,现已完成50多册件,包括一批稀有的样式雷图档。在活化方面,抖音平台推出“寻找古籍守护人”计划,四大名著、二十四史、四书五经相关的视频播放量超过600亿次,涵盖漫画、影视、美食、音乐等多种内容体裁。
古籍承载着中华文明,它的传播是需要大众参与。未来,通过识典古籍,向全社会开放古籍阅读检索研究能力,还将实现全自动整理校对,更高效地实现存量古籍全部数字化。同时,鼓励拥有文献的学者自行上传文献,丰富平台内容,用户甚至可参与再创作和再阐释,与平台形成一种良性互动,助力古籍文化传承和研究。