当前位置:
首页 > 字体文章 > 古文免费字体软件 边境| Longquan Temple大师Xianchao:使用AI来识别,打破句子和翻译古书籍

古文免费字体软件 边境| Longquan Temple大师Xianchao:使用AI来识别,打破句子和翻译古书籍

北京郊区位于风水的脚下,朗昆神庙(Longquan Temple)被视为佛教寺庙,具有最强的科学研究力量在该国乃至世界。

当时,Xue​​cheng大师的话:“佛教是古老的,但佛教是现代的”,朗格神庙的僧侣被提升为进行科学研究和撰写代码,将佛教与新技术结合在一起,并普及和国际化项目。结果是连续的,他们正在进行热门搜索古文免费字体软件,并且不断地关注外界。

最近,来自朗奎安神庙(Longquan Temple)的大师大师参加了一次国内技术会议,并分享了使用人工智能组织和整理Tripitaka的技术实践。

▍佛教AI的诞生:使佛教经文更容易阅读

千cha大师最初是北京大学物理学院的凝结物理学硕士学位。他于2007年毕业于北京大学,并于2008年转变为朗奎恩神庙(Longquan Temple)。从那时起,他一直致力于编辑Longquan Tripitaka并研究佛教原则。

2016年,Alphago在击败Lee Sedol的历史性活动引起了Xianchao大师对AI的关注。从那以后,他开始尝试将AI与他正在使用的OCR技术和自动标点相结合。

Xianchao大师在Techo Park开发人员会议上介绍了他的研究结果

Buddhist Native AI解决了古代书籍和经文的痛点

由Longquan Temple编辑和整理的Tripitaka是一组佛教经文,也称为所有经文。在超过两千年的中国佛教中,在整个王朝中都经过了翻译,补充和修订的三阶段。

到目前为止,已经传达了数十个版本,越来越少的单词超过五千个单词,而越来越多的单词是1.2亿个单词。

60多名官员,学者和僧侣参加了Qianlong版本的Tripitaka的修订

六年来完成了包括雕刻,印刷和装订在内的860多名工匠。

(图片是Tripitaka的木结构版本)

2012年,Longquan Temple开始组织Tripitaka,并计划在整整十年内完成它。由于传统方法主要通过版本校对,校对和标点符号组织古书籍,因此这些步骤可以确保当代读者也可以尽可能理解晦涩和陌生的经文。

三年后,朗夸神庙(Longquan Temple)汇编并出版了“南汉(Nanshan)的八项主要作品”。在另一年中,建立了Longquan Temple的图书馆办公室,以探索使用人工智能技术来开发基于深度学习的单个字识别引擎。

2017年,Longquan Temple建立了人工智能和信息技术中心,开发了一个完整的柱状识别引擎,该引擎可以识别Tripitaka的各种版本,并成功地将Tripitaka版本的“ Sixtion Avatamsaka Sutra”电子化。

千cha大师目前是Tripitaka办公室的主任,负责Tripitaka的汇编。

▍自动标点:OCR +深度学习

为了降低人们阅读古代经典和提高学者的工作效率的门槛,近年来,武哥总队使用了包括深度学习和OCR在内的技术来改变Tripitaka的传统解释方法。现在,它取得了很多惊人的效果。

在现代中文中,有将近十个常用的标点符号,例如时期,引号,书名等。

在圣经中很少见到古代中国人的唯一时期和突然的迹象,很难阅读。

Xianchao大师介绍,所谓的自动标点符号是指自动将现代中国标点符号标记为基于算法的古代文本的技术,而无需手动干预。这主要是为了促进现代读者阅读。

以前,已经进行了有关人工智能的研究,以添加标点为古代中国人,但江乔大师说,他基本上只终结了古代中国人,他认为这种做法“更保守,更学术”。

他的团队将深度学习应用于自动标点符号,这可以增加时期,逗号,问号,感叹号,结肠,半隆和标点符号,并具有更高准确性的古代中国文本。经过验证后,他们开发的变压器注释结果“几乎与人类没有区别”。

▍RNN+LSTM+RESNET在效果方面具有全面的改善

在NLP领域,自动标点符号是一个简单的序列标记问题。解决此类问题的标准方法是使用经常性的神经网络(RNN)。

为了提高RNN的性能,已经在此基础上开发了双向RNN,也就是说,每一刻的输出不仅取决于上一刻的所有输入,还取决于上一个和后续输入。之后,Xianchao法师团队介绍了LSTM方法。

但是,基于这些技术实现的自动标点符号并不令人满意。 Xianchao Mage团队取得意外结果的原因是他们基于此引入了重新连接残差网络。

团队于2019年发表论文

“ Tripitaka的汇编:当AI遇到佛教时”引入了自动标点符号技术

Xianchao大师解释说,过去,神经网络最多有十或二十层的结构。如果有很多层,训练结果将不容易收敛。剩余网络通常可以是数百层甚至数千个层。更深层次的网络有助于捕获更深层次的语义信息,这是其巨大成功的关键。

该团队还试图使用卷积神经网络(CNN),最终结果是,残留网络的标点符号准确率平均高约20-30%。

AI自动标点工具有多高效?大师武完成了大约20,000个单词的古老文字标点符号。根据古老书籍标点符号中千字15元的一般特许权使用费水平,相当于每天创造300元的经济价值。即使自动标点符号的准确性仅计算为60%,它也会每天产生180元的值。

该团队还在不断升级自动标点符号工具

最新一代的准确率为93.3%。

目前,由于江哥大师团队的训练数据主要取自佛教经文,因此其自动标点符号更适合于佛教经文的标点符号。但是,他说,将来,该技术还将应用于更多领域的古代文档,例如经典,历史和子集,以使学者摆脱机械和重复的劳动。

古代书籍校对的未来工作模型是无望的,可以改变为:AI首次断开句子并增加标点符号;专业的学者进行后置读和修改。

Xianchao Master Team在2018年开设了这项自动标点符号在线服务的来源。您可以通过访问古书籍·Cool()尝试一下,您也可以申请免费呼叫API。

▍识别和翻译:AI成为中国制造佛教经文的宝箱

除了自动标点符号外,大师大师还将AI应用于古书籍研究的许多方面。

言语列:对齐与翻译

言语和白色句子是古代和现代文本的一致性和翻译。为了实现基于AI的基于文本的对联,大师Xianchao首先构建了基于文本的语料库对齐,然后设计了一种对齐算法,取得了良好的结果。基于两个相似性和差异的独立指标,很容易找到用不正确的对准的句子。

翻译Tripitaka并分开句子并对齐它们

帮助手动后进行校正和校对

由于Tripitaka在以前的王朝中有许多专业术语和复杂的翻译作品语料库,因此不可能与与古代中国人有关的专业进行处理。 Tripitaka中的单词总数为数十亿。如果您仅依靠有限数量的专家,那么工作量将非常巨大。因此,AI的干预为专家分享了很多工作量。

基于深度学习以识别古代文本的OCR

目前,市场上的OCR软件是用于打印的,因此它无法很好地识别古代书籍和文档中的字体。

Xianchao大师和他的合作团队已经基于CNN+LSTM+CTC框架开发了新的OCR引擎。然后,根据Tripitaka(Goryeo Edition)的70,000多张完整图片”,培训了168万个文本线的数据集。

基于弱监督学习的精确文本细分

最后,它开发的OCR方法可以执行单词识别古文免费字体软件,单列识别和对古代书籍的半自动多柱识别,并且可以有效地完成各种古代书籍的电子工作。

OCR软件识别古代中文以数字化