我校计算机与信息工程学院张重生教授和首都师范大学甲骨文研究中心莫伯峰教授作为共同特邀嘉宾录制的《透视新科技》“智”破甲骨之谜节目于11月5日19:41在中央电视台科教频道(CCTV-10)播出,节目时长为30分钟。
该期节目中,莫伯峰和张重生共同分享了人工智能在推动甲骨学研究方面的主要进展,包含甲骨文的破译(释读),甲骨缀合、校重,甲骨文识别等方面工作。
关于利用人工智能破译甲骨文方式的问题,张重生认为,目前人工智能还不能完全破译甲骨文,但可以辅助专家做一些事情。一是可以把已经破译/释读的甲骨文识别出来。基于深度神经网络的技术,在搞清楚输入和输出等中间算法的基础上,可以完成文字特征提取。通过收集大量的甲骨文样本,并对类别进行编码,就可以完成对甲骨文的识别。二是把未破译的甲骨文图像进行类聚(聚类)。对不认识(无法破译)的甲骨文,计算机可以将同一个字的材料进行聚类,节约专家确认文字含义的时间,提高工作效率。三是可以把残缺的材料进行缀合(拼合),把它变得更加完整。比如,我们的AI甲骨缀合技术可以把5000个打碎的乌龟壳碎片进行拼合(复原)。实验阶段,AI甲骨缀合技术准确率达到99%左右,在真实应用阶段准确率在85%左右。
关于人工智能与甲骨文结合的研究进展,张重生、莫伯峰、门艺等学者通过联合攻关,首次实现了人工智能批量拼合残损甲骨技术,进行甲骨缀合。因为甲骨绝大多数都是残断、破损的,甲骨缀合一直是甲骨学中一个非常基础性的问题。他们成功利用AI甲骨缀合技术,在15天内发现了35组甲骨专家在过去几十年中都没有发现的新缀,而且其中有两组还被国家图书馆用实物拼接进行验证,证明了拼合结果是正确的。
关于利用人工智能识别甲骨文的难点问题,张重生表示,从数据方面,甲骨文也给人工智能研究人员提供了一个真实的、有挑战的、困难的数据集。一是甲骨文中每个文字的数据量分布非常不均衡,如“王”和“贞”出现的频率非常高,而“蠢”可能仅出现几次。新一代数据驱动的人工智能技术,只能正确识别出现频率比较高的甲骨文,对出现频率低的甲骨文,有可能识别不出来或正确率不高。二是甲骨文数据本身有噪声,计算机处理这类数据,有很大的挑战性。三是甲骨文中的形似字,如“夕”和“月”,“比”和“从”,在形态上非常相似,计算机很难进行精细区分。四是文字需要放入具体的语言环境中进行理解,而语言具有一定的不确定性,这无疑增加了甲骨文破译的难度。
关于未来利用人工智能破译甲骨文的前景,张重生强调,从长远来说,人工智能破译甲骨文的目标肯定是能实现的,如果计算机掌握了甲骨文语法编码规律,再结合古文字专家提供的文字演变规律,就可以倒推(破译)某个(甲骨)文字的含义。
张重生,男,1982年9月生,博士,河南大学计算机与信息工程学院教授、博士生导师,数据科学与人工智能实验室负责人。2012年博士毕业于法国国家信息与自动化研究所(INRIA),获得优秀博士论文荣誉,研究方向为数据科学、人工智能、古文字计算。主持国家自然科学基金项目、教育部人文社会科学研究一般项目、科技部高端外国专家项目等20余项,在AAAI 2023、SIGKDD 2022、IJCAI 2020等CCF-A类顶级国际会议及知名期刊上发表学术论文50篇,获得法国数据挖掘会议EGC 2010最佳论文奖及1500欧元奖金;出版著译作5部,作为第一发明人申请/授权17项国家发明专利,其中9项与古文字计算密切相关。曾受邀在中国机器学习大会、全国大数据与社会计算学术会议、IEEE数字孪生和平行智能国际会议(DTPI)的专题论坛上进行专题报告。作为主要成员之一执笔《河南省大数据产业发展引导目录》、《河南省国家大数据综合试验区实施方案》并由河南省人民政府颁布实施。主研“AI缀多多”软件,实现了人工智能批量缀合甲骨,在古文字与人工智能结合方面取得了率先突破,得到新华社、河南卫视、河南日报、环球网、腾讯网等媒体的广泛报道。
CCTV-10“智”破甲骨之谜——节目链接:
https://tv.cctv.com/2023/11/05/VIDEETfzfRLtgE4quaelIXAv231105.shtml