您现在的位置: 台海网 >> 新闻中心 >> 厦门 >> 鹭岛聚焦  >> 正文

AI大模型破译甲骨文?厦大团队又有新尝试……

www.taihainet.com 来源: 厦门大学 用手持设备访问
二维码

近日,厦门大学信息学院自然语言处理实验室史晓东教授团队申报的“基于甲骨文多模态大模型的多元信息甲骨文辅助考释模型”入选“探元计划2024”“创新探索型项目”TOP10榜单。

甲骨文也被称作“殷墟文字”,距今已有三千多年历史,是世界四大古文字之一,是现代汉字的根脉。传统的甲骨文字考释工作极其耗时费力,依托于专家进行人工释读,多采用字形分析、辞例研究等方法,需要考古专家以深厚的知识积累和大量的文献阅读为基础,结合多方面的知识去破译甲骨字,已经难以为继。近年来AI技术迅猛发展,利用深度学习模型超强语义表示能力来实现甲骨文的辅助考释,优势已经崭露头角。

团队研究人员针对甲骨文数据稀缺、图像质量参差不齐的现状,系统整理相关古文字数据,构建更大规模、更高质量的甲骨文多模态数据集,提出了“基于甲骨文多模态大模型的多元信息辅助考释模型”的技术方案。

项目将设计一系列与实际考释过程密切相关的任务和评估方法,如跨字体图像映射、跨字体IDS(表达结构的部首偏旁序列)解码和甲骨字现代字对译关系等,以有效训练多模态大模型。利用其强大的跨模态理解能力,辅助甲骨文考释。在大模型提供的语义嵌入基础上,本项目还将设计融合音、形、义、用多元信息的端到端甲骨文综合考释模型,综合利用字形结构、语义关联、同音通假和用法聚类分析,开发一种更加轻量的考释系统,以适应资源有限的实际考释场景。

据悉,“探元计划2024”是由国家文物局科技教育司指导,中国文物信息咨询中心(国家文物局数据中心)、腾讯SSV数字文化实验室、腾讯研究院、社会价值投资联盟(深圳)与中国文物报、紫荆杂志社联合发起。厦门大学信息学院史晓东教授为“基于甲骨文多模态大模型的多元信息甲骨文辅助考释模型”项目的团队负责人,团队成员包括陈毅东副教授以及吴智聪、周子涵、付彪、黄崇轩等研究人员。项目团队在甲骨文考释方面深耕多年,在研究中积累了大规模的甲骨文相关语料,为项目的顺利开展奠定了坚实基础。

来源:厦门大学

相关新闻
改革·印记丨总书记向往之地,一片甲骨惊天下

“大家猜一猜,这块石头上的甲骨文是什么字?”殷墟宗庙宫殿遗址,导游指着一方大石上刻着的红色甲骨文问道。 “我知道,是‘福’字!”一名来自湖北的游客自信地说。 2022年10月28日,习近平总书记到安阳殷墟考察时,也曾问过同样的问题。 “总书记非常风趣,说将来过年的时候可以贴这个。”安阳市文物局局长李晓阳对此记忆犹新。 2022年10月26日至28日,中共中央总...

重磅官宣!千万粉丝的她,“抵达”塞浦路斯!

10月29日 福建日报海丝国际传播中心丝路新航程 “AI到塞岛”项目签约仪式 在福建日报大厦 中国驻塞浦路斯大使馆 连线举行 中国驻塞浦路斯大使馆、福建省委宣传部、福建省外事办、福建日报社(报业集团)、塞浦路斯邮报、塞浦路斯移动数码公司的有关领导、嘉宾通过网络连线,共同见...

卓荣泰对核电态度大转弯? 沈富雄断言:事实非常残酷

华夏经纬网10月23日援引台湾“中时新闻网”报道,台当局行政机构负责人卓荣泰接受外媒专访指出,台当局对新的核能技术态度“非常开放”,遭在野质疑台当局核能立场反复。对此,前民意代表沈富雄22日就表示,“卓荣泰怕反核人士的反弹,一但对内部松口的话,反弹会无法收拾,但他对外讲的就有点跟上世界潮流”,引发讨论。 沈富雄22日在岛内政论节目《少康战情室》中表...

台媒:Blackwell芯片遇瓶颈,台积电、英伟达传嫌隙

参考消息网援引台湾《工商时报》10月18日报道,正值英伟达最新Blackwell 芯片投入量产之际,有迹象显示其正减少对台积电的依赖,“AI(人工智能)领域最成功、最赚钱的合作伙伴关系恐怕出现裂痕”。 报道引述美国科技媒体“信息网”称,知情人士指,英伟达在推出新款AI芯片Blackwell后,连续数周都未能通过高压环境测试,致使其与台积电互相“杠上”,在业界引发轩然...

总书记关心的世界文化遗产|殷墟甲骨见文明

河南安阳的小屯村一带,曾是殷商王朝中心区域。洹水由此穿行而过,蜿蜒远去。朝代更迭,这片土地逐渐荒芜,被后人称作“殷墟”。   作为世界文化遗产,殷墟是中国连续发掘时间最长、清理遗迹最多、出土文物最丰富的古遗址。   在殷墟出土的丰富文物中,甲骨文无疑是分量最重的...