4月15日,記者從吉首大學(xué)獲悉,以陳炳權(quán)老師為主導(dǎo)的秦簡(jiǎn)數(shù)智化科研團(tuán)隊(duì)正緊鑼密鼓完善國(guó)內(nèi)首個(gè)面向深度學(xué)習(xí)任務(wù)的秦簡(jiǎn)字符與文本大規(guī)模數(shù)據(jù)庫(kù),擬待時(shí)機(jī)成熟時(shí)上線發(fā)布。該數(shù)據(jù)庫(kù)名為“Deepseek-QinjianDatabaseV1.0”。據(jù)悉,該數(shù)據(jù)庫(kù)是國(guó)內(nèi)首個(gè)專門用于秦簡(jiǎn)數(shù)智化全方位研究的大規(guī)模數(shù)據(jù)庫(kù),一旦成功上線發(fā)布,將大幅提升我國(guó)古文字學(xué)家、歷史學(xué)家、考古學(xué)家對(duì)秦代文字、歷史和考古研究效率。
該數(shù)據(jù)庫(kù)是由吉首大學(xué)陳炳權(quán)老師科研團(tuán)隊(duì)花費(fèi)近6年時(shí)間構(gòu)建而成,該庫(kù)涵蓋了湖南、湖北、甘肅、北京、四川等國(guó)內(nèi)所有出土的秦簡(jiǎn)文獻(xiàn)資料,目前還在不斷豐富與完善中。與此同時(shí),陳炳權(quán)老師已聯(lián)合相關(guān)國(guó)內(nèi)考古研究院與出版社,擬采用邊建邊發(fā)布邊推出邊上線方式,共同構(gòu)建國(guó)內(nèi)首個(gè)面向深度學(xué)習(xí)任務(wù)的秦簡(jiǎn)數(shù)智化線上大規(guī)模數(shù)據(jù)庫(kù)。截至發(fā)稿日期,“Deepseek-QinjianDatabaseV1.0數(shù)據(jù)庫(kù)”共包含17269張文本圖像,共標(biāo)注115996個(gè)字符,涵蓋2847個(gè)古文字類別。該數(shù)據(jù)庫(kù)按照秦簡(jiǎn)字符對(duì)應(yīng)于現(xiàn)代漢字聲母順序排列,如同新華字典一般,可以通過(guò)聲母拼音查詢到不同字形對(duì)應(yīng)的不同秦簡(jiǎn)文字圖像與所在文本字符,為我國(guó)秦簡(jiǎn)數(shù)字化、數(shù)據(jù)化和數(shù)智化保護(hù)、傳承研究提供了系統(tǒng)、全面、可靠、標(biāo)準(zhǔn)的數(shù)據(jù)資源支持。隨著湖南省里耶秦簡(jiǎn)考古工作的持續(xù)進(jìn)行,越來(lái)越多的秦簡(jiǎn)將重見(jiàn)天日,該數(shù)據(jù)庫(kù)的真實(shí)單字字形容量有望突破100萬(wàn)樣本大關(guān),其真實(shí)文本容量突破20萬(wàn)條,將徹底滿足目前深度學(xué)習(xí)大模型對(duì)訓(xùn)練、測(cè)試、驗(yàn)證樣本數(shù)量的要求。該項(xiàng)工作由吉首大學(xué)秦簡(jiǎn)研究院和通信與電子工程學(xué)院以陳炳權(quán)老師為主導(dǎo)的秦簡(jiǎn)數(shù)智化科研團(tuán)隊(duì)開(kāi)展實(shí)施,由相關(guān)出版社與考古研究院提供相關(guān)電子數(shù)據(jù)資源支持。屆時(shí),擬將邀請(qǐng)西北師范大學(xué)、安陽(yáng)師范大學(xué)等古文字?jǐn)?shù)字化相關(guān)專家參與上線發(fā)布指導(dǎo)工作。
秦簡(jiǎn)是中國(guó)秦代記錄文字、歷史、政治、經(jīng)濟(jì)等信息的重要載體,主要包括木牘、竹簡(jiǎn)、絲帛等,其歷史可追溯至戰(zhàn)國(guó)時(shí)期的秦國(guó)以及中國(guó)第一個(gè)大一統(tǒng)的封建王朝——秦朝。由于簡(jiǎn)牘長(zhǎng)期深埋在潮濕的地下,部分甚至長(zhǎng)年浸泡在水井之中,字跡模糊、字符殘損等問(wèn)題十分普遍,嚴(yán)重影響到我國(guó)考古工作者、文字學(xué)專家和歷史學(xué)專家對(duì)秦簡(jiǎn)文字識(shí)別與歷史還原工作的開(kāi)展。而現(xiàn)有的古文字?jǐn)?shù)字化技術(shù)雖在甲骨文、蒙文、西夏文字、維吾爾語(yǔ)等文字領(lǐng)域取得系統(tǒng)性突破,但在秦簡(jiǎn)字符識(shí)別、修復(fù)、釋義、生成、分析理解等方面仍缺乏高質(zhì)量、標(biāo)準(zhǔn)化、完整性的數(shù)據(jù)庫(kù)支撐,嚴(yán)重地制約著深度學(xué)習(xí)技術(shù)在該領(lǐng)域的進(jìn)一步研究與廣泛應(yīng)用。
“Deepseek-QinjianDatabaseV1.0數(shù)據(jù)庫(kù)”的構(gòu)建與擬發(fā)布正是為了解決這一問(wèn)題。吉首大學(xué)秦簡(jiǎn)數(shù)字化研究團(tuán)隊(duì)一直堅(jiān)守“里耶秦簡(jiǎn)數(shù)智化研究,賦能文化保護(hù)傳承”這一初心,耗費(fèi)近6年時(shí)間構(gòu)建了國(guó)內(nèi)首個(gè)秦簡(jiǎn)文字與文本數(shù)據(jù)庫(kù),填補(bǔ)國(guó)內(nèi)目前無(wú)標(biāo)準(zhǔn)性、全面性、規(guī)范性、系列性秦簡(jiǎn)數(shù)據(jù)庫(kù)的空白。該數(shù)據(jù)庫(kù)由國(guó)內(nèi)知名秦簡(jiǎn)古文字專家與吉首大學(xué)秦簡(jiǎn)數(shù)字化科研團(tuán)隊(duì)聯(lián)合共同標(biāo)注,確保字符與文本釋讀準(zhǔn)確性和機(jī)器可讀性。此外,“Deepseek-QinjianDatabaseV1.0數(shù)據(jù)庫(kù)”的構(gòu)建與設(shè)計(jì)考慮到秦簡(jiǎn)通假字、異體字、底紋復(fù)雜、殘簡(jiǎn)斷簡(jiǎn)素簡(jiǎn)居多等復(fù)雜因素,采用數(shù)字化處理與深度學(xué)習(xí)技術(shù)對(duì)其進(jìn)行提質(zhì)與擴(kuò)容,使得該數(shù)據(jù)庫(kù)具備良好的深度學(xué)習(xí)模型泛化能力與自適應(yīng)性。此舉對(duì)推動(dòng)人工智能在秦簡(jiǎn)文字、歷史、考古等研究領(lǐng)域的應(yīng)用具有重要的現(xiàn)實(shí)意義,對(duì)于深挖秦簡(jiǎn)的文字價(jià)值、歷史價(jià)值、政治價(jià)值、學(xué)術(shù)價(jià)值、時(shí)代價(jià)值、科學(xué)價(jià)值具有重要的理論指導(dǎo)意義。
“Deepseek-QinjianDatabaseV1.0”數(shù)據(jù)庫(kù)經(jīng)過(guò)無(wú)死角全覆蓋采集(包括人工采集)、清洗、標(biāo)注、分類、篩選、排序、專家校準(zhǔn)等系列環(huán)節(jié),其數(shù)量與質(zhì)量已達(dá)到深度學(xué)習(xí)任務(wù)基本要求。在此數(shù)據(jù)庫(kù)基礎(chǔ)上,吉首大學(xué)以陳炳權(quán)老師為主導(dǎo)的科研團(tuán)隊(duì)已產(chǎn)出包括國(guó)家自然科學(xué)基金、科技與學(xué)位論文、發(fā)明專利、國(guó)際學(xué)術(shù)交流會(huì)議論文在內(nèi)近30項(xiàng)各類科研階段性成果,并培養(yǎng)了12名具有文博人才素養(yǎng)的碩士研究生,其中6名畢業(yè)生均在國(guó)內(nèi)高校、科研院所、國(guó)企、央企等單位順利就業(yè),成為所在單位人才培養(yǎng)與技術(shù)研發(fā)的骨干力量。
據(jù)報(bào)道,2025年2月19日,湖南省社科研究基地“里耶秦簡(jiǎn)研究院”在吉首大學(xué)揭牌成立,展現(xiàn)出湖南省在深入挖掘秦簡(jiǎn)歷史價(jià)值、推進(jìn)中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化與創(chuàng)新性發(fā)展方面邁出的堅(jiān)定步伐。該校陳炳權(quán)老師從今年全國(guó)兩會(huì)期間湖南省代表團(tuán)的11個(gè)議案中獲悉,在譽(yù)為“秦簡(jiǎn)之都”的湖南成立“中國(guó)簡(jiǎn)牘中心”這一議案引發(fā)全國(guó)各界熱議,而該數(shù)據(jù)庫(kù)將會(huì)為“中國(guó)簡(jiǎn)牘中心”落戶湖南提供全方位、寬領(lǐng)域、強(qiáng)有力的基礎(chǔ)數(shù)據(jù)與技術(shù)支持。未來(lái),以陳炳權(quán)老師為主導(dǎo)的秦簡(jiǎn)數(shù)智化科研團(tuán)隊(duì)將進(jìn)一步豐富完善該數(shù)據(jù)庫(kù),爭(zhēng)取早日線上推出“Deepseek-QinjianDatabaseV1.0”數(shù)據(jù)庫(kù),讓秦簡(jiǎn)文化“活”在當(dāng)下,“走”向未來(lái),“奔”向世界,讓“冷門”絕學(xué)“熱”起來(lái)“火”起來(lái),堅(jiān)守簡(jiǎn)牘文化自信。
本網(wǎng)站的信息及數(shù)據(jù)主要來(lái)源于網(wǎng)絡(luò)及各院校網(wǎng)站,本站提供此信息之目的在于為高考生提供更多信息作為參考,由于各方面情況的不斷調(diào)整與變化,敬請(qǐng)以權(quán)威部門公布的正式信息為準(zhǔn)。