股融通配资,线下配资平台,线上股票配资炒股,10大配资公司

40億數據灌注國內首個古籍處理與研究開源智能工具

“荀子”大語言模型:化繁為簡 通讀古今

信息來源:科技日報更新時間:2024-01-08

“秦淮佳麗地,城闕望中迷。柳暗青絲發,花香碧玉衣。歌樓留夜色,畫閣斂春暉。細雨輕舟去,雙魚夢澤飛?!边@是近日上線的“荀子”古籍大語言模型(以下簡稱“荀子”)以“金陵”為題,生成的一首古詩。

記者了解到,“荀子”是國內首個專門應用于古籍處理與研究的開源智能工具,由南京農業大學王東波教授研究團隊聯合古聯(北京)數字傳媒科技有限公司發布。它依托國家社科基金重大項目“中國古代典籍跨語言知識庫構建及應用研究”,基于40億字的大型混合語料數據生成。

“數據是大模型的基礎。”王東波介紹,在“荀子”的研發過程中,研究團隊在人工智能通用模型的基礎上,灌注了繁簡體《四庫全書》等20億字的古代漢語語料和文化領域的20億字的現代漢語語料,使“荀子”具有古籍智能標引、古籍信息抽取、詩歌生成、古籍高質量翻譯、閱讀理解等功能。

“對于漢語言研究者來說,他們還可以利用‘荀子’完成古籍詞法分析、實體識別、關系抽取、文本分類與匹配、文本摘要等工作?!蓖鯑|波舉例,如果要研究《史記·陳涉世家》的人物關系,就可以用“荀子”識別這篇文章中的人物名稱和關系名詞,再用知識圖譜的方式呈現人物關系圖譜,從而提高檢索、查詢、研究的效率。

王東波介紹,此次發布的“荀子”大模型中的基座模型,還可以讓用戶根據自己的需求對“荀子”進行微調,幫助用戶開展更有針對性的研究。

“荀子”是怎么做到化繁為簡、通讀古今的?“核心是‘算力充足’并且‘飽讀詩書’?!蓖鯑|波介紹,“荀子”的順利問世離不開南京農業大學提供的高性能算力基礎設施支持,以及研究團隊長期積累的精加工語料庫。

“模型的構建受算力、場景應用等多方影響,但精準度較高的優質數據是最為關鍵的。”王東波表示,研究團隊自2013年起,一直專注于人工精標注數據的工作。

“比如要訓練大模型自動標注《岳陽樓記》中的形容詞,首先需要人工標注這篇文章中的形容詞。在積累了大量的人工標注后,再讓機器進行學習。”王東波說,這項“坐冷板凳”的基礎標注工作,他們一做就是10年。

“我們期待能將古籍的智能化研究與跨學科的人才培養相結合,讓學生既有前瞻的科研視野,又能積累較為深厚的人文底蘊。”王東波表示,研究團隊希望能讓更多人接觸古籍、品讀古籍、傳播古籍,讓“故紙堆”重新煥發活力,推動中華優秀傳統文化創造性轉化、創新性發展,賡續中華文脈。

王東波介紹,“荀子”除了能讓人們更順暢地閱讀古籍內容,推動古籍整理、古籍數字化、古籍活化利用與傳播之外,未來還可應用于人工智能寫作、人工智能教學、數字文娛等領域。

相關推薦
MORE