日前,聚焦自然語言處理領域的2022語言與智能技術競賽正式啟動。本次競賽聯手“千言”數據集開源項目,覆蓋跨模態、知識驅動、可信學習等人工智能的前沿課題,發布新四大任務,并發布中文領域首個搜索知識對話數據集、首個面向實際應用場景的中文大規模段落檢索數據集等多個重磅數據集。
語言與智能技術競賽已連續舉辦4屆,成為目前最熱門的中文自然語言處理賽事之一。本次競賽由中國中文信息學會和中國計算機學會聯合主辦,百度、中國中文信息學會評測工作委員會和中國計算機學會自然語言處理專委會承辦。
在上一屆評測中,參賽隊伍超過3500支,企業隊伍占比約20%,覆蓋了互聯網、通訊、金融、能源、航空航天等多個領域;高校隊伍占比約50%,覆蓋了清華大學、北京大學、復旦大學、中國人民大學、慕尼黑工業大學、早稻田大學、愛丁堡大學等300多所國內外高校。評測累計收到有效提交結果1萬多次,競爭激烈。
2022年競賽對賽題設置進一步升級,推出四大新任務:段落檢索、知識對話、情感分析可解釋性、視頻語義理解。這四大任務賽道覆蓋自然語言處理的前沿領域,反映了真實應用的需求,具有極高的學術和產業價值。
本次語言與智能技術競賽聯手“千言”項目,首次公開多個最新中文數據集:來源于實際應用場景的大規模段落檢索數據集DuReader_Retrival、領域開放的搜索知識對話數據集DuSINC、情感分析可解釋數據集DuExplain、大規模視頻語義理解數據集DuVUnderstanding。這些數據集具有很高的技術價值,將在本次評測期間,免費開放給參賽選手進行技術研究和探索。