新基建、東數西算等工程的實施,對于推動算力、算法、數據、應用資源等的集約化和服務化創新提出了更高的要求,對構建可提供高端算力服務的一體化先進計算基礎設施提出了新的挑戰。
“為了解決我國超算中心運行面臨的挑戰,提升我國超算的應用水平,推動超算中心從提供裸機時向提供多領域應用服務轉變,構建超算互聯網勢在必行?!?月22日,國家超級計算無錫中心主任楊廣文在接受科技日報記者專訪時說。
楊廣文透露,目前我國超算互聯網原型項目研究已取得初步成果,將于近期對外正式發布。今后,這些成果將能進一步支持智能計算中心的互聯,并在更高層面上支持未來算力網的構建與營運。
布局建設超算互聯網意義重大
楊廣文介紹,超算互聯網是一種以超級計算機和高速互聯網為基礎的國家級先進計算基礎設施,它以高速網絡連接分布各地的超算中心,聚合多個超算中心的軟硬件資源,并通過建設超算資源共享與交易平臺,支持算力、數據、軟件、應用等資源的共享與交易,同時向用戶提供多樣化的算力服務。
作為一種先進計算基礎設施,超算互聯網將超算所提供的強大計算變為計算服務,并以一種標準化的形式提供給計算服務的使用者。
“超算互聯網通過制定資源接入、共享、交易等標準,構建具備資源共享與交易能力的公益性資源平臺,可將各級超算中心、云計算企業、科研機構等不同來源的算力、數據、軟件、應用等統一為超算資源并整合到一起,為科研、生產生活等提供高效、專業的超級計算服務。”楊廣文說。
在楊廣文看來,和傳統的超算應用相比,超算互聯網的最大特點是將提供超算算力轉變為提供超算應用服務,這就帶來了超算互聯網在應用模式上的巨大改變,對超算及其應用的發展具有相當大的推動作用。
在清華大學副教授黃震春看來,作為一種信息基礎設施,超算互聯網起到了連接下層資源提供者與上層用戶的作用。因此,從商業運營角度來看,超算互聯網的核心服務平臺應當是一個公益平臺,在國家相關部門的支持與指導下應用于超級計算服務市場。
國家超級計算無錫中心研發工程師葉躍進認為,在建設超算互聯網時,要改變超算中心分散獨立運營導致的算力碎片化和資源利用不均衡的局面,實現超算資源的互聯互通和資源共享、交易等;同時,要構建超級計算管理及應用平臺服務體系,提供跨域的統一服務策略和評價指標,提供并行應用軟件,以及軟件的共享與交易機制;此外,還要支持建設面向各領域和重點行業的應用平臺,充分利用國家級超級計算資源,有效支持重點科研與行業用戶,引導、培育超級計算資源和服務的商品化和市場化,從根本上提高我國并行算法與并行軟件的研發水平,使超級計算更好地服務于科技創新、產業升級等。
“超算互聯網的建設和發展,將在國家層面給出實現全國大數據中心一體化協同創新的高質量解決方案,為開啟算力經濟時代的世紀工程提供堅實的基礎?!睏顝V文說。
超算互聯網仍面臨諸多挑戰
“超算互聯網的核心目標是確保超級計算服務實現從傳統的提供算力到提供服務的革命性轉變?!睏顝V文說,只有實現了資源的高速互聯,各種超算資源才有可能成為一個有機整體,可能支持面向應用領域的行業或者產業聯合體的形成,構建應用平臺和應用系統,為應用領域和相關產業提供有效的高性能計算應用服務。
楊廣文介紹,目前超算互聯網的構建和運營無論在技術上、人才上還是在商業模式、產業培育上都面臨著諸多挑戰。
從技術層面來看,超算互聯網仍需要通過高速網絡高效連接來自不同超算中心和資源提供單位的、分布異構的超算資源,需要實現算力、存儲、數據等各種高性能計算資源的共享和高性能計算任務的有效調度。
從人才資源來看,超算互聯網的構建與運營涉及到高性能計算、計算機網絡、并行軟件、分布式系統等計算機領域的諸多研究方向,尤其離不開以超算中心為主的超算運營管理與技術開發人才,需要具備相關應用領域和行業專業知識、行業經驗的人才隊伍。
從產業生態來看,超算互聯網構建于超級計算和高速網絡的基礎之上,對相關產業生態的依賴非常明顯,從操作系統、基礎軟件到并行應用軟件的開發與優化,這些都會影響到超算互聯網的構建與運營。
“在面向應用領域的專業超算服務產業初期和發展階段,亟須國家在產業政策等方面給予大力扶持,以推動具有技術和市場優勢的企業聯盟或集群快速成長?!比~躍進說。
建設過程中要堅持標準先行
“建設超算互聯網,將有效聚集超算硬件資源和專業人才,并基于超級計算系統研究并行軟件的開發、測試、遷移、共享和服務化技術,支持和鼓勵并行應用軟件的開發?!睏顝V文說。
黃震春認為,在超算互聯網的建設過程中,需要遵循標準化、服務化、領域化等一系列原則,以保證超算互聯網的開放性和普適性;尤其要堅持標準先行,這既有利于超算互聯網的合作和推廣,又能通過成熟的標準保證系統的兼容、穩定、可用,更能促進相關標準的開放,保證超算互聯網的不斷發展與演進。
我國高度重視超算互聯網工程,并于2020年在重點研發計劃的“高性能計算”重點專項中,專門部署超算互聯網原型項目——國家高性能計算環境領域應用平臺及服務體系研究與構建,目前已在多個方面取得了重要進展。
值得一提的是,超算互聯網原型項目還得到了之江實驗室的大力支持,同時也能更好地支持之江實驗室“智能計算數字反應堆”重大項目的實施。
楊廣文介紹,超算互聯網原型項目可實現多個國家超級計算中心之間每秒千億字節的高速網絡互聯互通,聚合每秒不少于200億億次浮點運算的計算能力和1艾字節的存儲能力。目前超算互聯網的高速互聯采用開放式的架構和標準協議,可支持未來網絡帶寬升級和接入更多符合條件的國家級及其他各級超算中心、資源供應商與用戶單位。
同時,超算互聯網建設團隊還針對核心資源網的超級計算系統,研發支撐應用領域平臺構建的技術,設計一套基于核心資源網的應用平臺搭建支撐工具。
相關專家認為,超算互聯網原型項目的順利實施,證明了超算互聯網在技術上的可行性和對行業與多領域應用的強大支撐能力,將為我國科技創新、產業升級、社會發展等提供基于超級算力的專業服務,有效帶動相關產業發展,支撐國家相關戰略的順利實施。