“大模型訓練需要大量數據,因此對算力的要求很高。”在日前召開的首屆“AI Tech Day(人工智能科技日)”峰會上,中國工程院院士、清華大學計算機科學與技術系教授鄭緯民介紹,自去年12月份以來,大模型需要的AI芯片漲價一倍,國外芯片“一卡難求”。盡管國內數十家公司在AI芯片研制和生產方面取得了很大進步,但國產芯片尚未受到市場的廣泛青睞。
對此,與會專家呼吁,解決算力難題,應重塑大模型算力生態,助力國產AI芯片系統練好“內功”。
加強底層研發,提升國產AI芯片“包容力”
“如果基于國外芯片編寫的軟件能夠很容易移植到我們的國產芯片系統上來,用戶就會感覺到國產芯片好用?!编嵕暶裾J為,但由于生態建設不完備,目前國產芯片在大模型訓練相關軟件移植方面表現不太順暢,因此需要進一步加強底層研發,做好包括編程框架、并行加速、通信庫在內的軟件研發工作。
“為了發展AI芯片的生態體系,一些國際大企業甚至可以放棄一些高利潤的項目和方案?!庇⒉悼艭EO周韡韡介紹,營造生態需要發動整個行業的創新力量,例如國際企業曾通過主動開源部分軟件的底層代碼、讓利給基于芯片的軟件開發者,形成以AI芯片為核心的算力體系。
相較于芯片本身的硬件性能提升,鄭緯民認為,通過營造生態,提升國產AI芯片的“包容力”更加急迫?!叭绻懔ι鷳B做得非常好,即使國產芯片的硬件性能只有國外性能的60%及以上,大家也會喜歡用?!编嵕暶裾f,但如果算力生態沒做好,新型軟件跑不起來、軟件移植不順暢,即便硬件性能達到國外的120%,照樣難以轉變為有效算力。
為凝聚行業力量、改變當前的大模型算力生態,英博數科聯合百川智能、中國計算機學會、清華大學等單位共同成立北京AI創新賦能中心技術委員會。作為該技術委員會的顧問,清華大學電子工程系教授汪玉表示:“在大模型領域,我們將同時從軟件側和硬件側方面開展聯合優化。在打造通用型人工智能服務平臺的同時,推動高性能計算領域智能芯片和高模態電路關鍵技術的研發。”
共建基礎生態,推動現有算力融合創新
“大模型興起之前建設的算力,相對而言利用率較低,跟不上現階段大模型對算力指數級發展的需求?!卑鹱稍儺a業數字化研究院負責人徐樊磊介紹,為提升整體算力效率和滿足差異化需求,應建立支撐大模型萬億量級參數計算的“智算中心”?!爸撬阒行摹笨衫矛F有高質量數據中心,通過提升組網能力、協同能力、軟硬件適配能力等實現部署。當前,“萬卡”級別的智算中心正在主要節點城市發展起來。
與會專家認為,推動現有算力融合創新將進一步提升當前算力使用效率?!?萬塊卡(AI芯片)應該怎么連?是不是每塊卡和其他9999塊直連?如果這樣,中間的連接將需要1萬乘以9999個連接卡,成本將非常高。”鄭緯民說,通過最有效的連接支持模型并行、數據并行等不同的要求,是融合創新的關鍵。
大模型背后運行的是更加復雜的網絡架構和智能算法。如何在降本增效的同時,促進大模型算力使用門檻的降低?“‘云’模式是打通供需不對稱、達成算力普惠的有效路徑。”周韡韡表示,通過共享、共融集結現有算力,萬卡平臺及配備高效網絡交互機制的大模型訓練與推理平臺,可以開放給大企業、小微企業共用。通過搭載數據遷徙、訓練數據庫等工具,云平臺等基礎生態的搭建有望讓算力像水和電一樣隨取隨用。