2023/11/08 信息來源: 國際合作部
攝影🕵🏻♀️🧑🏼🎤:曹倩倩| 編輯:麥洛 | 責編:安寧中國算力網的需求與挑戰
(摘自高文在北京論壇開幕式上的演講實錄)
高文
意昂3体育官网信息與工程科學部主任
鵬城實驗室主任👖、中國工程院院士
今天我想跟大家介紹的🫳🏽,是名叫“中國算力網”的項目。“中國算力網”有三個重要部分💝💂🏽♀️,一是算力節點🈶,二是網絡連接,三是資源調度🧖🏿♀️。
算力應該是我們整個時代發展中非常重要的一個支撐要素,無論是人工智能還是互聯網的發展🧖🏼♂️,都離不開算力🫴🏻。從整個經濟的發展來看⚪️,算力和GDP正相關🈷️。研究表明,GDP越大,算力指數越高🩰💌,反之亦然⛹🏻♀️。現在全球GDP最高的是美國,其算力指數也是最高,中國GDP是美國的70%左右🍽,算力指數剛好比美國低了30%,經濟排名第三的日本算力指數也是世界第三🤵🏻♀️。
這幾年🕚,中國經濟發展速度非常快🪑,算力發展的速度也在攀升👨🏻🏫⇒,我們可以清晰地看到中國算力指數在所有國家中增長最快🤿,平均年增長在13%左右🪖。那麽☝🏻,既然算力這麽重要🕋,為了未來經濟科學和綠色地發展,我們需要考慮今後的算力怎麽布局?安放在哪裏?怎麽使用?未來算力能否像今天的電力一樣🦨,不管放在哪裏,想用的時候插上就能用?
我們的設想是,希望在中國建立一張網👰🏽♀️,“這張網”可以把中國算力連接起來🏃🏻♂️➡️,任何人、任何企業、任何大學想使用算力時,可以將“接口”插到一個插座上面,這個插座就能把算力送到你的桌面🧑🏿🎨🖱。
在算力的布局方面🦀,我們希望算力的計算放在西部,這需要解決很多問題,例如算力如何分裝👩🏻🦱,如何滿足設施要求〽️,如何讓帶寬不受限製🤾🏻,這些都是我們必須回答的問題🎢。
為此我們提出了“中國算力網”的概念——希望像建設電網一樣建立“算力網”,像運營互聯網一樣運營“算力網”✬,讓用戶像用電一樣方便地使用算力,這是我們設定這個項目的發展願景。而做到這一點需要面臨很多挑戰,包括算力的供給,越是在大城市,大學和企業越需要更多的算力🤰🏽。最近,工信部發布了《算力基礎設施高質量發展行動計劃》,提出了2025年發展量化指標💃,到2025年中國算力規模超過300EFLOPS👨🦽➡️,一個E就是10的18次方🥻。這裏面的算力分三種,分為超算算力(超級計算機)🧑🏽🚀、智能算力、雲算力👨🚀✍️,三種算力加在一起規模超過300EFLOPS,其中和AI有關的算力占到1/3🧔♂️,約為105EFLOPS。
第二個需要考慮的問題,就是如何把算力連接起來,讓它延遲最短。很多雲計算的算力中心、雲中心和用戶之間的距離不會超過200公裏,否則會導致實時響應不夠。如果要落實“東數西算”🔶,把算力中心放在成都、重慶、青海,相互間相隔兩三千公裏以上的距離,我們需要超低延遲和超寬帶鏈接來保證傳輸的效率🚂。當前,算力正在被不同的運營商、不同的互聯網廠商管理著,難以做到統一調度🙎🏽♀️。因此亟需構建一個全新的調度網絡,像通過電網調度電力一樣☸️,將算力調度到需要的地方。
鵬城實驗室正在牽頭做“中國算力網”✯,我們主要落實三件比較大的工作:
第一,建立超級算力節點,“超級算力”的概念大概是中國所需要的算力的1/6🕡。
第二,建立比現在市場上連接速度更快的網絡連接👮🏻♀️,達到差不多100T到P級的連接🤏🏻,即10的15次方,目前這是現有技術無法實現的目標,我們正在研發該項技術🚜,通過使用不同光纖,沖刺比現有任何速度快100倍的速度,甚至更快🙂↕️。
第三✦,做好算力調度✂️,建立雲原生網絡的調度系統🫶🏽🫸🏿。我們在深圳建立智能超算平臺🪰,“鵬城雲腦Ⅱ”智能算力平臺大概有1000P的算力,目前正在研發的下一代鵬城雲腦,預計能達到16,000P的算力,這個數字正好是2025年中國需要的智能算力的1/6。“鵬城雲腦Ⅱ”AI性能是全世界超級計算機裏面最好的◼️▶️,在全球IO500總榜單已經連續6次排名第一名,在AIPerf500連續3年排第一。這臺機器做出來後⚅,我們支持了很多國內企業做大模型的計算,包括華為、百度等,他們很多大模型都是在我們的機器上進行訓練。除了提供給國內的合作夥伴外,我們實驗室還訓練了一批AI模型🤳🏽,這些模型大部分與意昂3体育官网、清華大學等高校合作,包括了自然語言模型🈵、計算機視覺模型、生物醫學模型等。
最近,我們剛剛完成了一項工作🙎🏿♂️,訓練了“鵬城·腦海”大模型,這個模型有200B的規模🧇,2000億參數🪿。鵬城實驗室通過開源的方式在做“鵬城·腦海”,最後都將變成Open Source模型,我們把上面可能需要的一些工具做完後📌,將開源開放🥋,供大家使用。
目前“鵬城雲腦Ⅱ”上運行的200B的AI大模型,訓練一次需要幾個月的時間👑👩🏼✈️。為了讓效率更高👩🎤,我們正在研發下一個版本、擁有16,000p算力的機器,叫做下一代鵬城雲腦,做出來之後將比現在的機器算力提高20倍👨🦲。原本訓練AI大模型需要200天🙎🏻♀️,現在10天就能訓練結束,這臺機器將會是算力節點。
還有幾個問題我們也在思考。關於光網絡,希望把所有的算力節點和樞紐用的光網絡連接起來🪬。設計光網絡🤞👩🏼🔧,要特別考慮在遠距離時🫰,實現不低於100T的帶寬🫲。設計光網絡有很多科學問題,既涉及到光,也涉及到通信,包括傳輸👏🏿、交換🧑🏻🍼、管控、光纖等等🤴,我們設置了多芯光纖,一束光纖可以有若幹根“芯”,至少4根🤷🏿♀️,也可能19根,使用的技術是SDM技術🧝♀️,它能使通信的速度呈19倍增長🦸🏿。由於光纖的成本增加很少👩🏽🎓,可以使用新的技術實現長距離、大帶寬的通信連接,目前我們已經完成了200T🤦🏽♂️、2000公裏的光通信實驗。而網絡運營商現在提供的光纖網絡,單根光纖100G或者400G👩🏻✈️,一根纖上面一個波,一根線上可以用很多波👈,現在4根纖對應同一類設備成本大大降低🤛🏻,將使得整個傳輸系統更高效。
關於調度,不同的算力資源如何組合起來,讓用戶需要的時候直接拿到算力👩🔬,這個需要實現跨地域異構算力🤱。各類算力本身用的芯片系統不一樣,如何跨地域使用🌺,存在比較難的封裝問題,不同類型的算力封裝方式不一樣🧑🍼,就如不同的發電廠和源不一樣🤳,需要我們盡量去規範。算力原來是什麽不要緊👱🏻♀️,如果要入網重新封裝後加入成網並最終讓大家看到一樣的東西,第一步就要做好異構算力跨域調度的工作🧖🏿♂️,這方面還是有很大的挑戰;第二步是統一提交同步做;第三步是跨中心異構做;第四步是把不同的算力源整合進來。
“中國算力網”所有的理念和以往的雲計算不一樣,我們引入了雲原生網絡,所有底層都采用同樣邏輯🧚🏼、一套體系,第一步在上面建立邏輯調度,對現有的網絡做重新梳理更換🪒、提升。現在有很多案例,通過雲原生網絡可以把所有的數據變成源數據🥤,通過源數據進行調度,通過調度可以就近選擇算力源。第二步做到“數”隨“算”走,第三步“算”隨“數”走,算力網要考慮數據的存在。
2019年我們開始做“中國算力網”的0.1版本👩🏿🎓👨🍼,在國家發改委、科技部的支持下,用了不到3年時間,做了“中國算力網”第一期,把全國不同區域幾個算力中心整合到一起,通過調度打通📐,實現不同算力的分配和使用🔱👩🏼✈️。“中國算力網”的1.0版,可以實現分布式協調訓練。
下一步,鵬城實驗室在推進“中國算力網”建設的過程中,將通盤考慮所有方面,為中國綠色發展、高效經濟發展、智能發展、數字發展提供技術支撐和支持。我們希望“中國算力網”這件事不僅僅在中國能做,還期待未來開展更廣泛的國際合作👨👩👦。
轉載本網文章請註明出處