【摘要】“東數(shù)西算”工程通過(guò)構(gòu)建數(shù)據(jù)中心、云計(jì)算和大數(shù)據(jù)一體化的超級(jí)算力網(wǎng)絡(luò)體系,實(shí)現(xiàn)東部算力需求和西部能源供給的聯(lián)動(dòng)調(diào)配,為數(shù)字化轉(zhuǎn)型和社會(huì)民生提供保障和服務(wù)。以國(guó)家超算為樞紐節(jié)點(diǎn)開(kāi)展國(guó)家高性能算力網(wǎng)絡(luò)建設(shè)具有得天獨(dú)厚的條件,在全國(guó)一體化算力網(wǎng)絡(luò)布局中起連接、統(tǒng)籌的作用。“東數(shù)西算”加快了高性能算力中心實(shí)現(xiàn)云網(wǎng)協(xié)同,提升算力服務(wù)的品質(zhì)和使用效率,是實(shí)現(xiàn)國(guó)家數(shù)字經(jīng)濟(jì)發(fā)展和碳中和目標(biāo)的重要舉措。
【關(guān)鍵詞】“東數(shù)西算” 算力網(wǎng)絡(luò) 高性能計(jì)算 基礎(chǔ)設(shè)施建設(shè) 【中圖分類(lèi)號(hào)】F49 【文獻(xiàn)標(biāo)識(shí)碼】A
“東數(shù)西算”是世紀(jì)工程,算力網(wǎng)絡(luò)是國(guó)家新型基礎(chǔ)設(shè)施的骨架
隨著我國(guó)現(xiàn)代化工業(yè)的飛速發(fā)展,互聯(lián)網(wǎng)、制造業(yè)、服務(wù)業(yè)等行業(yè)日益增多的數(shù)據(jù)無(wú)時(shí)無(wú)刻不在考驗(yàn)著國(guó)家信息化基礎(chǔ)設(shè)施的承受能力以及調(diào)度能力。“東數(shù)西算”是在全國(guó)范圍內(nèi)實(shí)現(xiàn)算力和應(yīng)用資源按需調(diào)度的基礎(chǔ)設(shè)施工程,是以算力中心、數(shù)據(jù)中心、高速網(wǎng)絡(luò)為基礎(chǔ)設(shè)施,由云計(jì)算、大數(shù)據(jù)以及智能計(jì)算為核心技術(shù)構(gòu)建的一體化新型算力網(wǎng)絡(luò)體系。我國(guó)東部地區(qū)數(shù)據(jù)產(chǎn)生量大、數(shù)據(jù)密集、算力資源緊張,西部地區(qū)地域廣袤,擁有比東部地區(qū)更豐富的可再生資源,充分利用西部地區(qū)的計(jì)算資源來(lái)高效執(zhí)行東部地區(qū)有巨大計(jì)算需求的數(shù)據(jù),能夠在全國(guó)層面更高效地支撐以降低全社會(huì)能耗為目標(biāo)的計(jì)算方式,更穩(wěn)定地解決算力增長(zhǎng)需求,實(shí)現(xiàn)綠色可持續(xù)發(fā)展。
新基建已經(jīng)被證明是繁榮數(shù)字經(jīng)濟(jì)的基石,毫無(wú)疑問(wèn)像城際高速鐵路和城際軌道交通、新能源汽車(chē)充電樁、人工智能和工業(yè)互聯(lián)網(wǎng)等領(lǐng)域的新基建絕大部分將在東部經(jīng)濟(jì)發(fā)達(dá)省份和地區(qū)進(jìn)行,而隨著新基建的推進(jìn)與其規(guī)模性效益的發(fā)揮,海量的數(shù)據(jù)將密集地產(chǎn)生在我國(guó)中東部地區(qū),極大促進(jìn)中東部地區(qū)算力需求的增長(zhǎng)。從這個(gè)意義上說(shuō),“東數(shù)西算”將是我國(guó)推進(jìn)新基建的有效保障,是基礎(chǔ)設(shè)施的重要組成部分,其意義遠(yuǎn)不止于數(shù)據(jù)中心和算力中心的建設(shè),而在于能夠?qū)F(xiàn)有的和將來(lái)的數(shù)據(jù)中心與算力中心在區(qū)域內(nèi)與全國(guó)范圍內(nèi)連接成網(wǎng),建設(shè)成為國(guó)家新基建工程的骨架,更高效地聯(lián)通全局計(jì)算存儲(chǔ)與網(wǎng)絡(luò)資源,更合理地引導(dǎo)數(shù)據(jù)和應(yīng)用的布局,以更綠色的能耗開(kāi)銷(xiāo)實(shí)現(xiàn)全國(guó)算力的規(guī)?;c高可擴(kuò)展性。
“東數(shù)西算”將是我國(guó)建立在能源優(yōu)化布局上的世紀(jì)新型基礎(chǔ)設(shè)施,是在全國(guó)范圍內(nèi)按區(qū)域建設(shè)數(shù)據(jù)中心樞紐、實(shí)現(xiàn)數(shù)據(jù)遷移和算力平衡化的高速互聯(lián)網(wǎng)絡(luò),主體上主要包括算力樞紐與算力網(wǎng)絡(luò)的建設(shè),除了帶動(dòng)我國(guó)數(shù)據(jù)產(chǎn)業(yè)的投資優(yōu)化,還將在更大程度上實(shí)現(xiàn)數(shù)據(jù)產(chǎn)業(yè)的優(yōu)化布局。
隨著“東數(shù)西算”以及多層次數(shù)據(jù)中心布局的逐步推進(jìn),國(guó)家高性能算力網(wǎng)絡(luò)將成為支撐東部數(shù)據(jù)到西部運(yùn)算的重要基礎(chǔ)設(shè)施,其組成將包括高速數(shù)據(jù)中心直連網(wǎng)、云網(wǎng)一體化、高性能邊緣接入網(wǎng)以及數(shù)據(jù)中心內(nèi)部高速網(wǎng)絡(luò)等,需要加速實(shí)現(xiàn)多云間、云和數(shù)據(jù)中心間以及云和網(wǎng)絡(luò)間的資源聯(lián)動(dòng),真正實(shí)現(xiàn)云網(wǎng)融合。重點(diǎn)是建設(shè)區(qū)域數(shù)據(jù)中心間的按需彈性網(wǎng)絡(luò),優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)數(shù)據(jù)中心間的帶寬資源可按時(shí)/按需調(diào)整,減少數(shù)據(jù)繞轉(zhuǎn)時(shí)延。數(shù)據(jù)中心端到端單向網(wǎng)絡(luò)時(shí)延原則上能控制在10毫秒范圍內(nèi),是保證網(wǎng)絡(luò)實(shí)時(shí)性、實(shí)現(xiàn)全面云接入、提升跨區(qū)域算力調(diào)度水平的基本保障。
高性能算力網(wǎng)絡(luò)從字面上理解是算力資源信息的分發(fā)網(wǎng)絡(luò),是算力資源提供方與算力消費(fèi)方之間的高速互聯(lián)平臺(tái)。本質(zhì)上要求高帶寬、低延時(shí),支持帶寬的彈性分配,可通過(guò)高速數(shù)據(jù)傳輸、共享與任務(wù)分發(fā)的手段來(lái)實(shí)現(xiàn)算力資源的合理調(diào)度,進(jìn)而降低能耗。這種以算為中心、網(wǎng)為根基,將“網(wǎng)、云、數(shù)、智、安、邊、端、鏈”等深度融合并提供一體化服務(wù)的方式,將實(shí)現(xiàn)從以網(wǎng)絡(luò)為核心的信息交換到以算力為核心的信息數(shù)據(jù)處理的轉(zhuǎn)變。
國(guó)家高性能算力網(wǎng)絡(luò)的定位可以從國(guó)家層面和地域?qū)用鎯蓚€(gè)不同的角度來(lái)分析。從國(guó)家層面來(lái)看,是以八個(gè)核心算力樞紐節(jié)點(diǎn)為核心,建設(shè)算力樞紐的數(shù)據(jù)中心內(nèi)網(wǎng)絡(luò)、數(shù)據(jù)中心間網(wǎng)絡(luò)以及跨地域的算力樞紐間網(wǎng)絡(luò)。八個(gè)節(jié)點(diǎn)的布局建設(shè),定位不同,發(fā)揮的作用也有所不同。貴州、內(nèi)蒙古、甘肅、寧夏這四個(gè)節(jié)點(diǎn)要打造面向全國(guó)的非實(shí)時(shí)性算力保障基地,定位于不斷提升算力服務(wù)品質(zhì)和利用效率,充分發(fā)揮其資源優(yōu)勢(shì),夯實(shí)網(wǎng)絡(luò)等基礎(chǔ)保障,積極承接全國(guó)范圍的后臺(tái)加工、離線(xiàn)分析、存儲(chǔ)備份等非實(shí)時(shí)算力需求。京津冀、長(zhǎng)三角、粵港澳大灣區(qū)、成渝四個(gè)節(jié)點(diǎn)要服務(wù)于重大區(qū)域發(fā)展戰(zhàn)略實(shí)施需要,定位于進(jìn)一步統(tǒng)籌好城市內(nèi)部和周邊區(qū)域的數(shù)據(jù)中心布局,實(shí)現(xiàn)大規(guī)模算力部署與土地、用能、水、電等資源的協(xié)調(diào)可持續(xù),優(yōu)化數(shù)據(jù)中心供給結(jié)構(gòu),擴(kuò)展算力增長(zhǎng)空間。
在省市區(qū)域?qū)用?,可以?guó)家超算中心、地方超算中心和大型算力中心為核心,先行建設(shè)超算中心與各規(guī)模以上數(shù)據(jù)中心間的星型網(wǎng)絡(luò),面向大型AI模型訓(xùn)練、反恐/應(yīng)急等時(shí)間上算力需求不均衡的應(yīng)用以及高分影像數(shù)據(jù)處理、超大型機(jī)械/流體仿真等數(shù)據(jù)密集型與計(jì)算密集型應(yīng)用等,建設(shè)按需分配與彈性調(diào)整的算力網(wǎng)絡(luò)基礎(chǔ)設(shè)施,通過(guò)算網(wǎng)一體的云網(wǎng)融合架構(gòu),實(shí)現(xiàn)基于骨干、城域的網(wǎng)絡(luò)資源層、算力路由層,建立多中心間的一體化算力平臺(tái)和算力服務(wù)層,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)密集型與計(jì)算密集型應(yīng)用在算力網(wǎng)絡(luò)環(huán)境下的適配和部署,滿(mǎn)足傳統(tǒng)高性能計(jì)算應(yīng)用的彈性需求和擴(kuò)展性需求。
國(guó)家超算中心是國(guó)家高性能算力網(wǎng)絡(luò)建設(shè)的樞紐節(jié)點(diǎn)
一般來(lái)說(shuō),國(guó)家高性能算力網(wǎng)絡(luò)是由運(yùn)力和算力兩個(gè)基本要素組成。運(yùn)力以網(wǎng)絡(luò)為基礎(chǔ)實(shí)現(xiàn)算力樞紐、數(shù)據(jù)中心與邊緣節(jié)點(diǎn)之間的互聯(lián)互通,主要提供數(shù)據(jù)交換和算力路由服務(wù),綜合考慮任務(wù)類(lèi)型、算力需求和成本等因素,將用戶(hù)任務(wù)和數(shù)據(jù)調(diào)度部署在效益相對(duì)較高的算力樞紐節(jié)點(diǎn)中。算力因其硬件和應(yīng)用服務(wù)類(lèi)型的差異可分為通用算力、智能算力和超算算力。通用算力是由傳統(tǒng)CPU芯片構(gòu)成的集群服務(wù)器算力,可以支持對(duì)算力速度和類(lèi)型要求較低的分布式計(jì)算應(yīng)用。智能算力由多數(shù)量、多類(lèi)型的智能加速器硬件構(gòu)成,AI智能芯片為人工智能應(yīng)用訓(xùn)練和推理過(guò)程提供服務(wù)。超算算力以大規(guī)模和超大規(guī)模計(jì)算節(jié)點(diǎn)和高速互聯(lián)的網(wǎng)絡(luò)構(gòu)成,節(jié)點(diǎn)往往配置有異構(gòu)或眾核的高性能處理器,是支持高精度浮點(diǎn)計(jì)算能力的高性能集群系統(tǒng)。
現(xiàn)階段的算力中心建設(shè)大致包含高性能超算集群、高性能網(wǎng)絡(luò)和存儲(chǔ)的硬件系統(tǒng)以及高性能計(jì)算支撐軟件系統(tǒng)等,其中軟件系統(tǒng)主要包含三類(lèi):一是高性能計(jì)算服務(wù)化與調(diào)度系統(tǒng),提供多基礎(chǔ)設(shè)施的整合和資源編排能力。能夠?qū)崿F(xiàn)高性能計(jì)算、輔助算力資源池、AI算力資源池的統(tǒng)一管理,提供資源標(biāo)準(zhǔn)化、資源申請(qǐng)、資源調(diào)度、資源變更、資源釋放等功能,提升資源交付的效率。二是超算系統(tǒng)運(yùn)行綜合管理系統(tǒng),對(duì)環(huán)境提供監(jiān)控管理、對(duì)資源進(jìn)行統(tǒng)一納管、提供智能運(yùn)營(yíng)/運(yùn)維服務(wù)、提供可視化管理。三是機(jī)房與動(dòng)環(huán)運(yùn)行管理系統(tǒng),對(duì)各個(gè)獨(dú)立分布的動(dòng)力設(shè)備、機(jī)房環(huán)境以及機(jī)房安保監(jiān)控對(duì)象提供實(shí)時(shí)的可視化管理。
國(guó)家高性能算力網(wǎng)絡(luò)將成為高性能計(jì)算應(yīng)用的基礎(chǔ)設(shè)施,在科學(xué)計(jì)算領(lǐng)域,可用于氣候模擬天氣預(yù)報(bào)、揭示地球地質(zhì)演化進(jìn)程、自然災(zāi)害預(yù)測(cè)、大工程模擬建模試驗(yàn)等;在應(yīng)用生產(chǎn)領(lǐng)域,可用于地質(zhì)勘測(cè)、生物醫(yī)療健康等。隨著更強(qiáng)大、更高計(jì)算能力的超級(jí)計(jì)算機(jī)的出現(xiàn),可以模擬規(guī)模越來(lái)越大的微觀系統(tǒng)、時(shí)間越來(lái)越長(zhǎng)的微觀過(guò)程以及細(xì)節(jié)越來(lái)越精細(xì)的微觀現(xiàn)象,從而極大增強(qiáng)人類(lèi)對(duì)自然的認(rèn)知能力。時(shí)至今日,高性能計(jì)算在基礎(chǔ)科學(xué)研究、工業(yè)工程、公益事業(yè)、國(guó)防安全等各個(gè)領(lǐng)域的廣泛應(yīng)用,解決了大批重大、關(guān)鍵、挑戰(zhàn)性的重要科學(xué)和工程問(wèn)題,對(duì)于支撐科技創(chuàng)新、推動(dòng)經(jīng)濟(jì)發(fā)展具有重要作用。
2021年5月,國(guó)家發(fā)展改革委等多部門(mén)聯(lián)合印發(fā)的《全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實(shí)施方案》中給出的算力網(wǎng)絡(luò)國(guó)家樞紐節(jié)點(diǎn)布局總體思路是:第一,圍繞國(guó)家重大區(qū)域發(fā)展戰(zhàn)略,根據(jù)能源結(jié)構(gòu)、氣候環(huán)境等布局,建設(shè)全國(guó)一體化算力網(wǎng)絡(luò)國(guó)家樞紐節(jié)點(diǎn),發(fā)展數(shù)據(jù)中心集群;第二,在國(guó)家樞紐節(jié)點(diǎn)之間進(jìn)一步打通網(wǎng)絡(luò)傳輸通道,提升跨區(qū)域算力調(diào)度水平。在全國(guó)一體化大數(shù)據(jù)中心體系總體布局中,設(shè)計(jì)規(guī)劃了8個(gè)國(guó)家算力樞紐節(jié)點(diǎn)和10個(gè)國(guó)家數(shù)據(jù)中心集群。其中離散的國(guó)家數(shù)據(jù)中心集群提供主要的算力支持,國(guó)家算力樞紐在全國(guó)一體化算力網(wǎng)絡(luò)布局中起連接、統(tǒng)籌的作用。算力樞紐是使離散的數(shù)據(jù)中心集群相互聯(lián)系的中心環(huán)節(jié),是全國(guó)一體化算力網(wǎng)絡(luò)建設(shè)的關(guān)鍵,在“東數(shù)西算”工程中起到合理統(tǒng)籌、布局?jǐn)?shù)據(jù)的作用。
我國(guó)目前已經(jīng)建立了天津、濟(jì)南、長(zhǎng)沙、深圳、廣州、無(wú)錫、鄭州、昆山、西安、成都等10家國(guó)家超級(jí)計(jì)算中心,近5年內(nèi)總算力將超過(guò)10EB,是我國(guó)科學(xué)工程計(jì)算、行業(yè)計(jì)算與社會(huì)計(jì)算的主要算力設(shè)施,是國(guó)家戰(zhàn)略科技基礎(chǔ)設(shè)施與數(shù)字經(jīng)濟(jì)發(fā)展制高點(diǎn)。將國(guó)家超算中心作為建設(shè)國(guó)家高性能算力網(wǎng)絡(luò)的樞紐節(jié)點(diǎn),無(wú)論是在基礎(chǔ)設(shè)施條件還是服務(wù)能力上都具備得天獨(dú)厚的優(yōu)勢(shì)。
以超算中心為樞紐的高性能算力網(wǎng)絡(luò)需要實(shí)現(xiàn)三個(gè)方面的主要功能:高性能計(jì)算服務(wù)架構(gòu)、多中心間算力融合與調(diào)度、多中心算力互連網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)。第一,基于國(guó)家超算中心建設(shè)高性能計(jì)算服務(wù)架構(gòu)?;趪?guó)家超算中心,建設(shè)超算云平臺(tái),整合超算云資源池,構(gòu)建針對(duì)高性能計(jì)算應(yīng)用的云原生體系結(jié)構(gòu),完成高性能計(jì)算應(yīng)用的云化改造和服務(wù)化封裝,實(shí)現(xiàn)高性能計(jì)算應(yīng)用的按需彈性計(jì)算,完善計(jì)費(fèi)策略與服務(wù)。第二,基于國(guó)家超算中心實(shí)現(xiàn)多中心間算力融合與調(diào)度?;趪?guó)家超算中心,建設(shè)超算互聯(lián)網(wǎng)服務(wù)平臺(tái),在高性能算力網(wǎng)絡(luò)中扮演算力路由的角色,實(shí)現(xiàn)多中心高性能資源協(xié)同調(diào)度及資源優(yōu)化布局。以國(guó)家超算中心為樞紐,建立數(shù)據(jù)互聯(lián)與高效處理機(jī)制,實(shí)現(xiàn)多中心之間、中心內(nèi)部的級(jí)聯(lián)架構(gòu)下資源跨域分配和自動(dòng)化部署。面向超算互聯(lián)網(wǎng)構(gòu)建低代價(jià)分布式計(jì)算框架,以支持?jǐn)?shù)據(jù)處理、人工智能訓(xùn)練與高性能計(jì)算的不同算子在數(shù)據(jù)中心間形成跨域工作流。第三,基于國(guó)家超算中心實(shí)現(xiàn)多中心算力互連網(wǎng)絡(luò)基礎(chǔ)設(shè)施。使用IPv4和IPv6網(wǎng)絡(luò)環(huán)境下的超算中心互聯(lián)方法、路由策略和治理體系,建立超算中心間大帶寬、低延時(shí)、高可靠互聯(lián)網(wǎng)絡(luò)。
因此,國(guó)家超算中心將會(huì)是國(guó)家高性能算力網(wǎng)絡(luò)建設(shè)的樞紐,需加大利用超算算力統(tǒng)籌、優(yōu)化多中心分布式計(jì)算體系結(jié)構(gòu)的研究和建設(shè)。在多數(shù)據(jù)中心的級(jí)聯(lián)架構(gòu)下,不同算力下的通信速率、I/O速率大不相同,速率慢會(huì)成為多中心計(jì)算的瓶頸,基于超算中心的多中心分布式計(jì)算架構(gòu)設(shè)計(jì),可以克服“東數(shù)西算”級(jí)聯(lián)架構(gòu)的多層通信問(wèn)題,降低多層通信延遲帶來(lái)的影響,通過(guò)合理的高性能算力網(wǎng)絡(luò)縱向結(jié)構(gòu),找到平衡計(jì)算、I/O和通信的最佳點(diǎn),進(jìn)一步提升高性能算力網(wǎng)絡(luò)的性能。
國(guó)家高性能算力網(wǎng)絡(luò)將極大促進(jìn)傳統(tǒng)行業(yè)的升級(jí)轉(zhuǎn)型
建設(shè)國(guó)家高性能算力網(wǎng)絡(luò)會(huì)直接刺激芯片等上游產(chǎn)業(yè)的變革。數(shù)據(jù)中心是國(guó)家高性能算力網(wǎng)絡(luò)的重要組成部分,計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)傳輸是數(shù)據(jù)中心的三個(gè)核心功能。數(shù)據(jù)中心提升算力的主要方向是種類(lèi)和數(shù)量更多的計(jì)算單元。作為核心的計(jì)算單元,在建設(shè)國(guó)家高性能算力網(wǎng)絡(luò)的過(guò)程中,會(huì)直接拉動(dòng)服務(wù)器芯片和GPU等異構(gòu)算力芯片的巨大需求。同時(shí),建設(shè)高性能算力網(wǎng)絡(luò)也會(huì)拉動(dòng)各種功能特化型芯片的研發(fā)和應(yīng)用,如面向AI模型訓(xùn)練的AI芯片,直接面向大數(shù)據(jù)處理平臺(tái)的DPU芯片,網(wǎng)絡(luò)傳輸芯片、存儲(chǔ)芯片、數(shù)據(jù)采集芯片等,這將極大促進(jìn)我國(guó)芯片行業(yè)多元化發(fā)展。
支持跨數(shù)據(jù)中心節(jié)點(diǎn)的資源管理和任務(wù)調(diào)度是國(guó)家高性能算力網(wǎng)絡(luò)一個(gè)不可或缺的部分,其對(duì)操作系統(tǒng)提出了更高的要求。操作系統(tǒng)在計(jì)算環(huán)境多變、需求多樣、場(chǎng)景復(fù)雜等環(huán)境下需要對(duì)硬件資源、數(shù)據(jù)資源、系統(tǒng)平臺(tái)及應(yīng)用軟件進(jìn)行靈活的軟件定義,以支持感知互聯(lián)、計(jì)算認(rèn)知、動(dòng)態(tài)適配和反饋控制等跨數(shù)據(jù)中心節(jié)點(diǎn)的應(yīng)用特點(diǎn)。具體來(lái)說(shuō),操作系統(tǒng)需要支持跨數(shù)據(jù)中心的節(jié)點(diǎn)資源管理與任務(wù)調(diào)度,支撐系統(tǒng)操作與管理環(huán)境、并行開(kāi)發(fā)環(huán)境和應(yīng)用支持環(huán)境三大部分的軟件框架與設(shè)計(jì)能力,主要包括節(jié)點(diǎn)操作系統(tǒng)、資源管理系統(tǒng)、并行文件系統(tǒng)和高速通信庫(kù),負(fù)責(zé)管理硬件資源,進(jìn)行基礎(chǔ)的任務(wù)調(diào)度、資源分配、通信傳輸以及文件數(shù)據(jù)存儲(chǔ)等。
云計(jì)算在本質(zhì)上是依托計(jì)算機(jī)網(wǎng)絡(luò)建立起來(lái)的,將集中或者相對(duì)集中的計(jì)算與資源以服務(wù)化的方式滿(mǎn)足客戶(hù)使用需求的基礎(chǔ)設(shè)施與商業(yè)模式。云計(jì)算在實(shí)現(xiàn)上對(duì)算力網(wǎng)絡(luò)有著天然的依賴(lài),算力網(wǎng)絡(luò)能夠在更大的區(qū)域內(nèi)讓最終客戶(hù)享受更好的云計(jì)算服務(wù)。隨著近幾年云計(jì)算規(guī)模不斷擴(kuò)大和在各行各業(yè)內(nèi)的應(yīng)用,工業(yè)云的發(fā)展在很大程度上帶動(dòng)了傳統(tǒng)企業(yè)的轉(zhuǎn)型升級(jí)。工業(yè)云向企業(yè)提供云設(shè)計(jì)、云制造、云協(xié)同、云資源、云服務(wù)、云存儲(chǔ)等服務(wù),可落實(shí)于工業(yè)軟件設(shè)計(jì)、工業(yè)數(shù)據(jù)管理、3D打印、工業(yè)仿真分析等工程領(lǐng)域。工業(yè)云帶動(dòng)的工業(yè)互聯(lián)網(wǎng)已成為工業(yè)企業(yè)發(fā)展的一個(gè)新方向,在過(guò)去的實(shí)踐中,工業(yè)云的發(fā)展大大降低了傳統(tǒng)制造業(yè)邁入信息化的門(mén)檻。此外,國(guó)家高性能算力網(wǎng)絡(luò)還將會(huì)打破工業(yè)云之間通信與服務(wù)的壁壘,形成更高層次的“云”。算力網(wǎng)絡(luò)的服務(wù)對(duì)象不再局限于某一個(gè)特定的領(lǐng)域,這將有利于各式企業(yè)以較低的運(yùn)營(yíng)成本進(jìn)行數(shù)字化轉(zhuǎn)型和智能化升級(jí),提高我國(guó)工業(yè)企業(yè)整體的競(jìng)爭(zhēng)實(shí)力。
此外,國(guó)家高性能算力網(wǎng)絡(luò)將會(huì)對(duì)我國(guó)傳統(tǒng)產(chǎn)業(yè)由“信息化”邁入“智能化”起到極大的推動(dòng)作用。隨著AI在各行業(yè)領(lǐng)域的不斷深化,AI應(yīng)用的場(chǎng)景不斷豐富,AI訓(xùn)練和推理的計(jì)算量正在呈指數(shù)級(jí)增長(zhǎng)。超算中心/數(shù)據(jù)中心的單一算力集群無(wú)論是計(jì)算資源、軟件資源的多樣性還是團(tuán)隊(duì)支撐都越來(lái)越無(wú)法滿(mǎn)足復(fù)雜場(chǎng)景中超大規(guī)模參數(shù)訓(xùn)練和人工智能應(yīng)用的需要。隨著國(guó)家“東數(shù)西算”工程拉開(kāi)帷幕,算力經(jīng)濟(jì)時(shí)代已經(jīng)到來(lái)。隨著新基建的推進(jìn),我國(guó)國(guó)家超算中心、各省市的超算中心、人工智能算力中心都在陸續(xù)建設(shè)中,這些多地域分布的算力中心節(jié)點(diǎn)構(gòu)成了典型的多域高性能計(jì)算環(huán)境。隨著國(guó)家和各省市智能計(jì)算算力網(wǎng)的構(gòu)建,面向疫情防控、應(yīng)急反應(yīng)等國(guó)家重大戰(zhàn)略需求,如何提供中心間的算力協(xié)同和按需調(diào)度方案,解決“算力孤島”問(wèn)題,提升國(guó)家在算力基礎(chǔ)設(shè)施上的投資收益,成為當(dāng)前亟待突破的瓶頸。
目前高性能計(jì)算與人工智能融合計(jì)算系統(tǒng)的主要功能,集中在減少機(jī)器學(xué)習(xí)任務(wù)在分布式環(huán)境下參數(shù)同步的通信量、提高系統(tǒng)對(duì)大規(guī)模深度學(xué)習(xí)的適應(yīng)性等方面,但在分布異構(gòu)集群尤其是跨域集群環(huán)境下提供細(xì)粒度智能計(jì)算任務(wù)調(diào)度、高效的混合精度計(jì)算支持,提高面向超大規(guī)模機(jī)器學(xué)習(xí)訓(xùn)練任務(wù)的性能、高性能異構(gòu)環(huán)境下的穩(wěn)定性上還存在明顯不足。亟需立足國(guó)家超級(jí)計(jì)算中心樞紐節(jié)點(diǎn),依托國(guó)家高性能算力網(wǎng)絡(luò),在多超算中心互聯(lián)的超算系統(tǒng)上開(kāi)展高效能、大規(guī)模的深度學(xué)習(xí)/機(jī)器學(xué)習(xí)的并行編程和性能優(yōu)化。這不僅需要高效的資源管理、任務(wù)調(diào)度、CPU/GPU融合等異構(gòu)協(xié)同計(jì)算環(huán)境,也需要該環(huán)境支撐下的超大規(guī)模深度學(xué)習(xí)并行編程模型、超大批量并行訓(xùn)練的機(jī)器學(xué)習(xí)在收斂性和擴(kuò)展性上的性能優(yōu)化,需要在超算計(jì)算節(jié)點(diǎn)內(nèi)、超算節(jié)點(diǎn)間和多域異構(gòu)超算間等不同層面分別解決性能模型基礎(chǔ)理論、自動(dòng)并行訓(xùn)練關(guān)鍵技術(shù)、異構(gòu)智能計(jì)算資源管理機(jī)制以及大批量神經(jīng)網(wǎng)絡(luò)訓(xùn)練優(yōu)化等關(guān)鍵問(wèn)題。
“東數(shù)西算”是我國(guó)的世紀(jì)工程,是建設(shè)國(guó)家新型基礎(chǔ)設(shè)施必不可少的骨架。我國(guó)城市發(fā)展不平衡決定了中東部地區(qū)將是應(yīng)用和數(shù)據(jù)的主要產(chǎn)生地,國(guó)家高性能算力網(wǎng)絡(luò)作為支撐東部數(shù)據(jù)到西部運(yùn)算的重要基礎(chǔ)設(shè)施,將在我國(guó)“東數(shù)西算”工程推進(jìn)與實(shí)施過(guò)程中起到舉足輕重的作用。運(yùn)力與算力是構(gòu)成國(guó)家高性能算力網(wǎng)絡(luò)的基本要素,國(guó)家高性能算力網(wǎng)絡(luò)將成為我國(guó)大規(guī)模高性能計(jì)算應(yīng)用的基礎(chǔ)設(shè)施,是解決我國(guó)關(guān)系到國(guó)計(jì)民生的重要科學(xué)和工程問(wèn)題的關(guān)鍵設(shè)施,對(duì)于支撐科技創(chuàng)新、推動(dòng)經(jīng)濟(jì)發(fā)展具有重要作用。
我國(guó)正在建設(shè)和運(yùn)營(yíng)的10家國(guó)家超算中心是我國(guó)戰(zhàn)略科技基礎(chǔ)設(shè)施與數(shù)字經(jīng)濟(jì)發(fā)展的制高點(diǎn),以國(guó)家超算為樞紐節(jié)點(diǎn)開(kāi)展國(guó)家高性能算力網(wǎng)絡(luò)建設(shè)具有得天獨(dú)厚的條件,在此基礎(chǔ)上打造集計(jì)算服務(wù)、交叉研究和產(chǎn)業(yè)創(chuàng)新“三位一體”的國(guó)家重大科技基礎(chǔ)設(shè)施和區(qū)域通用公共計(jì)算服務(wù)平臺(tái),將極大地促進(jìn)傳統(tǒng)行業(yè)的轉(zhuǎn)型升級(jí),夯實(shí)新基建。
(作者為教育部青年長(zhǎng)江學(xué)者,湖南大學(xué)信息科學(xué)與工程學(xué)院教授、博導(dǎo))
責(zé)編/銀冰瑤 美編/楊玲玲
聲明:本文為人民論壇雜志社原創(chuàng)內(nèi)容,任何單位或個(gè)人轉(zhuǎn)載請(qǐng)回復(fù)本微信號(hào)獲得授權(quán),轉(zhuǎn)載時(shí)務(wù)必標(biāo)明來(lái)源及作者,否則追究法律責(zé)任。