李國杰,中國科學(xué)院計算技術(shù)研究所研究員、首席科學(xué)家,中國工程院院士,第三世界科學(xué)院院士。研究方向為計算機(jī)體系結(jié)構(gòu)、并行算法、人工智能、計算機(jī)網(wǎng)絡(luò)、信息技術(shù)發(fā)展戰(zhàn)略等。曾任國家智能計算機(jī)研究開發(fā)中心主任、中國科學(xué)院計算技術(shù)研究所所長、中國計算機(jī)學(xué)會理事長、國家信息化專家咨詢委員會信息技術(shù)與新興產(chǎn)業(yè)專委會副主任。
記者:近期,ChatGPT、DeepSeek等生成式AI爆發(fā)式發(fā)展,有觀點認(rèn)為,這意味著人類已接近實現(xiàn)通用人工智能,您怎么看待?
李國杰:通用人工智能(AGI)指AI在多個領(lǐng)域具備人類同等智能水平解決復(fù)雜問題的能力,這一概念尚未形成廣泛共識。許多學(xué)者認(rèn)為智能是在知識和資源相對不足的情況下,一個系統(tǒng)的適應(yīng)能力,并能夠應(yīng)對設(shè)計者預(yù)料之外的情況,才叫“通用”。因此,學(xué)術(shù)界更關(guān)注智能系統(tǒng)的持續(xù)學(xué)習(xí)、自我改進(jìn)能力以及與外部世界基于常識和經(jīng)驗互動的能力,而不僅僅是其語言處理能力。簡單宣稱“接近實現(xiàn)AGI”缺乏實際意義,關(guān)鍵在于如何定義AGI。
近幾年,生成式人工智能發(fā)展迅猛,我們正在迎來人工智能第三次浪潮的高峰期。斯坦福大學(xué)《2024年人工智能指數(shù)報告》明確指出,機(jī)器學(xué)習(xí)大模型在圖像分類、視覺推理及英語理解等方面的表現(xiàn)已超過人類。聊天機(jī)器人和其他智能軟件正在改變我們的工作和生活。AI驅(qū)動的科學(xué)研究作為科研第五范式,也展現(xiàn)出驚人潛力。比如DeepMind的AlphaFold3已成功預(yù)測地球上已知的超兩億種蛋白質(zhì)的三維結(jié)構(gòu),有望顛覆當(dāng)前的藥物研發(fā)模式,其發(fā)明者獲得了2024年諾貝爾化學(xué)獎。人們相信,智能技術(shù)的指數(shù)性發(fā)展一定會加速通用人工智能的到來,但自適應(yīng)性、持續(xù)學(xué)習(xí)及與外界互動等問題仍需克服。
人工智能是對人類智能某方面的再現(xiàn)和超越,其通用性是相對的,需基于特定條件或范圍。大模型追求的AGI只是眾多通用目標(biāo)的一種。我們要認(rèn)識人工智能的局限性,不能盲目追求天下通吃的人工智能,重點還是要根據(jù)實際需求,將相對通用的人工智能技術(shù)落地到各行業(yè),讓一定范圍內(nèi)的人工智能技術(shù)見到實效。
實現(xiàn)通用智能是一個漸進(jìn)過程,不會因某項技術(shù)的發(fā)明就突然到來。盡管當(dāng)前AI的通用性比前兩波有顯著提高,但距離真正的通用智能還有較大差距。在某些應(yīng)用中通過圖靈測試只是階段性成果,發(fā)展既通用自主又安全放心的人工智能仍是巨大挑戰(zhàn)。
記者:您認(rèn)為推動這輪AI突破的核心要素是什么?
李國杰:這是整個信息技術(shù)發(fā)展和成熟的結(jié)果。神經(jīng)網(wǎng)絡(luò)模型早在1943年就已提出,但在算力和數(shù)據(jù)充分豐富的今天,才真正釋放威力。一是集成電路和超級計算機(jī)帶動并行計算技術(shù)走向成熟,使得算力提升了萬億倍,為人工智能的突破提供了足夠的計算能力;二是互聯(lián)網(wǎng)催生數(shù)據(jù)量爆炸式增長,使得人類已知的全部可數(shù)字化的知識都可以被機(jī)器學(xué)習(xí)吸收;三是人工智能前60年的科研紅利發(fā)揮了作用,符號主義人工智能為數(shù)字化基礎(chǔ)設(shè)施的形成作出了不可磨滅的貢獻(xiàn)。可以說,人工智能的復(fù)興不僅是神經(jīng)元模型和深度學(xué)習(xí)等智能算法的勝利,也是計算技術(shù)的勝利、互聯(lián)網(wǎng)的勝利、摩爾定律的勝利。
與前兩波人工智能不同的是,統(tǒng)計推理在第三波人工智能中發(fā)揮了核心作用?;诖髷?shù)據(jù)和神經(jīng)網(wǎng)絡(luò)模型的統(tǒng)計推理是生成式人工智能的核心技術(shù),在機(jī)器學(xué)習(xí)和強(qiáng)化學(xué)習(xí)模型的訓(xùn)練和優(yōu)化過程中發(fā)揮了關(guān)鍵作用。馮·諾伊曼最早認(rèn)識到神經(jīng)元模型不同于圖靈機(jī)模型,他指出:“信息理論包括兩大塊:嚴(yán)格的信息論和概率的信息論。以概率統(tǒng)計為基礎(chǔ)的信息理論大概對于現(xiàn)代計算機(jī)設(shè)計更加重要。”從目前大模型取得的成功來看,馮·諾伊曼的預(yù)言已經(jīng)變成現(xiàn)實,計算模型的改變是隱藏在輝煌成果后面的本質(zhì)原因。
記者:有人將AI突破完全歸功于大模型,您是否認(rèn)同?機(jī)器學(xué)習(xí)大模型的本質(zhì)是什么?目前學(xué)界有哪些主要觀點?
李國杰:大模型是人工智能近七十年發(fā)展的最高成就,也是實現(xiàn)通用人工智能的可能方向。這一波人工智能的成功離不開大模型,也離不開大數(shù)據(jù)和大算力。因此,將重大突破全歸功于大模型是片面的。到達(dá)山頂?shù)穆凡恢挂粭l。人工智能其本身擁有多元化的目標(biāo)和多條技術(shù)路線。大語言模型是其中的重要進(jìn)展,但未來還將出現(xiàn)更高效、節(jié)能和安全的新技術(shù)。
與傳統(tǒng)的符號主義人工智能相比,基于神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)的大模型確實有顛覆性的意義?;诖竽P偷闹悄芟到y(tǒng)已經(jīng)不是簡單的人造工具,而是與人類認(rèn)知水平接近的智能體。不管大模型會不會發(fā)展成為硅基生命,我們對大模型引發(fā)的機(jī)器智能的巨大潛力和風(fēng)險要有清醒的認(rèn)識。
機(jī)器學(xué)習(xí)大模型的本質(zhì)是什么?至今沒有答案。數(shù)學(xué)家將大模型看成高維函數(shù)的擬合器。物理學(xué)家將人工神經(jīng)網(wǎng)絡(luò)看成尋找系統(tǒng)最低能量的生成模型,早期的神經(jīng)網(wǎng)絡(luò)模型被稱為“玻爾茲曼機(jī)”。復(fù)雜性科學(xué)家認(rèn)為大模型是一個可以出現(xiàn)涌現(xiàn)行為的復(fù)雜系統(tǒng),主張從了解復(fù)雜系統(tǒng)的規(guī)律打開缺口分析大模型。
現(xiàn)代信息學(xué)奠基人之一的李明和OpenAI前首席科學(xué)家伊利亞·蘇茨克維等都認(rèn)為,AI大模型的本質(zhì)是信息壓縮。輸入大模型進(jìn)行訓(xùn)練的數(shù)據(jù)量是PB級別,而得出的大模型的參數(shù)只有TB級甚至GB級,壓縮了上千倍。壓縮可認(rèn)為是人性的一種本質(zhì)特征,生物進(jìn)化過程的“適者生存”也可解讀為“最壓者生存”。信息壓縮為理解大模型的本質(zhì)提供了新的視角,柯爾莫哥洛夫復(fù)雜性有望為機(jī)器學(xué)習(xí)提供新的理論基礎(chǔ)。
AI界都在努力尋找描述世界和預(yù)測未來的模型,盡管各團(tuán)隊構(gòu)建的模型在不同數(shù)據(jù)和結(jié)構(gòu)上以不同目標(biāo)進(jìn)行訓(xùn)練,但他們正趨向于在其表示空間中形成一個現(xiàn)實世界的共享統(tǒng)計模型。麻省理工學(xué)院的研究顯示,大模型內(nèi)部出現(xiàn)了類似人類大腦“腦葉”結(jié)構(gòu)和“語義晶體”。這一發(fā)現(xiàn)為大模型的基礎(chǔ)研究提供了新的線索。
大模型目前還是一個“黑盒”,其涌現(xiàn)能力像20世紀(jì)初物理學(xué)上空的“兩朵烏云”般難以解釋,這正是劃時代理論突破的前兆。學(xué)界正致力于揭開其神秘面紗,使之變?yōu)?ldquo;白盒”,至少變成“灰盒”。同時盡量努力把人類向善的價值觀賦予智能機(jī)器,實現(xiàn)以人為本的人機(jī)協(xié)作。
記者:近期,國內(nèi)DeepSeek推出了性能優(yōu)越且成本效益高的新模型,引起全球轟動。這類探索是否代表中國AI從應(yīng)用創(chuàng)新向基礎(chǔ)創(chuàng)新跨越?您如何評價這類“小而精”模型與通用大模型的差異化價值?
李國杰:DeepSeek的推出成為世界人工智能發(fā)展史上的一個標(biāo)志性事件,不僅創(chuàng)下了全球用戶增長速度的新紀(jì)錄,還引發(fā)了市場對相關(guān)硬件需求預(yù)期的調(diào)整。例如,英偉達(dá)的股價短期內(nèi)有所波動,反映了市場對新興技術(shù)可能帶來的行業(yè)變革的敏感性。這也表明中國科技公司在全球最關(guān)注的核心技術(shù)領(lǐng)域,正通過持續(xù)創(chuàng)新重塑世界既有格局。
DeepSeek為在受限資源下探索通用人工智能開辟了新的路徑。傳統(tǒng)大模型通常從廣泛的通用能力出發(fā),逐漸向特定應(yīng)用場景優(yōu)化。相比之下,DeepSeek采取了一種不同的策略,通過專注于特定任務(wù)或領(lǐng)域,逐步擴(kuò)展其通用能力。這種方法有助于推動人工智能技術(shù)生態(tài)的發(fā)展,并促進(jìn)通用人工智能的社會共享。“小而精”模型將AI的應(yīng)用重點從面向企業(yè)轉(zhuǎn)向面向消費者,從廣泛覆蓋轉(zhuǎn)變?yōu)樯疃葍?yōu)化,讓更多的中小企業(yè)參與,可能會創(chuàng)造更大的市場空間。這種“垂直深潛”策略與通用大模型的“橫向擴(kuò)展”互為補(bǔ)充,共同構(gòu)建智能時代的創(chuàng)新生態(tài)。
長期以來,中國AI企業(yè)側(cè)重于應(yīng)用和商業(yè)模式創(chuàng)新,追求快速盈利,較少涉足核心技術(shù)的原創(chuàng)性突破。與西方發(fā)達(dá)國家相比,我們真正的差距不在于資金或硬件的短缺,而在于缺乏原創(chuàng)技術(shù)和發(fā)明,以及在增強(qiáng)信心和有效組織高水平人才進(jìn)行創(chuàng)新方面的能力不足。隨著經(jīng)濟(jì)的發(fā)展和技術(shù)的積累,中國企業(yè)逐漸增強(qiáng)了原創(chuàng)研發(fā)能力。DeepSeek帶了一個好頭,他們把探索通用人工智能的實現(xiàn)之路作為奮斗目標(biāo),并吸引了一批充滿創(chuàng)新熱情和好奇心的年輕博士加入。這些90后的中國青年展現(xiàn)出與西方同行平等對話的信心和“敢為天下先”的勇氣,成為中國科技自主創(chuàng)新能力發(fā)展的希望。
記者:大模型的“規(guī)模法則”是否已接近極限?是否仍是AI發(fā)展的金科玉律?
李國杰:在AI領(lǐng)域,“規(guī)模法則”(ScalingLaws)被一些人認(rèn)為是公理,俗稱為“大力出奇跡”,OpenAI等企業(yè)和美國AI投資界把它當(dāng)制勝法寶。但是,“規(guī)模法則”不是像牛頓定律一樣經(jīng)過無數(shù)次驗證的科學(xué)定律,而是OpenAI等公司近幾年研制大模型的經(jīng)驗歸納。從科學(xué)研究的角度看,屬于一種對技術(shù)發(fā)展趨勢的猜想。從投資的角度看,屬于對某種技術(shù)路線的押注。把一種信仰或猜想當(dāng)成科學(xué)公理,不是科學(xué)的態(tài)度。
強(qiáng)化學(xué)習(xí)之父理查德·薩頓曾力挺“規(guī)模法則”,在其博文《苦澀的教訓(xùn)》中總結(jié)AI的發(fā)展史:“研究人員曾一次又一次試圖通過精巧的工程設(shè)計來提升性能,但最終都敗給了簡單粗暴的‘加大算力’方案。”但是他這兩年對“規(guī)模法則”進(jìn)行了深刻反思,認(rèn)為雖然“規(guī)模法則”在提升模型性能方面確實有效,但它并不是解決所有問題的萬能鑰匙。AI系統(tǒng)不僅需要具備強(qiáng)大的計算能力,還需要具備持續(xù)學(xué)習(xí)、適應(yīng)環(huán)境、理解復(fù)雜情境等能力,這些能力往往難以通過簡單地增加算力來實現(xiàn)。
GPT-5遲遲不能問世,可能表明規(guī)模擴(kuò)張的效果已經(jīng)減弱。圖靈獎得主楊立昆和伊利亞·蘇茨克維等人直言,“規(guī)模法則”已觸及天花板。DeepSeek的出現(xiàn),更逼迫AI界嚴(yán)肅地思考這一技術(shù)發(fā)展路線問題:是繼續(xù)燒錢豪賭,還是另辟蹊徑,在算法優(yōu)化上下更多功夫。DeepSeek的成功似乎預(yù)示著“小力也可出奇跡”,或者說“算法和模型架構(gòu)優(yōu)化也可以出奇跡”。隨著時間的推移,AI擴(kuò)展方法也在發(fā)生變化:最初是模型規(guī)模,后來是數(shù)據(jù)集大小和數(shù)據(jù)質(zhì)量,現(xiàn)在是推理時間和合成數(shù)據(jù)。
但現(xiàn)在就說“規(guī)模法則”已經(jīng)走到盡頭,也沒有根據(jù)。與人腦的神經(jīng)連接復(fù)雜性相比,現(xiàn)在的人工神經(jīng)網(wǎng)絡(luò)至少還有上百倍的差距。繼續(xù)擴(kuò)大神經(jīng)網(wǎng)絡(luò)的規(guī)模和增加訓(xùn)練的數(shù)據(jù)量,是否還能取得與投入相稱的回報,還要看今后的實際效果。
記者:算力、數(shù)據(jù)、算法被視為AI三大支柱。中國在算力基建(如“東數(shù)西算”)上投入巨大,但高端芯片、高質(zhì)量數(shù)據(jù)集等仍受制約。如何構(gòu)建自主可控的AI基礎(chǔ)設(shè)施生態(tài)?
李國杰:發(fā)展人工智能需要充足的算力和高質(zhì)量數(shù)據(jù),必須構(gòu)建自主可控的AI基礎(chǔ)設(shè)施生態(tài)來保障資源供給。美國的AI基礎(chǔ)設(shè)施是基于英偉達(dá)的GPU建立起來的。我國的人工智能加速芯片,如華為的昇騰、海光的DCU和寒武紀(jì)的芯片與GPU芯片的硬件性能差距并不是很大。英偉達(dá)的核心優(yōu)勢在于CUDA軟件生態(tài)及NVLink和InfiniBand高速互聯(lián),其中CUDA生態(tài)最難攻克。DeepSeek雖沖擊了CUDA生態(tài),但沒有完全繞過CUDA,CUDA的生態(tài)壁壘仍然存在。從長遠(yuǎn)來講,我們需要開發(fā)一套比CUDA更優(yōu)秀的自主可控的AI軟件工具系統(tǒng)。像取代Wintel和ARM+Android系統(tǒng)一樣,就是要重構(gòu)軟件生態(tài)系統(tǒng),這是一項十分困難的任務(wù),需要周密的規(guī)劃和長期努力。國家應(yīng)該下決心組織全國的開發(fā)力量,充分調(diào)動上下游企業(yè)的積極性,完成這件關(guān)于國家發(fā)展和安全的大事。
信創(chuàng)工程對推廣國產(chǎn)化芯片和軟件有重大的推動作用,但產(chǎn)業(yè)生態(tài)的形成主要靠市場牽引。國家要通過政策引導(dǎo),鼓勵在PC、手機(jī)和物端設(shè)備上推廣AI應(yīng)用,擴(kuò)大“國產(chǎn)大模型+國產(chǎn)GPU”應(yīng)用空間,增強(qiáng)國產(chǎn)GPU、CPU和軟件的市場份額。高度重視芯片設(shè)計和大模型的開源戰(zhàn)略,爭取我國在全球AI開源系統(tǒng)中起到主導(dǎo)作用。
GPU芯片可能會在市場上延續(xù)相當(dāng)長的時間。從長遠(yuǎn)來看,GPU并非終極方案,針對一類AI應(yīng)用的專用芯片也可能成為主流,AI加速芯片將來可能進(jìn)入多芯片競爭的XPU時代。Groq的LPU推理性能已達(dá)GPU的10倍,其單芯片能實現(xiàn)每秒250萬億次整數(shù)運(yùn)算,延遲低于1微秒。算力是AI基礎(chǔ)設(shè)施的重要組成部分,我們既要攻關(guān)ZFlops級的超算,也要探索類腦計算、光子計算等新范式。為了降低能耗,模擬計算、類腦計算、碳基計算等非傳統(tǒng)計算肯定是重要的研究方向。
記者:數(shù)據(jù)被稱作新時代的“石油”,但高質(zhì)量數(shù)據(jù)的獲取越來越難,AI發(fā)展會面臨數(shù)據(jù)枯竭嗎?未來應(yīng)如何應(yīng)對這一挑戰(zhàn)?
李國杰:確實存在隱憂?,F(xiàn)階段人工智能的主流是數(shù)據(jù)智能,從某種意義上講,沒有數(shù)據(jù)就沒有智能,數(shù)據(jù)已成為AI技術(shù)進(jìn)步的關(guān)鍵。有專家預(yù)計,2026年現(xiàn)存高質(zhì)量語言數(shù)據(jù)將耗盡,合成數(shù)據(jù)將成為關(guān)鍵突破口。因此,行業(yè)正從“大數(shù)據(jù)”轉(zhuǎn)向“好數(shù)據(jù)”。未來的AI應(yīng)用需要大量稀缺且難以獲取的長尾數(shù)據(jù),如自動駕駛中的極端天氣與路況數(shù)據(jù)、具身智能訓(xùn)練所需要的復(fù)雜場景數(shù)據(jù)等。對于許多實際應(yīng)用來說,擁有50個精心設(shè)計的樣本足以讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)所需知識,例如缺陷檢查系統(tǒng)。
在醫(yī)療、工業(yè)控制、金融等垂直領(lǐng)域,優(yōu)質(zhì)數(shù)據(jù)更依賴于人工標(biāo)注,往往需要高素質(zhì)的專業(yè)人員。因此,數(shù)據(jù)標(biāo)注不完全是勞動密集產(chǎn)業(yè),其大有發(fā)展前途。為此,我國應(yīng)把握數(shù)據(jù)標(biāo)注產(chǎn)業(yè)升級的機(jī)遇,發(fā)展AI輔助標(biāo)注技術(shù),建立和完善行業(yè)數(shù)據(jù)標(biāo)準(zhǔn),推動數(shù)據(jù)標(biāo)注向技術(shù)密集型轉(zhuǎn)變。DeepSeek等企業(yè)的實踐證明,優(yōu)化數(shù)據(jù)質(zhì)量比單純增加數(shù)量更有效。
記者:可解釋性與自主性是AI發(fā)展的兩大目標(biāo),但二者似乎存在矛盾。您如何看待這一問題?
李國杰:人們希望AI系統(tǒng)具備自主性以適應(yīng)復(fù)雜環(huán)境,但完全自主可能導(dǎo)致失控,因此可控性至關(guān)重要,但可控的人工智能一定是可解釋的。因此,實現(xiàn)既自主又可控的AI,需要新的治理哲學(xué)。
要解決兩者之間的矛盾,必須對自主和可控設(shè)立一定的界限,不能追求絕對的自主和絕對的可控。一是允許“邊做邊看”的適度黑箱,不必強(qiáng)求絕對的可解釋性。二是對不允許做的自主AI技術(shù)明確立法限制,可參照核武器和基因編輯技術(shù)的管控。自主性和可控性如同汽車的油門與剎車,只有建立動態(tài)平衡機(jī)制,才能實現(xiàn)“有限自主、可靠可控”的智能系統(tǒng)。
記者:最后,您對AI基礎(chǔ)研究有何展望?
李國杰:人工智能的基礎(chǔ)理論源于半個多世紀(jì)前的科學(xué)成就。近年來的發(fā)展主要得益于工程技術(shù)的突破,而非基礎(chǔ)理論的重大突破和新方向的開辟。在現(xiàn)有的研究方向上添磚加瓦、修修補(bǔ)補(bǔ),可能只會有漸進(jìn)式的發(fā)展,需要解放思想、另辟蹊徑,走前人沒有走過的新路。獨創(chuàng)性的長周期的基礎(chǔ)研究往往是熱情和好奇心驅(qū)動的研究,只有改變完全靠論文和“人才帽子”驅(qū)動的科研文化,基礎(chǔ)研究才會走上良性發(fā)展的道路。
被譽(yù)為AI教父的杰弗里·辛頓,從提出反向傳播算法到探索“凡人計算”,為人工智能的基礎(chǔ)研究樹立了榜樣。“凡人計算”是一種新型計算范式,顛覆了硬件與軟件分離的傳統(tǒng)計算模式,采用與人腦一樣的存算一體模擬計算方式,從而顯著降低能耗并提高效率。這類研究短期內(nèi)效果不明顯,但有望帶來重大突破。
