【摘要】智能大模型技術作為智能產(chǎn)業(yè)與新質(zhì)生產(chǎn)力的典型代表,正掀起人類社會變革的新浪潮,并加速推動科學研究范式的轉變,在人工智能驅(qū)動的科學研究(AI for Science, AI4S)中起著越來越重要的作用,推動以“三個世界、三種技術、三類科學家、三種模式”為特點的平行科學新范式的形成。從虛實互動之平行智能的角度看,大模型技術在數(shù)學、生物學、健康與醫(yī)學、化學、材料科學和天文學等領域都取得了一定的成績。未來應基于平行科學的“三個世界”,利用“三類知識”,整合“三類科學家”,構建服務于AI4S研究的智能生態(tài)系統(tǒng),特別是聯(lián)邦生態(tài)系統(tǒng)的基本框架。
【關鍵詞】人工智能大模型 AI4S 平行智能 平行科學
【中圖分類號】TP18 【文獻標識碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2024.14.007
【作者簡介】王飛躍,中國科學院自動化研究所復雜系統(tǒng)管理與控制國家重點實驗室主任、中國科學院大學人工智能學院教授。研究方向為智能系統(tǒng)、社會計算和復雜系統(tǒng)的建模、分析和控制與管理等。主要著作有《人工智能驅(qū)動的科學研究新范式:從AI4S到智能科學》(論文)、《平行哲學:智能產(chǎn)業(yè)與智慧經(jīng)濟的本源及其目標》(論文)、《社會計算的基本方法與應用》(合著)、Flexible Manipulators: Modeling, Analysis and Optimum Design(合著)等??娗嗪?,北京懷柔平行傳感智能研究院研究員。
引言
近年來,由于智能科學技術的快速發(fā)展,特別是大語言模型(LLMs)的突破,科學研究的格局發(fā)生了深刻的變革。當前,人工智能驅(qū)動的科學研究(AI for Science, AI4S)正徹底改變傳統(tǒng)的科學研究,基于AlphaGo、ChatGPT、Sora等智能應用,通過分布式自主科學(DeSci)進行組織的科學研究新范式正在形成。AI4S代表了自然智慧、技術智能和社會智慧的快速突破和融合,我們必須盡最大努力確保其過程和結果能造福人類,推動智能產(chǎn)業(yè)和新質(zhì)生產(chǎn)力的健康可持續(xù)發(fā)展。
筆者從社會物理信息系統(tǒng)(Cyber-Physical-Social Systems, CPSS)中的平行智能(Parallel Intelligence, PI)的角度,嘗試為AI4S開辟一條新路徑,旨在使AI4S具備“6S”特性:物理世界安全(Safe),網(wǎng)絡空間安全(Secure),生態(tài)發(fā)展的可持續(xù)性(Sustainable),對隱私、個人權利和資源利用的敏感性(Sensitive),為大眾服務(Service)的智慧(Smartness)。筆者希望通過在賽博空間(Cyberspace)中創(chuàng)建一個新的工作空間,來擺脫人們在物理世界中的煩瑣勞動,以促進知識的創(chuàng)造、傳播、治理,實現(xiàn)知識自動化生產(chǎn)。為此,我們需要一個比大語言模型或基礎模型(Foundation Models)更大的“世界模型”(World Model)。受到卡爾·波普爾“三個世界”(Three Worlds)理論的啟示,這個“世界模型”應當包括:世界1,主要由工業(yè)技術(Industry Technology)發(fā)展起來的物理世界;世界2,主要由信息技術(Information Technology)發(fā)展起來的精神世界;世界3,主要通過智能技術(Intelligent Technology)發(fā)展起來的人工世界。簡而言之,平行智能基于CPSS中的“三個世界、三類技術”,將人類(Human)、人工系統(tǒng)(Artificial Systems)、自然世界(Natural Worlds)的智能有組織地(Organized)整合為一類系統(tǒng)智能(Systems Intelligence)——即HANOI智能,為平行科學(Parallel Science)打下基礎。
平行科學是基于“三個世界”,利用“三類知識”,由“三類科學家”進行AI4S研究的新框架。“三類知識”是指主要針對世界1的描述性知識,主要針對世界2的預測性知識,以及主要針對世界3的引導性知識。“三類科學家”即超過80%的數(shù)字人科學家(Digital Scientists),大模型為數(shù)字人科學家提供了強大的技術支撐;不足15%的機器人科學家(Robotic Scientists);以及少于5%的生物人科學家(Biological Scientists),即人類科學家。三類科學家通過自然哲學、社會研究和智能科學進行自主進化和融合,成為一體化的平行科學家(Parallel Scientists)團體,以有人或無人方式進行知識發(fā)現(xiàn)、知識創(chuàng)造,實現(xiàn)知識自動化。
不久的將來,平行科學家將如此開展“新一天”科研工作:首先是“上午”的新“AM”,即自主模式(Autonomous Mode),該模式由數(shù)字人科學家和機器人科學家在人類科學家的監(jiān)督下完成研究任務,時間超過一天的80%。有些任務無法在AM模式下完成,由此進入“下午”的新“PM”,即平行模式(Parallel Mode),由機器人科學家和數(shù)字人科學家在人類科學家的遠程支持下完成工作,時間少于一天的15%。如果AM和PM模式都不行,將進入“夜晚”的新“EM”,即專家或緊急模式(Expert or Emergency Mode),人類科學家必須在現(xiàn)場,在數(shù)字人和機器人科學家的幫助下完成任務,時間少于一天的5%。基于以上所述的愿景,筆者首先介紹平行智能的核心思想和基本框架,以平行智能的視角概述數(shù)學、生物、化學等領域中的AI4S新進展,著重大模型技術的應用,在此基礎上總結分析AI4S領域存在的問題和挑戰(zhàn),并基于平行智能提出HANOI-AI4S,為AI4S提供一個分析、評估、引導的統(tǒng)一框架,致力于推動建立智能聯(lián)邦生態(tài)系統(tǒng)發(fā)展。
平行智能視角下的AI大模型與新質(zhì)生產(chǎn)力變革
平行智能:三個世界,三種技術。盡管平行智能的理念可以追溯到20世紀40年代的循環(huán)因果(Circular Causality)研究,但最近的研究起源于社會物理信息系統(tǒng)CPSS。CPSS旨在創(chuàng)建更高效、自適應和以用戶為中心的系統(tǒng),以應對日益復雜的互聯(lián)世界所帶來的挑戰(zhàn)。簡而言之,CPSS是結合計算、網(wǎng)絡和物理過程與人類互動的集成系統(tǒng),其特點是能夠在物理世界中感知、計算、通信和執(zhí)行,通常涉及大量社會元素,如人類行為、偏好和互動等。
圖1展示了CPSS的基本框架。CPSS的哲學基礎是卡爾·波普爾的“三個世界”理論,該理論認為宇宙由三個統(tǒng)一而連貫的世界組成:物理世界(世界1)、精神世界(世界2)和人工世界(世界3)。世界1包括客觀物質(zhì)和現(xiàn)象;世界2是知識的主觀世界,包含人類的意識和經(jīng)驗;世界3是知識的客觀世界,涉及由各種載體記錄和存儲的文化、文明、科學、技術或理論系統(tǒng)的產(chǎn)物。
三個世界相互作用和影響,映射到物理空間(Physical Space)和賽博空間(Cyberspace),從而形成如圖1所示的“五環(huán)”。該框架可以有效整合三維空間中的各種資源,促進復雜系統(tǒng)中的“涌現(xiàn)”(Emergence)和“收斂”(Convergence)。利用虛擬現(xiàn)實等技術,CPSS整合了存在于物理世界、精神世界和人工世界中的各種物理、計算和人類智力資源,實現(xiàn)了一種平行、透明、智能和無處不在的管理和服務模式。
為彌合物理世界和人工世界之間的建模差距,使CPSS具有可計算性、可測試性和可驗證性,筆者于2004年提出了平行系統(tǒng)理論。實際上,早在1994年,筆者就提出了影子系統(tǒng)(Shadow Systems),將模型視為數(shù)據(jù)生成器和可視化工具。隨后,在“三個世界”理論的進一步影響下,影子系統(tǒng)進一步發(fā)展完善,形成了平行系統(tǒng)。平行系統(tǒng)理論的核心是ACP方法,包括三個組成部分,即人工系統(tǒng)(A)、計算實驗(C)和平行執(zhí)行(P)。其中,人工系統(tǒng)是基礎,計算實驗是核心,平行執(zhí)行是目標。
如圖2所示,人工系統(tǒng)和實際系統(tǒng)之間的關系可以是一對一、一對多、多對一或多對多,這取決于問題的復雜性和解決方案的準確性。在解決問題的過程中,人工系統(tǒng)和實際系統(tǒng)之間虛實交互平行執(zhí)行,形成一種被稱為平行智能的智能形式。
ACP方法將描述性智能(Descriptive Intelligence)、預測性智能(Predictive Intelligence)和引導智能(Prescriptive Intelligence)整合為基礎智能(Foundation Intelligence)。描述性智能有助于構建人工系統(tǒng),預測性智能促進計算實驗,引導智能提供指導和優(yōu)化平行執(zhí)行的機制。因此,平行系統(tǒng)可以利用一個或多個虛擬(人工)空間來解決復雜性和智能之間的基本矛盾,使“不可解決”的問題“可解決”,從而為復雜決策問題提供有效解決方案。
知識在人工智能和CPSS中都扮演著至關重要的角色。知識自動化(Knowledge Automation)試圖實現(xiàn)知識生成、獲取、應用和再創(chuàng)造的循環(huán)過程。目標是將復雜系統(tǒng)的不確定性、多樣性和復雜性(UDC)特征轉變?yōu)橹悄芟到y(tǒng)的敏捷性、專注性和融合性(AFC)特征。為了實現(xiàn)這一目標,必須將知識自動化嵌入基于ACP方法的平行智能框架和過程中。
根據(jù)不同的應用,在平行智能中,實際系統(tǒng)及其相應的人工系統(tǒng)可以以不同模式連接。其核心是通過對現(xiàn)實與虛擬系統(tǒng)的行為比較,學習和預測系統(tǒng)的未來行為,并修改相應的控制策略。該框架有三種操作模式:學習和訓練、實驗和評估、控制和管理。在學習和訓練模式中,人工系統(tǒng)與實際場景連接,作為操作員和管理人員學習和訓練的“中心”。值得注意的是,人工系統(tǒng)不一定要與實際系統(tǒng)完全相同;它是系統(tǒng)在不同方向上可能的演變形式。在實驗和評估模式中,人工系統(tǒng)作為計算實驗的平臺,用于分析和預測實際系統(tǒng)在不同場景下的行為。在管理和控制模式中,人工系統(tǒng)與實際系統(tǒng)實時在線連接,并以高保真度復制實際行為。通過識別實際系統(tǒng)與人工系統(tǒng)之間的行為差異,實現(xiàn)閉環(huán)反饋控制與優(yōu)化。
在平行智能框架中,人工系統(tǒng)(A)是一個廣泛的知識模型,可以看作是傳統(tǒng)數(shù)學或分析模型的擴展。計算實驗(C)提供了一種分析、預測和決策的方法,是傳統(tǒng)模擬仿真的升級。平行執(zhí)行(P)是一種由虛實交互組成的新反饋控制機制,用于鎖定目標、指導行動、優(yōu)化策略。人工系統(tǒng)與實際系統(tǒng)之間的閉環(huán)反饋、虛實交互和平行執(zhí)行可以有效控制復雜系統(tǒng),促使形成平行智能??傊?,ACP方法使用小數(shù)據(jù)生成大數(shù)據(jù),進而從大數(shù)據(jù)中提取深度智能,有效克服傳統(tǒng)方法的局限性,解決復雜系統(tǒng)中現(xiàn)象之“涌現(xiàn)”與解決方案之“收斂”之間的矛盾。
平行智能框架的工作流程主要包括以下三個步驟:首先,構建與實際復雜系統(tǒng)對應的人工系統(tǒng);其次,使用計算實驗來訓練、預測和評估復雜系統(tǒng);最后,通過建立實際物理系統(tǒng)與虛擬人工系統(tǒng)之間的交互和相互學習,實現(xiàn)復雜系統(tǒng)的平行控制和管理。通過虛擬與現(xiàn)實的交互,平行智能可以不斷將實際系統(tǒng)逼近人工系統(tǒng),簡化復雜系統(tǒng)研究中面臨的UDC挑戰(zhàn),實現(xiàn)復雜系統(tǒng)的AFC管理和控制,賦能整個CPSS過程。
平行科學:智能科技之新IT與平行IT。正如我們所見,人工智能正在增強甚至重新定義以工業(yè)技術和信息技術為核心的生產(chǎn)力。換句話說,“智能工業(yè)”是通過智能技術來升級現(xiàn)有產(chǎn)業(yè),從而改變我們的社會,推動科學研究范式的轉變。當前的AI技術和應用已經(jīng)清楚地表明,“智能工業(yè)”已經(jīng)開始:大數(shù)據(jù)成為新的生產(chǎn)手段,區(qū)塊鏈和智能合約重塑新的生產(chǎn)關系,大模型和機器人成為新的生產(chǎn)力。
在“工業(yè)4.0”之后,筆者在2014年提出“工業(yè)5.0”,希望利用人工智能技術,使“三類技術”協(xié)同發(fā)展,用于建設可持續(xù)、以人為本、以CPSS為新空間的工業(yè)社會。目前,國際學術界和工業(yè)界的共識是,工業(yè)5.0的核心概念是基于CPSS和智能驅(qū)動的“知識自動化”。其本質(zhì)在于平行智能,促進虛擬與現(xiàn)實的平行協(xié)作,其顯著表現(xiàn)形式為“新文科”“新科學”“新工程”。
AI4S的主要目的是利用智能技術推動傳統(tǒng)科學研究的變革。當前,AI4S的顯著特點是使用人工智能、機器學習和推理技術來處理和分析大數(shù)據(jù),有效揭示數(shù)據(jù)之間的相互關系,并幫助科學家解決“維數(shù)詛咒”問題,從而更快、更準確地理解復雜現(xiàn)象,其核心也是“知識自動化”,與“工業(yè)5.0”的目標相契合。
當前三類技術的融合,與卡爾·波普爾的三個世界——物理世界、精神世界和人工世界相呼應,這相比于大語言模型和大視覺模型(LVMs)代表了更廣闊的世界模型(World Model)視角。當前的大模型技術表明,改造工業(yè)和科學研究最直接、最自然的方法是通過真實系統(tǒng)和人工系統(tǒng)的平行化。這包括從自然科學到人工科學的轉變,從物質(zhì)生產(chǎn)到人工制造的轉型,以及數(shù)字人和機器人與生物人的平行協(xié)同與合作。對于新的科學研究范式來說,這是“三個世界,三類科學家”:即“數(shù)字人科學家”、“機器人科學家”和生物(人類)科學家,它們共同構成了平行科學家(圖3),進而建立“平行科研院所”和由“數(shù)字人CEO”管理的數(shù)字企業(yè)。
隨著大型模型的進步,高效參數(shù)微調(diào)和提示工程將在未來的科學研究中成為重要方法,這對當前科研人員的角色產(chǎn)生重大沖擊。然而,科研人員不會面臨失業(yè),實際上他們的數(shù)量將顯著增加,盡管他們的角色可能更像知識的“快遞員”。此外,科學研究正從“大問題,大模型”轉向“小問題,大模型”,并在特定領域進行垂直分割。這一趨勢,伴隨大型模型的持續(xù)進步和智能代理(agent)技術的成熟,催生了新型“數(shù)字人科學家”的出現(xiàn),他們專注于科學研究中的“小問題,大模型”。與此同時,“機器人科學家”也被引入許多超越數(shù)字形式的科學研究活動,特別是在高風險、勞動密集型的科學實驗工作中。例如,美國加州大學與谷歌等共同開發(fā)的A-Lab展示了機器人在加速新材料發(fā)現(xiàn)過程中的重要作用。在不久的將來,從分布式自主科學到自動實驗室和無人科學研究工廠,“機器人科學家”將成為“智能工業(yè)社會”的重要組成部分??茖W研究的工業(yè)化是不可避免的趨勢,而“機器人科學家”將是其關鍵支撐。
科學研究已經(jīng)從依賴自然中的直接觀察和實驗,發(fā)展到在受控實驗室環(huán)境中進行實驗,如今再到使用數(shù)學推理進行計算和理論實驗。大型模型的出現(xiàn),進一步使能基于人工系統(tǒng)進行虛擬平行實驗,從而超越傳統(tǒng)計算機模擬的能力。這一進步促進了社會科學中的眾多“反事實實驗”,推動了“新文科”“新科學”“新工程”的融合。因此,未來的科學研究模式將開啟“三個世界、三種模式”的平行科學研究“新一天”,如圖3所示。
自主模式:上午,時間占比超過一天的80%。主要的科學研究工作將由“數(shù)字人科學家”和“機器人科學家”自主完成,人類科學家只需遠程監(jiān)視即可。平行模式:下午,時間占比不足一天的15%。此時,人類科學家須介入,通過遠程控制為“數(shù)字人科學家”和“機器人科學家”提供指導,以完成有一定難度和挑戰(zhàn)的科學研究項目。專家或應急模式:晚上,時間占比少于一天的5%。此時,人類科學家成為主要角色,現(xiàn)場完成創(chuàng)新性、難度大的科學研究任務。
總而言之,我們在工業(yè)5.0時代建立了三大基石來支持AI4S。如圖4所示,第一大基石包括業(yè)務大模型、場景工程(Scenario Engineering, SE)和以人為本的操作系統(tǒng)(HOOS)。第二大基石是工業(yè)5.0中的三類員工:生物員工(約占5%)、數(shù)字人員工(約占80%)和機器人員工(約占15%)。第三大基石是三種操作模式:自主模式(AM,超過80%)、平行模式(PM,不足15%)和專家/應急模式(EM,不足5%)。
AI4S活動涉及先進的AI算法(賽博系統(tǒng))、物理實驗設備和傳感器(物理系統(tǒng))以及人類研究人員和組織框架(社會系統(tǒng))的整合,這種整合反映了CPSS的核心原則,即將網(wǎng)絡、物理和社會組件結合起來,創(chuàng)建智能、自適應系統(tǒng)。因此,AI4S不僅將復雜的AI技術應用于科學研究,還與CPSS的廣泛跨學科方法相一致。在本質(zhì)上AI4S可以被視為一種CPSS,目標是提高研究的效率和效果,滿足人類和社會的需求。相應地,如圖4所示,工業(yè)5.0三大基石和平行智能中的ACP方法也將是AI4S發(fā)展的重要支撐。
大模型驅(qū)動的AI4S前沿進展
近年來,AI4S在全球范圍內(nèi)廣受關注,不但成為人工智能的重要研究方向,也是人工智能“AI+行業(yè)”垂直應用的重要前沿。AI4S通過結合機器學習、深度學習和大模型等技術,在幫助科學家解決復雜的科學問題、提高研究效率、發(fā)現(xiàn)新的科學規(guī)律、推動跨學科創(chuàng)新等方面發(fā)揮了重要作用,已被視為科學研究的第五范式。DeepMind的AlphaFold系列是AI4S的典型代表之一,特別是AlphaFold 3的推出標志著人工智能在細胞生物學領域的新紀元,不但能準確預測蛋白質(zhì)結構,還能揭示分子間復雜相互作用,為加速藥物設計和基因組學研究提供了新工具。AlphaFold系列的成功應用展現(xiàn)了人工智能技術在科學研究中的巨大潛力,為其他科學領域提供了應用AI技術的范例,推動了科學研究進入第五范式。AI4S在數(shù)學、物理、化學、生物、材料、生命、天文、地學、農(nóng)學等領域都取得了進展,各類人工智能模型、方法和技術起到重要推動作用,筆者重點關注近兩年興起的大模型技術及其在各學科領域中的應用。
數(shù)學。人工智能在數(shù)學領域取得了重要進展,包括引導數(shù)學家對拓撲猜想證明、尋找解決組合優(yōu)化問題的新程序、發(fā)現(xiàn)更快的矩陣乘法和排序算法等。在幾何定理證明方面,大模型也發(fā)揮了關鍵作用。使用AI方法證明數(shù)學定理的歷史已經(jīng)有數(shù)十年,并創(chuàng)造了許多重要的里程碑。但幾何定理證明是各個數(shù)學領域中公認的挑戰(zhàn),幾何中的輔助線構造具有多樣性和靈活性,定理證明的過程涉及無限分支因子的搜索空間,而缺乏人類證明示例又帶來訓練數(shù)據(jù)不足的困難。為克服這些挑戰(zhàn),來自谷歌DeepMind和紐約大學的專家提出了AlphaGeometry,這是一種用于歐幾里得平面幾何的定理證明器,它使用神經(jīng)語言模型(Neural Language Model)在大量合成數(shù)據(jù)上從零開始訓練,無需人類演示。AlphaGeometry將語言模型、符號推理、搜索算法相結合,能夠解決幾何領域內(nèi)輔助線構造這一復雜任務,其能力達到了國際數(shù)學奧林匹克競賽(IMO)金牌水平。
生物。在生物學領域中,AlphaFold系列最為引人注目。此外,單細胞RNA測序(scRNA-seq)幫助創(chuàng)建細胞圖譜,對細胞異質(zhì)性、疾病機制和潛在個性化治療具有實際價值。盡管測序技術最近在表觀遺傳學、轉錄組學和蛋白質(zhì)組學的多模式洞見等方面不斷取得進展,但也帶來了如參考映射、干擾預測和多組學數(shù)據(jù)整合等新挑戰(zhàn)。為此,多倫多大學研究團隊發(fā)布了生成預訓練基礎模型scGPT。受自然語言生成中的自監(jiān)督預訓練啟發(fā),scGPT采用transformer架構并在超過3300萬個細胞數(shù)據(jù)上進行預訓練,能夠同時學習細胞和基因表示。scGPT展示了在零樣本和微調(diào)場景中的預訓練優(yōu)勢,其學習的基因網(wǎng)絡與已知功能組高度一致,能夠通過微調(diào)將預訓練模型的知識轉移到各種下游任務,如細胞類型注釋、干擾預測以及多批次和多組學整合,實現(xiàn)更準確和生物學上更有意義的分析。
醫(yī)藥。通過全新藥物設計發(fā)現(xiàn)新治療化合物是藥物研究中的一個重大挑戰(zhàn)。傳統(tǒng)方法由于分子空間巨大、資源密集,研究進程緩慢。計算方法如虛擬篩選和分子動力學加速了藥物發(fā)現(xiàn),但過于依賴現(xiàn)有分子。整合人工智能并促進合作可以解決生物復雜性。生成AI模型被用于藥物發(fā)現(xiàn),但在創(chuàng)建全新結構方面存在困難。類似于自然語言處理的自監(jiān)督預訓練在訓練“化學語言模型”上取得了成功,這些模型將化學結構視為句子,每個符號代表一個化學實體。為利用AI的新進展,研究人員引入了一種全新藥物設計引擎drugAI,通過將解碼器Transformer模型與蒙特卡羅樹搜索(MCTS)相結合,使其首次在生物信息學和化學信息學中應用。drugAI是一種迭代方法,允許模型改進其藥物候選生成,確保分子滿足物理化學和生物學約束,并有效結合目標。結果表明,drugAI在基準數(shù)據(jù)集上的有效性,顯示出比現(xiàn)有方法更高的有效性和藥物相似性。此外,drugAI確保生成的分子能強效結合目標,突顯了其在加速各種疾病藥物發(fā)現(xiàn)中的潛力。
化學?;瘜W研究面臨探索空間巨大、實驗重復耗時、實驗過程危險等挑戰(zhàn)。為此,尋求面向化學研究的高效、安全、自動化的實驗室(Self-driving Lab)是人們追求的目標。2023年3月14日,OpenAI發(fā)布了GPT-4,展示了其在化學研究自動化相關問題中的應用前景。實驗室自動化與強大的語言模型的結合,能夠有效整合自動化流動系統(tǒng)和移動平臺,實現(xiàn)化學反應的自主發(fā)現(xiàn)和過程優(yōu)化,推動化學研究的進展??▋?nèi)基梅隆大學的科學家們開發(fā)了Coscientist,這是一種基于多個語言模型的智能代理系統(tǒng),能夠自主設計、規(guī)劃和執(zhí)行復雜的科學實驗。Coscientist利用互聯(lián)網(wǎng)瀏覽工具、機器人實驗API和其他語言模型來完成化學合成規(guī)劃、文檔導航、云實驗室命令執(zhí)行、液體處理等復雜科學任務,通過實驗數(shù)據(jù)分析解決優(yōu)化問題。Coscientist的設計理念與平行科學框架一致,人類化學家統(tǒng)籌基于大模型的“數(shù)字科學家”和自動化設備“機器人科學家”,加速了化學研究進展。除了Coscientist,近年來還涌現(xiàn)了基于大規(guī)模語言模型的方法和框架。ChemCrow是一個基于LLM化學代理,整合了18個專家設計的工具,以增強LLM在有機合成、藥物發(fā)現(xiàn)和其他化學任務中的性能。ChemCrow自主規(guī)劃和執(zhí)行合成,并指導發(fā)現(xiàn),展示了其在各種化學任務中的有效性。ChemCrow不僅幫助化學家,還在實驗化學和計算化學之間架起橋梁,推動科學進步。大語言模型被用于預測化學,在文獻中的工作表明GPT-3可以輕松地為化學任務進行微調(diào),以自然語言準確回答化學問題。這種方法在小數(shù)據(jù)集上表現(xiàn)尤為出色,甚至優(yōu)于傳統(tǒng)技術。模型的多功能性表明它可以成為啟動項目和提供預測任務基線的標準工具,從而有效利用其在基礎模型中編碼的集體知識。
材料。新材料在滿足社會需求和推動技術前沿方面具有變革潛力。但是材料科學面臨著與化學相似的挑戰(zhàn),不但存在材料合成配方組合空間巨大、實驗篩選與驗證效率低下等困難,也涉及高昂的成本和資源需求、對環(huán)境的影響、產(chǎn)業(yè)化應用前景等問題。為了應對計算篩選與創(chuàng)新材料實際實驗合成之間的速度差異,科學家們提出了用于無機粉末固態(tài)合成的自主實驗室A-Lab。A-Lab擁有一個完全自主的流程,集成了計算、文獻中的歷史數(shù)據(jù)、計劃和解釋結果的主動學習、提出合成配方的自然語言模型,以及使用機器人進行的實驗。A-Lab在連續(xù)運行17天內(nèi)實現(xiàn)了41種新化合物的驚人成果。
天文學。多年來,人工智能在天文學領域產(chǎn)生了重大影響。一方面是用AI算法對由天體觀測和望遠鏡生成的大量天文數(shù)據(jù)進行分析,以識別天體、分類星系并檢測罕見事件,如引力波。另一方面是用AI提高天文模擬的準確性和效率,幫助研究人員建模復雜的現(xiàn)象,如星系形成和宇宙演化。此外,AI正在輔助開發(fā)自主望遠鏡和天文臺,這些設備可以根據(jù)科學目標和環(huán)境條件自動優(yōu)先安排觀測任務。在天文學中,光變曲線(Light Curve)是一種顯示天體(如恒星、變星或超新星)亮度隨時間變化的圖像。通過分析光變曲線,天文學家可以了解這些天體的性質(zhì)、演化和其中發(fā)生的物理過程。但傳統(tǒng)的星震分析使用光變曲線的功率譜來估計振蕩特性,在矮星中面臨挑戰(zhàn),并且需要主序星的高節(jié)奏觀測。為了解決這些挑戰(zhàn),科學家提出了一種新的基于Transformer的深度學習模型,并稱其為Astroconformer。Transformers擅長捕捉長程相關性,非常適合分析類似恒星光變曲線的時間序列數(shù)據(jù)。這種方法允許直接在時間域內(nèi)分析觀測到的光變曲線,最大限度地減少信息損失,并消除額外后處理步驟的需要,其表現(xiàn)優(yōu)于基于k近鄰方法和卷積神經(jīng)網(wǎng)絡等傳統(tǒng)AI方法。
AI4S面臨的問題與挑戰(zhàn)
近年來,盡管AI4S取得了很大進展,但仍面臨技術、倫理、生態(tài)等方面的挑戰(zhàn)。這些關鍵挑戰(zhàn)因素可總結如下。
一是來自AI的挑戰(zhàn)。首先是數(shù)據(jù)挑戰(zhàn)。深度學習和大模型以海量數(shù)據(jù)為基礎,而科學研究領域中數(shù)據(jù)的專業(yè)性和稀缺性,對AI模型訓練是一個重大挑戰(zhàn)。其次是可解釋性差。許多AI模型,尤其是深度學習模型,通常被視為“黑箱”,使得解釋其決策變得困難。在科學研究中,理解AI驅(qū)動的見解背后的推理是至關重要的,確??山忉屝院涂衫斫庑砸彩潜夭豢缮俚?。最后是計算資源受限。開發(fā)和訓練復雜的AI模型,尤其是深度學習模型和大語言模型,需要大量的計算資源。高性能計算基礎設施的訪問可能有限,阻礙了AI4S應用的可擴展性和部署。
二是來自科學的挑戰(zhàn)。首先是專業(yè)領域差異大。不同的科學學科有獨特的挑戰(zhàn)和需求,將AI技術適應每個領域的特定特點,如物理學、生物學或化學,在模型開發(fā)和應用方面帶來挑戰(zhàn)。其次是專業(yè)知識的整合難度大。AI研究人員與領域?qū)<抑g的有效合作是必要的,彌合技術專長與特定領域知識之間的差距,對于開發(fā)符合科學界需求和約束的AI4S解決方案是必要的。
三是來自AI和科學的共同挑戰(zhàn)。首先是缺乏標準化。AI4S中缺乏標準化的實踐和評估指標,可能導致比較和重復研究結果的困難。標準化對于基準測試、評估模型和推廣一致的方法論至關重要。其次是跨學科整合難。數(shù)據(jù)格式、方法和研究范式的差異,給在不同科學學科中整合AI技術帶來了挑戰(zhàn)??朔@些學科界限以創(chuàng)建統(tǒng)一的AI4S框架需要克服跨學科的障礙。最后是可遷移性受限。為一個科學領域開發(fā)的AI模型可能由于數(shù)據(jù)分布、特征空間和基礎過程的差異,難以輕易轉移到另一個領域,確保模型在不同領域的普遍性是一個持久的挑戰(zhàn)。
四是其他方面的挑戰(zhàn)。首先是教育和培訓差距。AI技術的快速發(fā)展可能導致教育和培訓方面的差距。確保研究人員和從業(yè)者具備理解、實施和評估AI4S方法所需的技能,對于該領域的進步至關重要。其次是倫理考量。AI4S中的倫理挑戰(zhàn)包括訓練數(shù)據(jù)中的偏見、公平性、隱私問題以及AI技術的負責任使用。確保AI應用符合倫理標準對于維護科學界的信任至關重要。最后是監(jiān)管和法律框架。開發(fā)和部署AI4S應用需要應對復雜的監(jiān)管和法律環(huán)境。確保遵守法規(guī)、解決數(shù)據(jù)隱私問題以及管理知識產(chǎn)權將成為持續(xù)的挑戰(zhàn)。
綜合以上四個方面,克服這些挑戰(zhàn)對于發(fā)掘AI4S的全部潛力至關重要,而應對這些挑戰(zhàn)需要AI和科學界的研究人員、政策制定者和從業(yè)者的合作努力。提出AI4S統(tǒng)一框架,建立可持續(xù)發(fā)展的AI4S生態(tài)系統(tǒng)勢在必行。
HANOI:AI4S統(tǒng)一框架
建立AI4S統(tǒng)一框架的必要性。為了應對上述挑戰(zhàn),考慮AI4S跨學科的特點,構建一個通用和統(tǒng)一的框架可以更好地推動AI4S的發(fā)展。一是促進跨學科合作。不同的科學學科通常有獨特的挑戰(zhàn)、數(shù)據(jù)類型和方法論。統(tǒng)一框架能夠為不同背景的研究人員提供一個共享見解、方法和最佳實踐的共同基礎,促進跨學科合作。二是加強知識整合。統(tǒng)一框架能夠整合來自各種科學領域的知識,形成統(tǒng)一知識庫,為各領域之間架起知識橋梁,探索更全面和協(xié)同的問題解決方法。三是高效的資源利用。通用框架可以高效利用資源,包括計算能力和專業(yè)知識。研究人員可以利用共享的工具和方法,避免在不同科學領域重復工作和資源浪費。四是系統(tǒng)化的知識轉移。知識交流對于將AI的進步轉化為對科學研究的有意義貢獻至關重要,通用框架有助于AI研究人員和各個科學領域的專家之間進行系統(tǒng)化的知識轉移。五是模型和方法的跨領域遷移。統(tǒng)一的框架促進了AI模型和方法在不同學科間的可遷移性。為一個科學領域開發(fā)的模型可以在經(jīng)過最少修改的情況下應用于另一個領域,加速AI4S解決方案的開發(fā)和部署。六是基準測試和評估。通用框架為AI4S方法提供基準測試和評估的基礎。標準化的指標和評估標準允許研究人員一致地評估模型的性能,促進領域內(nèi)的比較和進步。七是應對共同挑戰(zhàn)。許多科學領域面臨共同的挑戰(zhàn),如數(shù)據(jù)稀缺、噪聲和可解釋性問題。一個統(tǒng)一的框架允許研究人員集體應對這些挑戰(zhàn),開發(fā)出可以惠及多個學科的通用解決方案。八是跨領域啟發(fā)。共享框架鼓勵探索跨領域洞見,幫助研究人員識別出單一學科內(nèi)不易顯現(xiàn)的共同模式、關系和原則,從而引領新的發(fā)現(xiàn)和創(chuàng)新。九是促進教育和培訓。統(tǒng)一框架可以簡化進入AI4S領域研究人員的教育和培訓。標準化的工具和方法使擁有一個學科專長的個人更容易將AI技術應用于另一個學科,促進更包容和協(xié)作的研究環(huán)境。十是指導倫理規(guī)范。統(tǒng)一的框架為解決AI4S中的倫理考量和標準提供了基礎。共享的指南可以幫助研究人員應對倫理挑戰(zhàn),確保在科學研究中負責任和透明地使用AI技術。十一是促進標準化。通過統(tǒng)一框架促進AI4S中的標準化,促進研究中的一致性和可重復性。標準化的實踐有助于提升AI應用的可信度,并鼓勵跨學科的最佳實踐采用。總之,一個通用和統(tǒng)一的AI4S框架在多個科學學科間促進合作、知識整合和資源高效利用。它為應對共同挑戰(zhàn)、促進跨學科見解和指導AI技術在科學研究中的倫理和負責任使用提供了基礎。
HANOI-AI4S:基于平行智能的統(tǒng)一框架。AI4S的發(fā)展目標與智能的新哲學相一致,即在物理世界中安全,在網(wǎng)絡世界中安全,在生態(tài)世界中可持續(xù),對個人需求敏感,為所有人服務,并在所有方面都智能。使用認知智能和平行智能用于智能科學和技術,使用加密智能和聯(lián)合智能用于智能操作和管理,使用社會智能和生態(tài)智能用于智能發(fā)展和可持續(xù)性。在這方面,筆者提出了HANOI方法,集成人工、自然和組織智能,實現(xiàn)知識自動化,為可持續(xù)和智能社會提供服務。為了實現(xiàn)一個通用的AI4S框架,筆者基于HANOI方法,利用平行智能、數(shù)字孿生、元宇宙、Web 3.0和區(qū)塊鏈等技術,提出了HANOI-AI4S。如圖5所示,HANOI-AI4S框架的特點是多維度,涵蓋自然科學問題(自然世界)、人工系統(tǒng)、領域知識、數(shù)據(jù)集、人類角色和組織機制(如DAO和DeSci)。該框架不僅有助于系統(tǒng)分析AI4S,還促進跨學科交流與融合,使得傳統(tǒng)上孤立的科學社區(qū)可以共享見解和創(chuàng)新。
一是人工系統(tǒng)。人工系統(tǒng)在平行智能框架中發(fā)揮著至關重要的作用,為解決實際科學問題提供了測試平臺,并使得高效的計算實驗成為可能。在AI4S中,許多工作利用模擬器進行各種用途,如數(shù)據(jù)/指令生成和結果驗證。人工系統(tǒng)不僅限于虛擬現(xiàn)實或數(shù)字孿生。最近,隨著生成式AI方法的興起,基礎模型如大語言模型和多模態(tài)模型實際上充當了現(xiàn)實世界的虛擬系統(tǒng)(或世界模型),在證明數(shù)學猜想和發(fā)現(xiàn)新材料等研究領域展示了顯著潛力。
二是領域知識(Knowledge)。領域知識提供了有效應用AI方法于特定科學問題所需的背景理解和專業(yè)知識。例如,在物理和生物學中,自然現(xiàn)象通常復雜和多樣,因此擁有領域知識對于設計準確的模型、解釋結果等環(huán)節(jié)都起著至關重要的作用。同時,數(shù)據(jù)集(Dataset)為訓練、驗證和改進AI模型提供了基礎,使它們能夠進行有根據(jù)的預測、發(fā)現(xiàn)模式并促進科學理解。本質(zhì)上,數(shù)據(jù)是AI4S的生命線,為理解科學現(xiàn)象和訓練模型以貢獻科學知識提供了實證基礎。數(shù)據(jù)的豐富性、質(zhì)量和多樣性直接影響AI在科學研究中的應用效果。因此,從觀測、實驗、模擬中收集的數(shù)據(jù),或者通過增強方法生成數(shù)據(jù),是AI4S研究的重要手段。
三是人類角色??茖W家和AI研究人員在AI4S的研究和開發(fā)中起著關鍵作用。AI專家和領域?qū)<抑g的跨學科合作對于成功將AI技術整合到不同領域的科學研究中至關重要。同時,人類科學家和AI技術(數(shù)字科學家和機器人科學家)之間的合作是共生的。AI帶來了計算能力和效率,而人類科學家則貢獻了創(chuàng)造力、專業(yè)知識和情境理解,確保AI4S應用符合科學目標和倫理標準。
四是組織和生態(tài)系統(tǒng)(DAO)??茖W研究是一個涉及人力、設備、資金支持等多方面需求的復雜項目,有序的組織和健康的生態(tài)系統(tǒng)對于AI4S至關重要。一個有組織的生態(tài)系統(tǒng)通過確保資源的高效利用和人員的有效激勵,促進AI4S工作的可持續(xù)發(fā)展。相比于AI模型/算法,AI4S的組織和生態(tài)尚處于起步階段,沒有得到足夠的關注。然而,一個良好的趨勢是,越來越多的科學家開始認識到組織和生態(tài)的重要性。他們倡議利用新技術發(fā)展新的范式,如DeSci、DAO和聯(lián)邦智能等,都是此方向上的有益探索。
從基礎智能到基于TAO的聯(lián)邦智能系統(tǒng)
AI4S與S4AI的目標與使命。AI4S與S4AI(Science for AI)是一對互相促進的有機體。一方面,AI4S在物理學、化學、生物學、天文學等各個科學領域取得了顯著進展。隨著大語言模型等AI技術的進步,AI4S不斷前進,提供了應對復雜科學問題的新方法,并加快了發(fā)現(xiàn)的步伐。另一方面,科學研究人員還應從S4AI的角度看待問題,尤其是SS4AI(Social Science for AI),其核心是人工智能及更廣泛智能科學技術的倫理和治理問題。必須認識到,從AlphaGo到ChatGPT,當前的前沿人工智能技術無法被解釋,而廣義上的智能在其內(nèi)涵上也無法科學解釋;雖然人工智能無法被解釋,但必須能夠被治理,這是S4AI的目標和使命。區(qū)塊鏈、智能合約、DAO和DeSci已經(jīng)將“治理”從文科轉移到硬科技的“科學和工程”領域。新加密技術、非同質(zhì)化代幣(Non-Fungible Token, NFT)、聯(lián)邦學習、聯(lián)邦智能、聯(lián)邦生態(tài)的技術體系,為智能技術的治理提供了支撐,但這些技術仍然不夠。“數(shù)字人科學家”的引入為AI4S的治理提供了新的視角,即培養(yǎng)和教育用于科學研究的數(shù)字人。正如“平行教育”研究所設想的那樣,通過數(shù)字學校和數(shù)字研究所,生物人類和數(shù)字科學家可以在各種大型教育和科學模型中學習和訓練,相互促進,實現(xiàn)“對齊”和“治理”,就像人類自身經(jīng)歷的教育和科學研究過程一樣。DeepMind聯(lián)合創(chuàng)始人兼首席執(zhí)行官Demis Hassabis指出:“我相信,人工智能將成為科學家部署的一種元解決方案,增強我們的日常生活,讓我們都能更快、更有效地工作。如果我們能廣泛而公平地部署這些工具,創(chuàng)造一個每個人都能參與并受益的環(huán)境,我們有機會豐富和推進整個人類的發(fā)展。”但如何實現(xiàn)每個人都能參與并受益的美好愿景?DeSci、DAO和聯(lián)邦生態(tài)系統(tǒng)等使能技術正在為此奠基。
分布式自主科學正在受到不同領域科學家越來越多的關注。DeSci在建立AI4S的強大生態(tài)系統(tǒng)中可以發(fā)揮重要作用,提供多種潛在的益處。雖然傳統(tǒng)的集中式科學研究方法普遍存在,但去加密分布式模型為合作、透明和包容性帶來了新的機會。DeSci的一個目標是基于加密分布式網(wǎng)絡實現(xiàn)數(shù)據(jù)共享,這對于訓練強大、可推廣和適應科學場景的模型至關重要。此外,DeSci鼓勵開放訪問模型、算法和研究成果。雖然聯(lián)邦學習和群體學習可以在一定程度上解決數(shù)據(jù)隱私和模型專有權問題,但倡導開放仍然是必不可少的。這種開放性在AI4S中促進了共享知識庫的發(fā)展,使研究人員能夠相互借鑒并加速多領域的進展。DeSci能夠使得來自不同地域和機構的研究人員互相合作,通過交流豐富AI4S應用視角,增強知識庫和數(shù)據(jù)集的多樣性。這種協(xié)作方法促進了社區(qū)驅(qū)動的創(chuàng)新,使更廣泛的貢獻者能夠參與開發(fā)和改進AI4S方法,帶來創(chuàng)造性的解決方案和多樣化的應用。此外,DeSci在提升AI4S方面提供了若干關鍵促進作用。一是加密分布式可以增強AI模型開發(fā)和部署的透明度。透明度對于獲得科學界的信任和確保研究結果的可重復性至關重要。二是加密分布式系統(tǒng)在面對故障或中斷時通常更具彈性。加密分布式生態(tài)系統(tǒng)可以在數(shù)據(jù)源、算法和計算資源方面提供冗余,降低單點故障的風險。三是DeSci可以利用代幣化和激勵機制,獎勵貢獻數(shù)據(jù)、算法或計算資源的參與者。在AI4S中,這可以鼓勵合作和高質(zhì)量共享資源的發(fā)展。
DAO和DeSci都是加密分布式、社區(qū)驅(qū)動系統(tǒng)的例子。DeSci對開放訪問、協(xié)作和社區(qū)驅(qū)動創(chuàng)新的強調(diào)與DAO的原則一致,后者優(yōu)先考慮加密分布式、透明度和社區(qū)治理。DeSci和DAO都旨在賦予個人和社區(qū)參與決策過程的權力,并在各自領域內(nèi)取得有意義的進展。雖然DeSci專注于將加密分布式原則應用于科學研究和創(chuàng)新,但DAO是一個更廣泛的概念,可以應用于各種加密分布式的組織結構。在DeSci的背景下,DAO可以幫助分配資源,決定研究方向,并以透明和加密分布式的方式管理平臺的整體運行。在不同領域,DAO的數(shù)量在增加,例如在生命和健康領域涌現(xiàn)出VitaDAO、ValleyDAO和AthenaDAO等一系列應用。
區(qū)塊鏈技術對于支持DAO的自主性、透明性和效率至關重要,使其能夠以分布式和民主的方式運作。DeSci和DAO的底層是一系列支持技術。區(qū)塊鏈、分布式賬本技術(DLT)、智能合約、加密分布式存儲、點對點網(wǎng)絡和開放訪問平臺等技術在確??茖W數(shù)據(jù)、交易和合作的安全透明記錄方面發(fā)揮關鍵作用,代幣化(Tokenization)對于激勵和獎勵生態(tài)系統(tǒng)中的參與者也至關重要。通過采用這些技術,DeSci能夠創(chuàng)建一個包容、高效并促進全球合作的加密分布式科學研究生態(tài)系統(tǒng)。首先,區(qū)塊鏈提供了加密分布式賬本,確保沒有單一實體控制整個組織,促進透明度并防止操縱。智能合約,即直接寫入代碼的自執(zhí)行合約,自動執(zhí)行DAO內(nèi)的某些功能,確保決策和交易遵循預定義的規(guī)則,無需中介。區(qū)塊鏈的透明性允許利益相關者實時查看操作和交易,促進信任并防止欺詐。其次,區(qū)塊鏈的不可篡改性確保了記錄的完整性,并提供了可靠的審計追蹤。最后,區(qū)塊鏈在DAO內(nèi)啟用了安全透明的投票機制,使參與者可以使用代幣或其他方法對提案進行投票、作出決策并治理操作。
構建基于TRUE DAO智能聯(lián)邦系統(tǒng)的智能生態(tài)。如何協(xié)調(diào)數(shù)據(jù)和計算資源,加速核心算法創(chuàng)新,促進工業(yè)和社會應用,并服務于各行業(yè)和群體的需求,已成為大模型時代的重要課題。我們需要充分利用大模型能力,警惕其可能帶來的環(huán)境和社會問題,制定法規(guī)和激勵政策來應對這些挑戰(zhàn)。盡管DeSci具有顯著優(yōu)勢,但需要考慮諸如治理、標準化和協(xié)調(diào)等挑戰(zhàn)。只有將分布式原則與傳統(tǒng)中心化機制進行深度融合,發(fā)揮全面優(yōu)勢,才能促進AI4S生態(tài)系統(tǒng)的健康快速發(fā)展。為此,在吸納DeSci運動優(yōu)勢的同時,我們還需要一個針對人工智能科學研究的更健壯的生態(tài)系統(tǒng)。區(qū)塊鏈與分布式自主管理的結合形成了TAO(TRUE DAO),為創(chuàng)建一個完整的可信數(shù)據(jù)、算法和操作的生態(tài)系統(tǒng)打下了基礎,聯(lián)邦生態(tài)系統(tǒng)框架順勢而生。智能聯(lián)邦生態(tài)系統(tǒng)由數(shù)據(jù)隱私、信息安全和資源整合為驅(qū)動,建立在一系列支持安全、共識、激勵和合約的區(qū)塊鏈技術之上。聯(lián)邦生態(tài)系統(tǒng)包括四個子模塊,即聯(lián)邦數(shù)據(jù)、聯(lián)邦控制、聯(lián)邦管理和聯(lián)邦服務。
首先,聯(lián)邦數(shù)據(jù)是聯(lián)邦生態(tài)系統(tǒng)的關鍵組成部分,解決了大模型時代的數(shù)據(jù)孤島問題。它包含聯(lián)盟內(nèi)所有節(jié)點的數(shù)據(jù)、存儲、計算和通信資源。為了確保隱私,聯(lián)邦數(shù)據(jù)分為私人或非私人,通過聯(lián)邦控制實現(xiàn)數(shù)據(jù)聯(lián)合。在AI應用中,聯(lián)邦數(shù)據(jù)支持有效的數(shù)據(jù)檢索、預處理、處理、挖掘和可視化。它解決了大模型訓練中的數(shù)據(jù)丟失、低質(zhì)量和版權保護等問題,同時能夠確保隱私,實現(xiàn)數(shù)據(jù)共享,并為公共模型提供安全保障。
其次,聯(lián)邦控制是聯(lián)邦生態(tài)系統(tǒng)的核心執(zhí)行部分,確保信息安全并保護數(shù)據(jù)權利。它采用分布式策略對大型系統(tǒng)進行高效、安全和可靠的控制。私人數(shù)據(jù)保留在本地節(jié)點,而非私人數(shù)據(jù)的所有權和使用權分離。聯(lián)邦控制使用聯(lián)邦合約定義數(shù)據(jù)聯(lián)邦,建立對數(shù)據(jù)存儲、傳輸、共享和使用的控制。其目標是確保信息安全,打破數(shù)據(jù)孤島,實現(xiàn)數(shù)據(jù)聯(lián)合,這對于聯(lián)邦智能和聯(lián)邦生態(tài)系統(tǒng)的整體成功至關重要。
再次,聯(lián)邦管理是聯(lián)邦生態(tài)系統(tǒng)的核心部分,負責根據(jù)整體目標作出管理決策,并實時動態(tài)調(diào)整。它有助于實現(xiàn)生態(tài)系統(tǒng)的最佳狀態(tài)和目標,確保數(shù)據(jù)安全。聯(lián)邦管理通過控制和管理聯(lián)邦數(shù)據(jù)提供個性化服務和安全保障。它利用基于區(qū)塊鏈的合約、激勵和共識確保安全,同時將數(shù)據(jù)轉化為智能安全。聯(lián)邦管理結合數(shù)據(jù)、計算能力和人力資源得到科學可靠的決策,提高管理效率。在人工智能和區(qū)塊鏈的支持下,聯(lián)邦數(shù)據(jù)被聚合,轉化為決策和措施,實現(xiàn)從數(shù)據(jù)到智能的進化,助力個體智能轉化為集體智能。
最后,聯(lián)邦管理的目標是通過對聯(lián)邦數(shù)據(jù)的聯(lián)邦控制實現(xiàn)聯(lián)邦服務。因此,聯(lián)邦數(shù)據(jù)是聯(lián)邦管理的數(shù)據(jù)基礎和聯(lián)邦服務的數(shù)據(jù)安全保障。通過設計一系列聯(lián)邦管理規(guī)則,并確保聯(lián)邦節(jié)點數(shù)據(jù)的安全和隱私,從而通過聯(lián)邦數(shù)據(jù)的管理和控制實現(xiàn)聯(lián)邦服務。同時,在實現(xiàn)聯(lián)邦服務的過程中,會不斷產(chǎn)生大量新數(shù)據(jù),這些數(shù)據(jù)可以添加到聯(lián)邦數(shù)據(jù)中進一步迭代優(yōu)化聯(lián)邦管理決策。
綜上所述,聯(lián)邦生態(tài)系統(tǒng)基于智能生態(tài)系統(tǒng)的研究理念,具有將數(shù)據(jù)轉化為智能的能力。它不僅適用于以中心節(jié)點為主導的聯(lián)邦,也適用于中心節(jié)點被削弱或完全分布式的聯(lián)邦。通過聯(lián)邦生態(tài)系統(tǒng),聯(lián)邦節(jié)點可以通過松散聯(lián)盟建立合作關系,加強每個節(jié)點的隱私保護,調(diào)動聯(lián)邦節(jié)點的積極性,提高聯(lián)邦成員的參與度,從而提高聯(lián)邦的整體表現(xiàn)。聯(lián)邦生態(tài)系統(tǒng)的框架和方法已成功應用于工業(yè)控制、交通物流、社會人口等領域,聯(lián)邦生態(tài)系統(tǒng)在AI科學研究中也將具有巨大潛力。
當前,AI大模型不斷更新升級,“數(shù)字人科學家”“機器人科學家”成為人類科學家的左膀右臂,在“三個世界,三種IT”的助力下,推動AI4S不斷取得突破性進展。“三類科學家,三種工作模式”的平行科學研究范式正在形成,AI4S未來的愿景將是Science of SCE+:慢(Slow)、隨意(Casual)、享受(Enjoy)、輕松(Easy)、優(yōu)雅(Elegant)。
參考文獻
秦蕊、梁小龍、李娟娟等,2023,《平行科研院所:從數(shù)字化轉型到智能化變革》,《智能科學與技術學報》,第5期。
王飛躍、繆青海,2023,《人工智能驅(qū)動的科學研究新范式:從AI4S到智能科學》,《中國科學院院刊》,第4期。
王飛躍、繆青海、張軍平等,2023,《探討AI for Science的影響與意義:現(xiàn)狀與展望》,《智能科學與技術學報》,第5期。
王飛躍、王雨桐,2024,《數(shù)字科學家與平行科學:AI4S和S4AI的本源與目標》,《中國科學院院刊》,第39期。
王飛躍、繆青海,2023,《基礎智能:從聯(lián)邦智能到基于TAO的智能系統(tǒng)聯(lián)邦》,《科技導報》,第41期。
A. Davies, P. Veli?kovi,?L. Buesing et al., 2021, "Advancing Mathematics by Guiding Human Intuition with AI," Nature, 600(7887).
A. Fawzi, M. Balog, A. Huang et al., 2022, "Discovering faster matrix multiplication algorithms with reinforcement learning," Nature, 610(7930).
A. W. Senior, R. Evans, J. Jumper et al., 2020, "Improved Protein Structure Prediction Using Potentials from Deep Learning," Nature, 577(7792).
B. Romera–Paredes, M. Barekatain, A. Novikov et al., 2024, "Mathematical Discoveries from Program Search with Large Language Models," Nature, 625(7939).
D. Ang, C. Rakovski, H. S. Atamian, 2024, "De Novo Drug Design Using Transformer–Based Machine Translation and Reinforcement Learning of an Adaptive Monte Carlo Tree Search," Pharmaceuticals, 17(2).
D. A. Boiko, R. MacKnight, B. Kline et al., 2023, "Autonomous Chemical Research with Large Language Models," Nature, 624(7992).
F. Y. Wang, 2010, "The Emergence of Intelligent Enterprises: From CPS to CPSS," IEEE Intelligent Systems, 25(4).
F. Y. Wang, 2022, "Parallel Intelligence in Metaverses: Welcome to Hanoi!" IEEE Intelligent Systems, 37(1).
L. Li, Y. Lin, N. Zheng, F. Y. Wang, 2017, "Parallel Learning: A Perspective and a Framework," IEEE/CAA Journal of Automatica Sinica, 4(3).
F. Y. Wang, 2023, "Forward to the Past: CASTLab's Cyber–Social–Physical Approach for ITS in 1999," IEEE Intelligent Transportation Systems Magazine, 16(4).
F. Y. Wang, 2004, "Computational Theory and Methods for Complex Systems," China Basic Science, 6(41).
F. Y. Wang, 2006, "On the Modeling, Analysis, Control and Management of Complex Systems," Complex Systems and Complexity Science, 3(2).
F. Y. Wang, 1994, "Shadow Systems: A New Concept for Nested and Embedded Co–Simulation for Intelligent Systemsz," University of Arizona, US.
F. Y. Wang, 2015, "CC5.0: Intelligent Command and Control Systems in the Parallel Age," Journal of Command and Control, 1(1).
F. Y. Wang, 2014, "Industry 4.0: The Queen's New Clothes," Science Times.
F. Y. Wang, 2023, "New Control Paradigm for Industry 5.0: From Big Models to Foundation Control and Management," IEEE/CAA Journal of Automatica Sinica, 10(8).
F. Y. Wang, W. Ding, X. Wang, J. Garibaldi, S. Teng, R. Imre, C. Olaverri–Monreal, 2022, "The DAO to DeSci: AI for Free, Fair, and Responsibility Sensitive Sciences," IEEE Intelligent Systems, 37(2).
F. Y. Wang, Y. Lin, Ioannou, A. Petros, L. Vlacic et al., 2023, "Transportation 5.0: The DAO to Safe, Secure, and Sustainable Intelligent Transportation Systems," IEEE Transactions on Intelligent Transportation Systems, 24(10).
F. Y. Wang, R. Qin, Y. Chen et al., 2021, "Federated Ecology: Steps Toward Confederated Intelligence," IEEE Transactions on Computational Social Systems, 8(2).
F. Y. Wang, W. Zhang, Y. Tian et al., 2021, "Federated Data: Toward New Generation of Credible and Trustable Artificial Intelligence," IEEE Transactions on Computational Social Systems, 8(3).
F. Y. Wang, J. Zhu, R. Qin et al., 2021, "Federated Control: Toward Information Security and Rights Protection," IEEE Transactions on Computational Social Systems, 8(4).
F. Y. Wang, 2022, "The DAO to Meta Control for Meta Systems in Metaverses: The System of Parallel Control Systems for Knowledge Automation and Control Intelligence in CPSS," IEEE/CAA Journal of Automatica Sinica, 9(11).
F. Y. Wang, R. Qin, J. Li et al., 2021, "Federated Management: Toward Federated Services and Federated Security in Federated Ecology," IEEE Transactions on Computational Social Systems, 8(6).
F. Y. Wang, R. Qin, X. Wang et al., 2022, "Meta Societies in Metaverse: Meta Economics and Meta Management for Meta Enterprises and Meta Cities," IEEE Transactions on Computational Social Systems, 9(1).
S. Hamburg, 2021, "Call to Join the Decentralized Science Movement," Nature, 600(7888).
H. Cui, C. Wang, H. Maan et al., 2024, "scGPT: Toward Building a Foundation Model for Single–Cell Multi–Omics Using Generative AI," Nature Methods, 26 February.
J. Jumper, R. Evans, A. Pritzel et al., 2021, "Highly Accurate Protein Structure Prediction with AlphaFold," Nature, 596(7873).
J. Abramson, J. Adler, J. Dunger et al., 2024, "Accurate Structure Prediction of Biomolecular Interactions with AlphaFold 3," Nature, May.
J. S. Pan, Y. S. Ting, J. Yu, 2024, "Astroconformer: The Prospects of Analyzing Stellar Light Curves with Transformer–Based Deep Learning Models," Monthly Notices of the Royal Astronomical Society, 528(4).
J. Li, R. Qin, F. Y. Wang, 2023, "The Future of Management: DAO to Smart Organizations and Intelligent Operations," IEEE Transactions on Systems, Man, and Cybernetics: Systems, 53(6).
J. Li, R. Qin, S. Guan et al., 2024, "Digital CEOs in Digital Enterprises: Automating, Augmenting, and Parallel in Metaverse/CPSS/TAOs," IEEE/CAA Journal of Automatica Sinica, 11(4).
K. M. Jablonka, P. Schwaller, A. Ortega–Guerrero et al., 2024, "Leveraging Large Language Models for Predictive Chemistry," Nature Machine Intelligence, 6(2).
Mankowitz, J. Daniel, A. Michi, A. Zhernov et al., 2023, "Faster Sorting Algorithms Discovered Using Deep Reinforcement Learning," Nature, 618(7964).
M. B. Andres, C. Sam, S. Oliver et al., 2023, "ChemCrow: Augmenting Large–language Models with Chemistry Tools," arXiv, 2304.05376.
Q. Miao, F. Y. Wang, 2024, Artificial Intelligence for Science (AI4S): Frontiers and Perspectives Based on Parallel Intelligence, Springer Cham.
Q. Miao, W. Zheng, Y. Lv, M. Huang, W. Ding, F. Y. Wang, 2023, "DAO to HANOI via DeSci: AI Paradigm Shifts from AlphaGo to ChatGPT," IEEE/CAA Journal of Automatica Sinica, 10(4).
Szymanski, J. Nathan, B. Rendy, Y. Fei, Kumar, E. Rishi et al., 2023, "An Autonomous Laboratory for the Accelerated Synthesis of Novel Materials," Nature, 624(7937).
Trinh, H. Trieu, Y. Wu, Le, V. Quoc et al., 2022, "Solving Olympiad Geometry without Human Demonstrations," Nature, 625(7939).
W. Ding, J. Hou, J. Li et al., 2022, "DeSci Based on Web3 and DAO: A Comprehensive Overview and Reference Model," IEEE Transactions on Computational Social Systems, 9(5).
X. Wang, J. Yang, Y. Wang et al., 2023, "Steps Toward Industry 5.0: Building '6S' Parallel Industries With Cyber–Physical–Social Intelligence," IEEE/CAA Journal of Automatica Sinica, 10(8).
X. Li, K. Wang, Y. Tian, L. Yan, F. Deng, F. Y. Wang, 2022, "From Features Engineering to Scenarios Engineering for Trustworthy AI: I&I, C&C, and V&V," IEEE Intelligent Systems, 37(4).
責 編∕韓 拓 美 編∕周群英
Parallel Science: Cutting-edge Technologies and Framework System
of AI4S in the Era of Large Models
Wang Feiyue Miao Qinghai
Abstract: Intelligent large model technology, as a typical representative of intelligent industry and new quality productive forces, is creating a new wave of human social change, accelerating the transformation of scientific research paradigm, and playing an increasingly important role in the scientific research driven by AI for Science (AI4S). It leads to the formation of a new paradigm of parallel science characterized by "three worlds, three types of technologies, three types of scientists, and three modes". From the perspective of parallel intelligence of virtual and real interaction, large model technology has made some achievements in the fields of mathematics, biology, health and medicine, chemistry, materials science and astronomy, etc. The future shall be based on the "three worlds" of parallel science, using the "three types of technologies", integrating the "three types of scientists", and building the basic framework system of an intelligent ecosystem serving AI4S research, especially the federated ecosystem.
Keywords: artificial intelligence large model, AI4S, parallel intelligence, parallel science