隨著生成式人工智能技術取得突破性進展,自然語言大模型可以根據人類指令,迅速完成寫文章、繪畫、作曲甚至制作視頻和動畫等任務,其“創(chuàng)作”涉獵的范圍幾乎可以媲美人類,而且水平隨著訓練量增加還在不斷提升。ChatGPT、文心一言等生成式AI技術自然語言大模型的蓬勃發(fā)展標志著數據生產的創(chuàng)造性、便捷性、泛在性程度提升到前所未有的高度,將有力推動“從全球獲取數據,加工數據服務全球”的數據全球化大生產進程。
自然語言大模型加速形成全球參與、全球分工、全球享有的數據全球化大生產格局
推動數據全球化大生產從“無意識”到“有意識”轉變。隨著網絡化、規(guī)?;皆絹碓礁撸瑪祿f同生產覆蓋到每個數據生產主體,且每個數據生產單位都與外部保持著高密度聯接。然而,絕大多數的數據是用戶無意識、無目的制造出來的,如用戶消費、出行、醫(yī)療等被有關設備終端監(jiān)測到的數據,或者某一區(qū)域企業(yè)用電量、采購貨物量的數據。這些數據往往伴隨自然或社會行為而產生,并且持續(xù)于海量用戶及經營主體的全生命周期,使得數據生產具備持久的內生動力,取之不盡、用之不竭。進入AI時代,特別是以ChatGPT為代表的生成式AI對傳統(tǒng)AI交互方式進行了重要創(chuàng)新,AI不再是工程師的專屬工具,推動“低代碼革命”走進人們的日常工作生活,引發(fā)AI的全面普及。基于此,我們可以預測生成式AI的低門檻使用將極大程度激發(fā)人們主觀能動性,“有意識”地開展數據生產。
推動數據全球化大生產從“自發(fā)性”到“自覺性”轉變。全球化具有自發(fā)性。自從人類走入信息時代,內容生產,即生成數字化的文本、圖形、音樂等就成為重要生產活動。內容生產中,數據加工方式經歷了專家生成內容(PGC)、用戶生成內容(UGC)到AI生成內容(AIGC)三個階段。專家生成內容的生產者數量有限,產能不足;用戶生成內容雖然生產者數量龐大,但缺乏標準化,質量有限。這種低質低效冗余數據生產,只能說是自發(fā)的數據生產。進入生成式AI階段,生產效率顯著提升,人們可自動、批量、標準化生成低成本、大數量、高質量的數據產品,數據全球化大生產將從一個自發(fā)的過程向一個更加自覺的過程發(fā)展。
推動數據全球化生產從“單領域”向“多場景”轉變。傳統(tǒng)的人工智能模型具有高度專用性,即需要針對特定任務對模型進行專門訓練和設計,一個模型往往只能完成一種任務,無法交叉使用。ChatGPT的基礎大模型“變形金剛”(Transformer)則不同,網絡深度達到1750億個參數,不僅能根據用戶輸入的文本生成文字序列,從而與用戶聊天、幫用戶寫作翻譯,還可以生成序列化的數學符號、圖形像素、電腦程序等,實現在用戶語言指導下做題、繪圖、編程等多種任務,用統(tǒng)一的“文本序列生成”核心功能實現“一專多能”的泛在化應用。據業(yè)內人士預測,ChatGPT相關模型還可能應用到醫(yī)療健康建議、生成3D打印設計圖等場景,甚至可能在AI領域形成跨越模型形態(tài),單一模型解決所有問題的“大統(tǒng)一模型”,為每個行業(yè)帶來AI再造機會。
總的來看,隨著生成式AI快速發(fā)展,全球各類數據都將更加便捷、深入地參與到數字經濟中,并以標準化、自動化的方式,針對不同領域、不同功能批量生產海量數據產品和服務,加速形成全球參與、全球分工、全球享有的數據全球化大生產格局。數據全球化大生產成為全新的要素配置和生產方式,將重構全球創(chuàng)新版圖、重組全球經濟結構、重建社會生產模式、重塑人類生活方式。
積極培育數據產業(yè)體系,努力推動實現“三中心一引領”
以數據為主要內容的新一輪全球化,機遇挑戰(zhàn)都將前所未有。建議依托國家數據局的成立,加強頂層設計,積極培育數據產業(yè)體系,推動高水平數據開放,努力推動實現“三中心一引領”,在新一輪全球化進程中爭取主導地位。
充分發(fā)揮海量數據比較優(yōu)勢,建設全球數據獲取中心。積極推進數據資源開發(fā)利用,加強公共數據資源共享,推動打破政企間數據壁壘,降低數據獲取成本。在確保數據安全的前提下,適度放寬數據產業(yè)準入門檻,持續(xù)引進全球人工智能和數據產業(yè)跨國公司在華設立總部、研發(fā)中心、數據采購中心。大力發(fā)展新型存儲器產品,布局支持多樣性算力、高通量算力、多協議接口的數據存儲系統(tǒng)。推動實現跨地域、跨數據源的端、邊、云數據協同,以及存儲與計算、網絡基礎設施的高效協同,形成數據存儲全球服務能力。
補齊算力短板,發(fā)展全球數據生產中心。AI發(fā)展的三要素是算法、算力、數據。其中算力是數字時代的“石油”,自2012年開啟黃金時代后,AI對算力的需求開始呈現指數級增長。從2012年的AlexNet,到2017年的AlphaGoZero,算力消耗足足翻了30萬倍。特別是進行AI大模型訓練,需要專門的GPU集群,傳統(tǒng)數據中心的用場不大。充分發(fā)揮新型舉國體制作用,“揭榜掛帥”攻堅AI大模型技術瓶頸。著力突破高端通用芯片技術,升級AI框架、芯片等。推動公共算力泛在應用,持續(xù)降低算力成本,形成全球智能計算成本洼地。
健全數據交易配套制度,打造全球數據融通中心。建立數據資源持有權、數據加工使用權和數據產品經營權“三權分置”的數據產權制度框架,構建中國特色數據產權制度體系。鼓勵國內外經營主體探索數據資產定價機制,推動形成全球數據資產目錄,逐步完善數據定價體系。規(guī)范數據交易管理,建立面向全球的數據資產評估、登記結算、交易撮合、爭議仲裁等市場運營體系,降低數據交易成本。培育發(fā)展全球數據交易平臺,健全平臺報價、詢價、競價、定價機制,探索協議轉讓、掛牌、拍賣等多種數據交易模式。
完善數據規(guī)則標準,積極引領全球數據治理。積極對接、主動引領國際規(guī)則,發(fā)起成立全球性的數據合作組織,有效參與數據全球化規(guī)則制定。加快數據行業(yè)標準化發(fā)展,積極參與全球數據產業(yè)標準制定。發(fā)展新型國際數據貿易,在具有條件的自貿區(qū)、開發(fā)區(qū)試點探索高標準的數據流動、隱私保護等規(guī)則,推動試點地區(qū)與歐盟、日本等地區(qū)標準互認。促進我國和其他國家先進技術互相兼容認證。在數據跨境流動、數據保護、數字監(jiān)管等領域加強國際合作,著力拓展數據全球化大生產“朋友圈”,提高“中國方案”“中國標準”影響力。