• <progress id="rrndj"></progress>
    <rp id="rrndj"></rp><rp id="rrndj"></rp>
    <rp id="rrndj"><nav id="rrndj"><input id="rrndj"></input></nav></rp>

    <progress id="rrndj"><i id="rrndj"><sub id="rrndj"></sub></i></progress>
    掃碼關注官方微信公眾號

    鄔賀銓:AI時代的數據要素開發與治理

    2023-11-09



    undefined

    鄔賀銓院士 (圖源:網絡)


    人工智能概念的提出已有 60 多年時間,但直到 1997 年 IBM 的深藍計算機戰勝國際象棋大師才為大眾所知,不過基于專家系統經驗的智能有限。2016 年,AlphaGo 戰勝世界圍棋高手初顯大數據實力,但也只是在規則下的算法熟能生巧,類似的方法推動了自然語言識別與人臉識別技術的發展。2022 年底,ChatGPT 的問世標志著人工智能從判別式發展到生成式的跨越,雖然目前的大模型只是針對特定任務和指定模態,離通用人工智能還有不少距離,但語言大模型讓機器初步具有常識,懂得推理,學會創作,讓人和機器能以較自然的方式互動,通過與周邊工具的結合,表現出擬人的智能。與 AlphaGo 將數據作為查詢和判別的依據不同,ChatGPT 可以說讀透與消化了數據,融會貫通計上心來,得出源于數據高于數據的結論。生成式大模型賦予數據以新的生命力,AI 時代大數據蘊含的價值將進一步涌現。數據因 AI 而變得越來越重要,數據要素是新型生產力的代表,數據挖掘能力成為新時代的國家重要競爭力。


    01


           
    培育數據資源,促進開放共享


    數據       是生產和生活過程的記錄及對自然觀察的結果。2022 年中國人口占全球 18%,網民       占全球 21.5%,GDP 占全球 18.06%。據國家網信辦《數字中國發展報告(2022年)》數據顯示,2022 年我國數據產量達 8.1ZB,同比增長 22.7%,全球占比為 10.5%,位居全球第二;我國數據存儲量達 724.5EB,同比增長 21.1%,全球占比為 14.4%。中國產生和存儲的數據在全球的占比均低于中國的人口、網民和經濟規模在全球的比例。據 Synergy Research Group 截至 2021 年 Q3 季度統計,美國大規模數據中心在全球占比高達 49%,其次是中國占比為 15%??梢娢覈鴶祿鎯α颗c美國相比差距還比較大,這反映了我國在社會信息化和產業數字化程度上仍落后于美國,加快數字中國的建設將有望盡快改變這一狀況。
    政府與研究機構及企業都會存儲大量數據,其中政府掌握全社會數據約 80%,而且是高質量數據,但主要卻僅供內部使用甚至是本部門內小單位各自存儲和使用而非共享,數據利用率不高。需要從制度上明確共享內容、權限和責任,促進政府部門間數據共享,更精準地把握社會和經濟運行全局,提升政府部門間工作的協同性。與共享相比,數據開放更是社會數字化的標志之一,政府及企事業單位掌握的公共數據具有很強的社會性,政府開放數據對提升政府公信力、降低社會成本,帶動數字經濟發展有重要作用。國際上將政府數據開放作為數字政府的重要衡量指標,據《聯合國電子政務調查報告2022》數據顯示,從 2012 年到 2022 年的十年間,中國在線服務指數從 0.5294 上升到 0.8876,在 193 個國家中排名從第 62 位上升到第 15 位,愛沙尼亞、芬蘭、韓國位居前三,美國第 8,日本第 9。我國還存在政務數據標準規范體系待健全、政務數據統籌管理機制待完善,政務數據安全保障能力待加強的問題,需要從建設數據流通基礎制度體系入手,加快數據立法,完善制度規范,統籌協調推進,編制數據目錄,分類分級管理,夯實共享開放機制,提升安全保障。    
    除了政府開放數據以外,社會公共數據的開源開放也表征數據流通的水平。人工智能生成內容(AIGC)大模型都是利用語料庫訓練的,一些互聯網大廠利用電商、社交、搜索等業務收集和標注了海量的語料供自身訓練大模型使用,沒有語料積累的企業和研究機構雖然可以從網絡獲得語料,但自媒體內容質量良莠不分,未經清洗與標注就用作大模型的訓練語料其效果堪憂。ChatGPT 大模型訓練時使用了開源語料庫,但中文詞元(Token)占比不到 0.1%,還不及一些小語種的比例,其中的原因與中文開源語料庫數量少和規模小有關。國內高校也有數億到數十億字的語料庫但尚未開源。國內一些語言大模型直接采用國外開源語料庫訓練,在價值觀的把控上存在潛在風險,建議對面向公眾開放應用的對話類大模型需要做語料來源的評估。面向重要應用場景的大模型不宜強調訓練用數據免標注和無監督學習,還是要采用經過清洗標注的數據集和保留人工微調,即有監督學習環節。    

    行業大模型的訓練也面臨挑戰,專業數據沒有通用數據容易獲得,行業內的企業間往往不愿共享專業數據。為此有必要建立高質量國家級重要行業領域基礎知識庫、數據庫、資源庫等。此外要鼓勵社會數據要素的合理流動和利用。中共中央、國務院《關于構建數據基礎制度更好發揮數據要素作用的意見》提出,依法規范、共同參與、各取所需、共享紅利的發展模式,將合理降低市場主體獲取數據的門檻,增強數據要素共享性、普惠性,激勵創新創業創造。


    02


           
    大模型驅動數據范式創新
       
    基礎大模型通常從通用語料訓練生成,通識能力強,從聊天對話入手容易反饋迭代優化,但聊天難成剛需,落地行業應用將更顯大模型的價值,但基礎大模型缺乏行業專業知識,需要大模型提供方與垂直行業合作開發行業大模型。一種模式是企業將數據交基礎大模型進行再訓練,待調優至理想后再進行知識蒸餾、量化及針對特定場景遷移等縮小模型規模的工作,但后續模型微調和云邊端部署等仍需算法工程師支撐,企業技術力量不足還得依賴模型提供方,企業數據交到模型提供方有數據泄漏風險,但數據不全面則會導致訓練效果差。另一種模式是企業具有算法工程師,按照特定業務場景以專有數據對基礎大模型進行微調,形成行業大模型或多個基于實際業務的小模型,最好是在預訓練階段就加入垂直行業企業的數據,預訓練和指令微調交錯進行,提高模型對行業知識的表達、理解、遷移和泛化能力。    
    一些強監管、重數據安全的行業核心企業,例如頭部金融機構等,通常不會在第三方基礎大模型上構建專業大模型,而是采用數據私有化、模型私有化、本地私有云方式構建大模型,即在加密環境中使用私有數據訓練專業大模型,但需要面對成本與技術門檻高的挑戰??偟膩碚f,無論自建或合作開發行業大模型,數據安全都是前提,既掌握大模型訓練技術又熟悉行業專業知識的人才是關鍵。    

    中小企業因資金、技術和人才的限制,少有能力與基礎大模型提供方合作開發行業大模型,MaaS(模型即服務)應運而生,這是針對中小企業而提出的服務模式,MaaS 部署在中小企業本地設備上或公有云上,以小切口嵌入 PaaS 與 SaaS 間,并提供調用基礎大模型的接口,可加入企業自身數據對模型精細化調整,從而將大模型能力嵌入到 SaaS 產品上,解決了傳統 SaaS 面臨的客戶定制化需求和標準化產品規模化盈利之間的難題?;?MaaS 通過大模型可優選小程序及配套的低代碼開發和模型編排等工具,PaaS 可據此搭建低代碼平臺,豐富工具軟件,實現數據和功能的定制化,以 MaaS 方式使中小企業上云的同時使用個性化的小模型,為數字化轉型提供智能解決方案。當前大模型不僅是一種技術,它重塑了數據要素生態鏈,引領產業研究開發應用的范式變革,標志著信息化發展從網絡驅動到數據驅動。面對大模型浪潮,需要在國家戰略與規劃部署下,統籌推進政產學研用,引導“百模并發”形成合力,避免資源分散和低水平重復,實現數據采集匯聚、加工處理、流通交易、開發應用全鏈條協同。


    03


           
    數據助力社會治理信息化

    習近平總書記指出“隨著互聯網運用普及和大數據等技術快速發展,國家治理正逐步從線下向線下線上相結合轉變,從掌握少量‘樣本數據’向掌握海量‘全體數據’轉變,這為推動治理模式變革、提升國家治理現代化水平提供了有利條件”。從網格化管理、精細化服務、信息化支撐的基層治理平臺,到一網統攬一網通辦的城市大腦,利用大數據、人工智能、物聯網等信息化手段感知社會態勢、暢通溝通渠道、支持快速響應,推進政府決策科學化、社會治理精準化、公共服務高效化。特別是 AIGC 技術的應用,重構政府與民眾之間的互動過程,大模型能夠提升對現實生活中復雜大系統問題的處理能力,能夠精準防控社會發展中的風險,能夠有力維護政治穩定和社會安全,進一步促進經濟發展和社會進步。

    AI 特別是生成式大模型技術是雙刃劍,其推理過程不透明,解答有自圓其說的成分,尤其使用了未經鑒別的語料訓練用于社會治理的大模型,可能會觸發對公眾的誤導,甚至引起價值觀的沖突。AI 技術也可能被濫用或惡意利用來制造虛假新聞,引發社會傳播風險,危害國家安全。我們既要用 AI 來輔助社會治理也要治理 AI 行為,但不能因 AI 的使用可能失控而限制對 AI 技術的研究與應用,AI 技術需要在應用中反饋和迭代升級。當前,國際貿易、科技合作、人員往來不可避免數據跨境流動,數據的社會治理也面臨對外開放的挑戰,解決之道是 AI 監管制度體系建設與 AI 技術研究并重,發展與安全治理協同,使 AI 的監管創新與技術發展相輔相成,以技術手段和治理規范兩手應對大模型的算法偏見和倫理道德失序,以法律法規防止各類數據安全事件發生和維護國家安全。為此,首先需要按照《關于構建數據基礎制度更好發揮數據要素作用的意見》,盡快完善數據產權制度、數據要素流通和交易制度、數據要素收益分配制度、數據要素治理制度,為 AI 技術的發展與治理提供行為規范。其次是重視數據監管的技術創新,APN6(基于 IPv6 的應用感知網絡) 和 iFIT(基于 IPv6 的隨流檢測)可以標注 IP 流的屬性,包括數據類型和對 IP 流路徑溯源,有利于對跨境數據流動的管理,IPv6 的多歸屬特性可以分流敏感數據。多方計算等技術可以在不同所有者的數據融合時做到數據可用不可見。加快各類數據監管和數據安全技術的研究已成當務之急,要為數據管理規范盡快填補技術支撐手段的不足或缺失。


    04


           
    加快數據基礎設施建設
       
    大模型的數據訓練與推理都需要算力支撐,中國 2022 年算力總規模為 180Eflops,低于 2021 年美國的 200Eflops,其中智能算力 2022 年中國為 41Eflops,不及 2021 年美國的 65Eflpos,這反映了我國在大模型的數據訓練和推理算力上的差距。算力的建設是市場行為,但國家統籌推進將優化資源的利用和產業的合理布局。“東數西算”作為國家戰略部署具有中國特色,反映我國區域經濟、地理氣候特點和能源分布的格局,政府之手的作用在東西部數據資源配置與有效應用上不是可有可無的。西部不足之處是數據中心產業配套能力薄弱和人才短缺,需要同步規劃布局數據清洗標注、數據機房產品及服務業的培育發展,延伸產業鏈上下游,在做好承接東部的溫冷數據的存算的同時,還要帶動起當地熱數據的上云服務,使西部的數據集群發展形成良性循環。    
    算力的布局需要處理好幾方面的關系,一是通用算力與智能算力的合理比例,通用算力以 CPU 為主,適合處理政務、智慧城市和智能客服等數據/計算密集的事務性任務;智能算力以 GPU 為主,適合做大模型的訓練,注意到在數據訓練過程中還需要算法工程師介入和微調,智算中心適于在數據源集中和算法工程師聚集地建設,不宜全面開花,動用財政資金支持的大型智算中心的建設應慎重規劃。二是自建算力與云原生算力,很多單位有自建算力的積極性,但麥肯錫報告顯示,商用和企業數據中心的服務器很少超過 6% 的利用率,通常高達 30% 的服務器帶電閑置。需要鼓勵中小企業從自購 AI 服務器搭建數據中心向采購云服務轉變,既降低成本又提高利用率,增強抗 DDoS 的能力及減碳;需要引導縣級地方政府使用省地集中建設的政務云代替獨立采購 IT 基礎設施。三是存算比例,存力與算力需配合,內存與算力合理比例是 GB/Gflops 為 1,避免因存力短缺造成算力等待而影響處理效率,據華為/羅蘭貝格報告,2020 年美國為 1:0.9,中國為 1:2.4。四是災備容量與主用數據中心存儲容量之比,數據中心需異地雙容災備份,關鍵數據實現本地雙活,2020 年當年數據災備保護占數據中心存儲投資的比例全球平均為 27.4%,而我國只有 7.8%,需重視改進。    
    數據作為生產要素是經濟理論與實踐的創新。數據與土地、勞動力、資本等傳統生產要素不同,數據要素的開發與治理有很多需要深入研究的問題,例如數據的可復制性、使用無損性等導致數據產權和安全管理邊界難以界定。黨中央決策部署組建國家數據局,負責協調推進數據基礎制度建設,統籌數據資源整合共享和開發利用,統籌推進數字中國、數字經濟、數字社會規劃和建設等,將有力促進數據要素技術創新、開發利用和有效治理,以數據強國支撐數字中國的建設。    

    文章來源|國家數據局
            (ID:gh_66b0b452f85e
    編輯|段文秀
    審核、責編|楊帆


    亚洲国产精品成人久久久_在线观看中文字幕日韩_中文字幕免费日韩不卡_99V久久综合狠狠综合久久
  • <progress id="rrndj"></progress>
    <rp id="rrndj"></rp><rp id="rrndj"></rp>
    <rp id="rrndj"><nav id="rrndj"><input id="rrndj"></input></nav></rp>

    <progress id="rrndj"><i id="rrndj"><sub id="rrndj"></sub></i></progress>