中國是首個把數據作為生產要素的國家,這在國際上是沒有先例的。對于數據的研究,從經濟學的角度需要一個很好的分析框架。
從經濟學視角思考,數據研究涉及非常多的學術問題。比如數據作為要素,要研究確權、交易和收益的制度安排,最終希望配置的效率最高;數據作為產業,需要研究具體經濟主體的行為及其市場影響;數據作為市場,要研究數據市場的規則、行為和結構,特別是 AI 出現以后的巨型企業,對競爭規則、壟斷的判定,政府的規制該怎么做,是非常具有挑戰的問題;數據作為半公共品,公共利益和市場效益如何權衡,政府供給和市場供給的組合怎么判斷。
當下關于數據要素市場的研究,比較集中在數據確權、定價、交易等領域。希望學術界整體在數據研究方面繼續加強學術含量高的研究,來促進理論發展,服務實踐,促進國際交流。
——江小涓 中國社科院大學教授、國務院原副秘書長
* 本文整理自作者在中國數字經濟發展和治理學術年會(2024)上的發言。
數據的經濟學分析:要素、產業和市場
中國社會科學院大學教授、國務院原副秘書長
去年以來,數據是一個很熱的熱點,從經濟學的角度需要一個很好的分析框架,因為經濟學中的生產要素分析是一個非常成熟的體系。
我們現在把數據當成生產要素,這對經濟學界的理論提出了很大的挑戰,
我們來探討研究什么問題,才能稱之為學術研究。
中國是首個把數據作為生產要素的國家,這在國際上是沒有先例的。
作為一種生產要素,確權、交易、收益等概念需要納入分析框架中;作為一個產業,產業組織、生產消費、價格形成等概念需要納入分析框架中;作為一個市場,創新、競爭、公共品等概念需要納入分析框架中。
考慮到數據的特點,還需要在分析中擴展框架和增加維度。
并且,研究方向要呼應經濟學的宗旨:研究社會資源配置的總體效率并盡可能合理分配??傊畬W術研究應該致力于知識體系的構建和完善。
當下關于數據要素市場的研究,比較集中在數據確權、定價、交易等領域,希望學術界整體在數據研究方面繼續加強學術含量高的研究,來促進理論發展,服務實踐,促進國際交流,這是過去一年多我在參與數據問題時非常深切的體會。
數據作為要素,配置效率怎么樣,比如確權、交易和收益的制度安排,最終希望配置的效率最高;
數據作為產業,需要研究具體經濟主體的行為及其市場影響,例如消費者和生產者行為、均衡價格、創新行為等;
數據作為市場,要研究數據市場的規則、行為和結構,特別是AI出現以后的巨型企業,對競爭規則、壟斷的判定,政府的規制該怎么做,是非常具有挑戰的問題;
數據作為半公共品,公共利益和市場效益如何權衡,政府供給和市場供給的組合怎么判斷。
接下來舉例來講,數據要素我以確權、流通和收益為例,數據產業我用創新范式的改變作為例子,數據市場我們用規模遞增下的競爭和壟斷作為例子,公共數據以免費開發和收費開發的平衡作例子。
數據是一個生產要素,又是一個非常特別的要素,面臨的理論挑戰非常多。
數據的獨特性質主要體現在以下幾個方面:
首先是多主體生產因而確權困難,
數據的生成過程錯綜復雜,常常是多方主體相互協作的結果,包含了不同主體不同程度的投入和貢獻,因此確權困難。
其次是多場景復用方便,
一組數據可以被不同主體以不同方式重復利用,在使用上不具有競爭性和排他性,不易清晰明確主張權力。
第三是數據中的敏感信息多,
許多數據的內容多層次多元化,可能承載了需要保護的個人信息和商業機密,即使匿名化和去標識化,也有可能被挖掘出來。
第四是減損貶值快,
絕大部分數據的價值在于實時性,有研究表明一年期以上的數據貶值達到 98% 以上,保值增值十分困難。各位想想,你經常點什么外賣,搜索過什么類型的服務、APP 就會推薦推送給你相關的內容,這都是從即時數據中挖掘到的,幾個月后可能你的口味發生了變化,按照現在數據推送就沒有意義。
第五是具有交易和交互兩類流通方式,
特別是交互型流動即數據在不同主體間的非交易型流通使用,與其他生產要素流通使用的形態相比有顯著不同。這個是我們后面要分析的重點問題。
考慮到上述問題,在“數據二十條”的起草制定中,針對數據要素這些與其他生產要素不同的特點,文件的重點是構建起主要架構,即所謂的“四梁八柱”,許多更具體的內容都需要不斷探索發展,并從社會有較多共識、實踐有迫切需求、符合數據要素特征、與理論體系有較好契合性這些角度排出工作的重點。
例如,在起步階段不回避“所有權”,
但更強調持有權、使用權、經營權,讓數據先動起來用起來,就是現階段中國特色數據產權制度的一個鮮明特點。
再如,處理好場內交易和場外交易的關系也是現實針對性很強的問題。從實踐看,數據流通使用既有通過數據交易所完成的“場內交易”,也有企業與企業之間直接發生“場外交易”,更有規模巨大的非交易型的數據交互。因此“數據二十條”并未強調以哪種流通方式為主,而是提出場內交易與場外交易相結合,不斷探索創新。
在公共數據開放共享和開發利用、構建安全貫穿數據治理全過程的安全治理模式等方面,也都從理論與實踐的結合出發,既提出長遠發展方向,也明確當下工作重點。
理解了數據要素的特點,就能理解一年多來數據要素市場發展中的困難與問題。數據要素交易所在“數據二十條”出臺前后特別是以后快速增長,但大體上是一個有市無價,或者有市有價無交易的情況,這在其他要素市場上很難看到。
各地數據交易所發展很快,到 2023 年 10 月已經超過 48 家。每個交易所都有成千上萬家的數據服務商,也有些入場準備參與確權交易的數據供應方。但一年多下來(有些起步早的交易所嘗試時間更長,有些已有十年之久)數據交易量非常少,整體上仍在嘗試性起步階段。
其實許多數據持有者都明白,數據交易很不容易,那他們為什么積極“入場”呢?企業期待數據入表,將數據資產化,進而能夠去做金融創新、融資擔?;蛸Y產證券化等。
下圖是各個數據交易所表達自己平臺能夠做什么的邏輯:做數據資產登記、數據資產評估;然后發放數據資產憑證,進而入表;入表后的主線是去做金融創新、融資貸款等,其次是進行數據資產的交易。我和銀行開玩笑,說“數據要素市場建設發展的接力棒交到了金融領域,你們遲遲不接棒”。金融業不敢往下做的原因之一,就是認為數據資產定價、交易方式特別是易貶損特點帶來的挑戰和風險都是新問題,需要積極而謹慎,發展與安全并重。
不過,雖然我們將數據納入傳統生產要素分析框架中有困難,但這是一個新事物,需要留給創新足夠的時間和空間。
而且我們不一定要將其“裝”進我們熟悉的體系構建中間去,要允許探索。
但從學術理論角度看,總要構建一個學術體系出來,這是一個非常有創新意義也有挑戰的領域。
數據產業鏈條中,各環節參與方的行為和以往不一樣,這個方面要研究的新問題很多。因為最近我在做一項數字時代創新問題研究,就拿它舉例?,F在數據創新范式按照國內外的很多學者來說,進入了“數據密集型”的科研創新范式。我們能看到除了數字行業自身以外,生物醫學、高能物理、地球科學、海洋科學很多都是以信息科學為支撐的基礎研究領域,如果數據觀測處理能力不高,它們的進展是非常困難的。
生命科學中,蛋白質怎么預測出來,不是生命科學自身的原創性發現,而是數字技術應用帶來的結果,其中的原理早就知道,但就是算不出來?,F在,世界進入數字時代,數字技術迅速發展和海量數據的產生不僅顯著影響經濟社會運行方式,而且推動著科研范式的深刻變革。這種變革不是原來創新范式內部因素和結構的調整,
而是“數據”這個新要素和數據復雜交互形成的“數據關系”這些新變量加入所引發的創新要素、創新主體和創新組織的深刻變革。
我們現在講到數據和數據關系,不光是數據量多少,
主要是數據關系影響了創新的重要維度。
我們現在 AI 發展相對滯后有很多原因,能夠共享的信息的數量和質量比較差,是影響下一步人工智能非常重要的因素。數據和算力決定誰來創新,包括很重要的原始創新。
大模型的訓練和調整需要極其巨大的數據、算力和算法的投入,Transformer 架構進入主流以后,AI 算力每兩年增長 275 倍,在計算機本身有革命性的變革之前,只能靠擴量來增強算法的能力,所以目前只有大科技企業有雄厚的財力足以吸引大批頂尖的 AI 人才,從而以算力、算法和數據的最佳結合來推動人工智能前沿的突破,這就是最領先的 AI 大模型的變化。
如下圖,2014 年是一個轉折點,AI 系統不是高校研發后的產業轉化,而是從最基本的數學算法開始,都由產業界來做,2023 年 32 個重要的機器學習模型都誕生在產業界。
我們現在也經常講國家創新體系,集中力量辦大事,這方面也要考慮到數字時代的這種產業創新范式變革。
這種海量的算力、數據以及人才迅速決策的能力、技術迭代的速度,完全是另外一種創新的組織架構,
其中的變化是非常重要的。
看待數據市場,需要研究市場的規則、行為和結構,特別是 AI 出現以后的“小規模企業+巨大市場”是非常具有挑戰的問題,對規模遞增下的競爭和壟斷的分析也是我們的一個困惑。我們不能簡單地認為市場從長期看會解決這個問題的,然后完全交給市場去處理。
規模遞增并不是數據市場的獨有特點,軟件業也有這個特點,但開源模式限制了規模遞增導致的大者愈大,因此壟斷問題沒有走向極端。雖然領先者有規模遞增的能力,但是開源之后,更多的開發者和應用市場出現,目前沒有導致規模遞增一定會致使大者越大、強者越強的局面出現。
對于大模型,我們能期待這個趨勢出現嗎?仍是未知。如果理論不能有預測性的話,就沒有價值。現在我們的知識能夠想到 OpenAI 在 AI 時代,其產業組織、競爭壟斷的格局最后會不會避免走向極端?也是未知。所以這個問題對我們是一個很大的新挑戰。
公共數據的性質有很多討論,有觀點認為數據本身具有公共品性質,公共數據又是政府掌握的數據,應該對社會開放。
公共數據對公眾開放是國際共識。開放數據的定義是“公眾可獲取的、能夠被用戶完整觀測和使用的數據”。2009 年,美國的奧巴馬政府頒布了《開放政府指令》(US Open Government Directive);2018 年 12 月 24 日,美國國會通過《開放政府數據法案》,要求聯邦機構必須以“機器可讀”格式,即以方便公眾在智能手機或電腦上閱讀的數據格式,發布任何不涉及公眾隱私或國家安全的“非敏感”信息。例如,紐約市的政府及分支機構所擁有的數據必須對公眾實施開放,市民們使用這些信息不需要經過任何注冊、審批的繁瑣程序,使用數據也不受限制。
2011 年,巴西、印尼、墨西哥、挪威、南非、菲律賓、英國和美國簽署了《開放數據聲明》,公共數據開放也是 2011 年成立的“開放政府合作伙伴”。迄今為止,全球已經有 75 個國家加入這一計劃。
國內政府數據開放發展至今,發展和應用最好的主要還是地理位置信息的開放、公共設施的數據開放(圖書館、教育機構、公共wifi等)、涉及健康安全的數據開放(比如河流洪水水位、交通擁堵狀況、空氣指數等)、市場監管數據開放(企業信息查詢、行政處罰查詢等)。這些信息現已可以通過多種途徑獲得。
政府數據開放意義重大,但多年下來動力不夠是普遍問題。
作為數據提供者的政府機構并不能從中直接得到經濟回報,相反承擔著泄露商業秘密和個人隱私的巨大風險,即便對數據采取“脫敏”處理也無法完全消除隱患。
從道理上看,允許對數據開放并有一些收費也有合理性,例如有些原始數據不能直接開放共享,要做成數據產品;再如有些公共數據并不被廣大公民和市場主體所需要,是某些企業的運營需要。公共品是為廣大公民和市場主體服務的,對少數人服務“用者付費”這是公共品的基本原則。
今后,要尋求免費開放(開放共享)與收費開放(開發利用)的平衡?!皵祿畻l”里的提法是:“推動用于公共治理、公益事業的公共數據有條件無償使用,探索用于產業發展、行業發展的公共數據有條件有償使用”。
目前看,
對公共數據有償開發開了一個口子以后,政府和相關公共企事業單位動力更強勁,行動更迅速。
各地政府紛紛成立國有數據運營公司開展政府數據的授權運營,還可以搞二級合作商,獲取合理的收入,這是一個非常普遍的趨勢。政府大規模出售公共數據,公共品性質的數據轉化為商業化數據,需要學術理論給予分析和解釋,至少對公共品理論的發展提出了要求。
總的來講,中國是一個數據生產大國和使用大國,我們是首先提出數據要素概念的國家,其中的實踐探索多元而豐富,期待學術界同仁共同努力,構建符合學術理論規范、包含數據實踐主要問題、體現中國數據發展特色的學術體系。謝謝大家!
文章來源|清華服務經濟與數字治理研究院、中國金融四十人論壇