社會信用體系建設是落實“放管服”改革、提升社會治理水平的系統性工程,也是優化營商環境、推動高質量發展的重要抓手。自 2014 年 6 月 14 日國務院出臺《社會信用體系建設規劃綱要(2014-2020年)》以來,在黨和國家的高度重視下,以推進政務誠信、商務誠信、社會誠信和司法公信四大重點領域誠信建設為核心的社會信用體系建設蹄疾步穩,信用法規制度建設有序推進;統一社會信用代碼實現全覆蓋,實現“一照一碼走天下”;信用信息共享水平顯著提高,信用承諾和告知承諾制廣泛應用,大幅度縮短審批時間;支撐中小企業融資服務,信用貸款規模明顯增加。
我國社會信用體系建設工作取得積極成效,為進一步發揮信用在創新監管機制、提高監管能力和水平方面的基礎性作用,更好激發市場主體活力,推動高質量發展,提供了有力支撐。2019 年 7 月,國務院辦公廳頒發《國務院辦公廳關于加快推進社會信用體系建設構建以信用為基礎的新型監管機制的指導意見》(國辦發〔2019〕35號),指出“充分利用國家‘互聯網+監管’等系統建立風險預判預警機制,及早發現防范苗頭性和跨行業跨區域風險。運用大數據主動發現和識別違法違規線索,有效防范危害公共利益和群眾生命財產安全的違法違規行為”。可見,社會信用體系建設正在推動傳統監管方式向新型監管方式轉變。
在大數據技術支撐下有效推進信用監管,有利于維護市場主體的合法權益,符合創新社會治理的發展要求,對構建誠實信用的和諧社會和優化營商環境具有重要意義。本文圍繞信用監管中失信風險預警的具體應用場景,通過分析當前存在的問題與深層次原因,從技術層面提出了利用大數據技術支撐失信風險預警的有效路徑。
我國社會經濟發展正處在復雜多變的國內外環境中:中美貿易戰持續升溫、美元處于全球外匯市場強勢地位、原油等大宗商品價格大幅波動……特別是隨著新冠肺炎疫情的全球暴發,對于國內各行業,尤其是旅游、餐飲、娛樂、出行、零售等產生了嚴重沖擊,深刻影響著社會經濟的發展,也為傳統的信用監管模式帶來前所未有的挑戰。
后疫情時代下,傳統信用監管模式下的失信風險預警暴露出諸多問題,具體表現為以下三個方面。一是龐大的市場主體規模與風險預警范圍不匹配。據國家市場監管總局的公開數據顯示,截至 2020 年底,全國登記在冊的市場主體已達到 1.38 億戶,其中個體工商戶 9287 萬余戶、農民專業合作社 222 萬余戶,僅 2020 年新登記市場主體就有 2502 萬余戶。當前多數行業失信風險監測和預警重點集中在守信主體和嚴重失信主體,但對于信用狀況處于中間水平的龐大市場主體以公示、通報等傳統方式監管為主,與全面構建以信用為基礎的新型監管機制的要求存在差距。二是精準化風險預警需求與復雜的市場環境不匹配。隨著新興商事主體大量涌現,市場環境也隨之呈現主體龐大、關系復雜、難以追蹤等特征。通過常規監管手段已難以定位日趨復雜的風險源,監管靶向性弱,不同程度上存在監管被動、滯后、粗放等痛點。然而,部分職能部門對于公共信用數據報送數據項不全導致數據失真的問題一直存在,各類信用數據歸集缺乏全面性、準確性,無法滿足目前精準化風險預警的需求。三是線上新業態的不斷涌現與以線下為主的風險預警模式不匹配。隨著互聯網的不斷發展,各類經濟社會活動呈現線上化、虛擬化趨勢,誕生了各種“新業態”,導致線上線下均涌現了大量新型監管和風險預警需求,傳統模式與手段已經難以應對層出不窮的“新業態”問題,無法適應當前經濟、社會發展的需要。
產生上述問題的根本原因,主要是在法律法規標準層面,相關法律法規和標準規范體系尚不健全;在數據歸集共享層面,歸集共享工作機制尚不完善;在數據治理層面,信用信息的標準化整合尚不全面;在數據應用層面,信用信息數據應用尚不充分。
01 信用信息歸集共享相關法規標準體系尚不健全
黨的十九屆四中全會提出,數據是新型生產要素,并對培育數據要素市場作出部署要求。信用數據作為一類典型的大數據,對于支撐市場監管、公共服務、風險防范等具有重要作用。盡管近年來我國出臺了《中華人民共和國網絡安全法》《中華人民共和國數據安全法》《中華人民共和國個人信息保護法》等一系列規范數據要素市場環境的法律法規,但信用領域尚缺乏專項法律約束。一方面,各方面針對市場主體活動相關信息記錄應納入信用信息歸集的范圍,尚未形成共識。另一方面,各單位對于數據共享應用的范圍在具體的實踐中尚未達成統一。
02 信用信息數據歸集共享機制尚不完善
由于市場主體信用信息數據采集、管理等機制尚不完善,信用信息歸集缺乏全面性,更新缺乏及時性。同時,因主管機構分散,以及跨地域數據尚未實現完全共享等現實問題,導致“信息壁壘”現象普遍存在,相關數據信息共享不充分,已分散采集的數據難以集中匯聚,無法有效整合應用。此外,社會機構、企業掌握的大量信用信息在數據共享互通上也存在不足。
03 信用信息的標準化整合尚不全面
近年來,在網絡購物、共享經濟、微商等新業態、新模式下蓬勃興起了大量具有鮮明“互聯網+”特征的市場主體,其行為產生的數據表現形式多樣,數據存儲情況復雜,有效數據中往往夾雜大量的噪音數據,導致現有的數據治理手段不能很好地整合數據。具體表現在:一是大量信息以文本、圖片、視頻等多種方式展現,傳統的數據處理手段難以處理新型異構數據;二是相關數據量極大且對數據處理的時效性要求極高,傳統的數據治理技術在處理數據規模和速度上能力尚顯不足;三是在互聯網時代,相關數據中通常摻雜著大量無效的數據,對數據清洗效率和準確性提出了更高要求。
04 信用信息數據應用尚不充分
部分部門對大數據、互聯網等技術缺乏認識,對信用信息深度分析挖掘和根據不同場景創新應用存在不足,在主動利用大數據進行分析和深度挖掘信用信息方面有待深入,利用客觀數據輔助決策開展失信風險預警。甚至有的部門還存在傳統監管模式中形成的等待上級命令,被動開展工作等情況。大數據、互聯網等技術在加強信用監管方面的作用仍需充分發揮,應用場景仍有待進一步拓展和豐富。
針對存在的問題,大數據支撐下信用監管失信風險預警模式,從實現步驟來看,主要分為數據歸集、數據治理和數據分析三個階段。在數據歸集層面,支撐政務數據與社會數據充分對接應用。利用大數據采集工具,構建政務數據和社會數據平臺化對接機制,可為信用監管提供多源數據支持,將數據源擴大至各部委、新聞媒體、行業協會、信用網站、信用服務機構、微信、微博等互聯網渠道,豐富數據資源種類和數量。在數據治理層面,支撐信用數據資源高質、高效、標準化整合。利用大數據分布式管理、政務云存儲、異構數據結構化等技術,打破傳統數據存儲、數據清洗加工、數據關聯比對、標準化處理、數據質量評估等環節的局限,滿足海量數據綜合治理需求,為信用信息分析應用提供重要支撐。在業務應用層面,支撐深層次挖掘多維度信用信息,滿足不同應用場景的需求。通過失信主體畫像、指標體系設計、信用狀態遷徙動態監測、風險預警建模、知識圖譜搭建等大數據技術,可滿足監測、預警、評價、分析等不同應用場景的需求,實現對失信主體的精準識別和監管。
失信風險預警需要落地在業務應用場景上,因此重點探討實現大數據支撐失信風險預警的三種模式:主體信息挖掘、時間維度挖掘、風險概率預測。
01 大數據支撐信用主體信息挖掘,令失信主體無處遁形
由于不同的信用主體具有不同的特性,對于信用主體信息的挖掘需要通過大數據技術,從海量的信用數據中分析和挖掘信用主體、關系、事件和特征。然后,通過對信用主體及其行為進行分類,按照行業、區域、領域、重點關注群體的失信守信情況可以進一步探究信用主體風險的原因及風險組成。
① 確立監測預警信用主體,整合抽取多源異構數據。對不同類型機構的異構數據源進行數據歸一、特征挖掘與指標計算,根據監測預警需求對主體信息進行識別和挖掘,從而對不同類別的失信主體及失信行為特征與指標進行歸類統計。這些數據主要包括互聯網公開數據、授權第三方數據、政務公開數據等,如企業工商信息、處罰信息、投融資信息、招投標信息、招聘信息、輿情信息、訴訟信息、年報信息、專利信息、開票信息等。這些不同的數據代表著成千上萬個風險變量,可根據需求不定期變更監測策略。
② 構建全量標簽學習模型,標記市場主體標簽信息。通過預設標簽直接標記類標簽、自主選擇指標設定閾值類標簽、算法自動學習各類主體標簽等方式,為每個市場主體打上屬性、信用、經營等各個維度標簽。當查詢該主體信用信息時,即可看到該主體被標記的正面和負面信用標簽,如“資金流動頻繁”、“關聯結構復雜”“企業欠稅風險”“知識產權多”“法律訴訟風險高”“頻繁變更”“欠稅風險高”等,實現對相關風險的個性化提示。
③ 開展信用主體分類分析,多維展示風險傳導范圍。通過從不同維度對市場主體進行特征挖掘,實現全方位動態展示主體畫像,分析風險傳導范圍及影響度。一是行業聚類分析與風險提示。通過對市場主體經營范圍等內容進行大數據特征挖掘和聚類,實現精準行業分類,并分析不同行業領域主體的失信特征。二是地區分布與風險對比分析。主要實施路徑是提取市場主體地域信息和信用信息,用于分析區域協同發展在信用方面的特征表現,如京津冀、粵港澳、長江經濟帶等。三是時序相關性分析。通過跨時段對比市場主體的風險信息,得到主體觸碰風險預警值的概率變化情況,對不同行業、不同地區市場主體的失信風險狀況進行動態研判,從而進一步分析政策及監管背景下特定主體及失信行為的治理效果。
02 大數據支撐信用狀態實時監測,構建時間多維度、多層次風險預警體系
通過對守信行為和失信行為的挖掘分析,構建區域、行業、領域、特定群體以及信用主體等不同對象的信用狀態的失信風險預警模型,實時捕捉信用事件、監測信用狀況和遷徙。
① 通過即時狀態監測預警,精準識別高風險市場主體。一是建設以“預警+分層管理”為核心的風險管理體系,對信用主體在信用狀況分層分類的基礎上進行管理,并對不同主體設置多元風險處置手段和提供解決方案。二是通過建立即時狀態風險預警模型,實現了對高風險市場主體的精準識別。首先是進行指標構造,根據指標業務特點將指標構建為“當前”類或“新增”類。其次是設定預警閾值,結合專家判斷及業內經驗,確定該類指標的預警閾值。最后是生成預警信號,不同預警閾值將對應不同預警級別,在信用狀態發生改變時即刻觸發相應級別的預警信號。
② 搭建信用關聯分析圖譜,深度挖掘市場主體關聯風險。通過大數據技術,深度挖掘市場主體關聯關系,全面實現了隱形和深度關聯方和關聯關系的探查,大大提升了風險預警的前瞻性。從關系類別來看,隱藏關聯關系主要包括:交易關系、親屬關系、合作關系、擔保關系、控制關系、同聯關系【同聯關系,即相同聯系方式。代表了企業間的緊密相關性,是進行“殼公司”調查的重要線索。通過大數據算法,可對全國工商注冊企業的聯系方式進行匹配,精準識別出強關聯的企業團簇?!抗蓹嚓P系、歷史投融資、借貸關系、競爭關系等,并按關聯關系緊密性和層級范圍分為一度、二度、三度和四度關聯。從具體實施層面來看,一是多源異構抽取關聯關系?;诤A慨悩嫈祿?,采用自然語言處理技術實現關聯關系抽取和整理。在此基礎上,對市場主體的多層關聯網絡進行融合,精準構建涵蓋歷史信息的多源關聯網絡。二是大數據關聯圖譜構建和可視化表達。基于大數據算法,實現對關聯路徑的深度解析,構建企業間的多米諾風險網絡,生成關聯圖譜,并進行實時、動態、多維的可視化呈現。
③ 實施專項行為監測預警,深度挖掘企業重點領域風險。通過人工智能、機器學習等技術處理結構化及非結構化大數據,從多來源的不同結構的數據中提取高相關性風險因子,構建可量化的行業特征風險模型,搭建基于大數據的失信風險預警平臺,實現提前預警潛在風險事件和風險企業,并實時掌握企業風險動態,協助查詢、分析和研判風險。例如,利用大數據技術打擊非法集資專項行動中,全國已有多個地區通過深度挖掘非法集資疑似企業的關聯要素數據、投資區域、投資領域、資金去向,構建非法集資風險識別模型,生成能夠反映企業非法集資風險疑似度和活躍度的風險分數,對線上和線下非法金融行為進行實時監控,提高風險識別和量化的精準度。
④ 開展信用狀態遷徙監測,實時捕捉信用狀況劣變跡象。在監管領域,通常需要從有限的數據中第一時間鎖定在當前時間或未來某個時間點前變成“壞”狀態的目標,在其劣變前作出預測或者在其觸發劣變指標時第一時間發出預警信號。在實施過程中,通過對信用行為的挖掘分析,構建針對不同對象的信用狀態的監測分析和信用風險預警模型,實現對特定監測對象的信用狀況劣變跡象的實時捕捉。
⑤ 監測信用領域輿論狀況,實現信用輿情預警推送。通過大數據爬蟲與儲存技術,抓取并儲存微博、微信、新聞、論壇、博客等互聯網傳播渠道中信用相關輿情數據,發現識別信用主體相關的敏感輿情,并從話題熱度、輿論基調、傳播趨勢、網民期待等多個維度自動生成輿情報告。從實施方式看,主要從信用服務機構輿情監測預警、信用熱點話題監測預警、信用工作敏感輿情監測預警等模塊展開監測,主要分析維度為輿情熱度與影響度、輿情傳播趨勢、傳播地區分布、輿論情緒分布、輿論發布來源分布、熱點話題關注占比、熱點輿情排名等。針對特定專題的輿情設置預警規則,當新增輿情信息中包含自動預警對象或超出預警閾值時,自動推送有關輿情信息。
03 大數據支撐信用狀況動態評估,構建主體違法違規概率模型
基于主體的歷史行為,對主體當前現狀進行客觀評價,并預測其未來一年守信的概率或劣變的概率。
實施企業違規概率預測的主要實施路徑為:通過大數據技術構建企業行為違規預測模型,將已違規的企業黑名單根據違規距今的時間進行分類,挑選與違規相關的特征指標并使用余弦相似度算法對任意一家企業與歷史歸屬類別進行判別,得到判別概率,基于該判別概率并考慮時間衰減等相關因素的影響對企業的違規概率進行綜合加權評分,得到企業的違規發生概率等級。模型構建流程為指標池構建、指標 WOE(Weight of Evidence)分箱、模塊內邏輯回歸、模塊間遺傳算法,信用預測評分模型效果分析主要從指標分箱 IV(Information Value)值分析、模塊邏輯回歸效果分析實現。例如,分析借貸違約失信行為概率,需提取出企業所對應的裁判文書中案由包含相關關鍵詞的數據,如“金融”“借貸”“借款”“債務”“債券”“追償權”“典當”,且案件結果為“部分勝訴”或者“原告勝訴”(即被告敗訴),從企業基本信息、企業信用表現、關聯方規模和結構、關聯方信用水平四個維度搭建指標體系,用于預測違約概率。
內容來源|《產業轉型研究》2022年第五期 總第333期
編輯|段文秀
審核、責編|楊帆