2023 年初,社交網絡上出現了一陣曬出與 ChatGPT 的聊天截圖風潮,這也是 ChatGPT 被大眾認知最廣的一個功能——智能交互對話[1]。ChatGPT 是美國人工智能研究實驗室 OpenAI 開發的一種全新聊天機器人模型,能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,支持回答問題、承認錯誤、質疑并拒絕不適當的請求等情境[2]。中國信息通信研究院聯合中國人工智能產業發展聯盟對 ChatGPT 進行的測試顯示,ChatGPT 在百科檢索、數學問答、文學交流、常識問答、知識推理等對話任務上的意圖識別率均達到 98% 左右,在生活閑聊上的意圖識別率約為 95%,已具備較好的語義理解能力[3]。
GPT 的全稱為 Generative Pre-Trained Transformer,即生成式預訓練 Transfomer 模型?;?GPT 架構,OpenAI 構建了可以應用在多種任務上的大規模語言模型,并成功應用在商業領域。大規模語言模型 Large Language Model (LLM)是一個基于 Transformer 的神經網絡,由具有許多參數(通常為數十億個權重或更多)的神經網絡組成,使用自監督學習在大量未標記的文本上進行訓練。而 2022 年初推出的 InstructGPT 引入新技術 RLHF(基于人類反饋的強化學習),該技術可以直接從人類反饋中訓練“獎勵模型”。當處理包含人類價值觀和人類偏好的復雜任務,包括但不限于文本分類、生成文本以及回答問題[4]時,RLHF 可以生成與人類價值觀相符的答案,并能夠拒絕與其價值觀不符的任務。這提高了強化學習的魯棒性和探索性。
Transformer 模型來自谷歌 2017 年發表的論文《Attention is all you need》,作為一種采用自注意力機制(Self-Attention)的深度學習模型,Transformer 是目前常見大規模語言模型的核心組件。模型按照輸入數據各部分的重要性的不同而分配不同的權重。
該模型顛覆了傳統的循環神經網絡 (RNN)和長短時記憶網絡(LSTM)的建模范式,在自然語言處理任務中取得了顯著的成功。
● 能夠在處理文本時捕獲長距離依賴關系,避免了傳統 RNN 和 LSTM 中的梯度消失問題。
● 可以應用于多種自然語言處理任務,如文本生成、分類、翻譯等,具有很高的通用性。
Transformer 結構的提出,使得深度學習模型參數突破了 1 億。從 lenet、Alexnet、ResNet 開始,模型參數日益增長。到了 BERT 網絡模型的提出,參數量首次超過 3 億規模,鵬程盤古實現千億參數規模,OpenAI 于 2020 年 5 月推出第三代 GPT-3 模型參數量達 1750 億。
目前,通用大模型已經成為人工智能領域的研究熱點,國內外均有研究成果和商用模型陸續發布。其中國外大模型研究起步較早,OpenAI、谷歌等公司為代表經過多年研究,大模型版本不斷迭代,規模逐漸擴大,性能不斷提升(表1)。
表 1 國外主要大模型
國內目前已有百度、阿里等互聯網頭部企業入局,另有清華大學、復旦大學、中科院等科研院所以及商湯科技、智譜 AI 等人工智能企業已發布或在研大模型產品(表2)。
Transformer 模型可并行運算的特性和出色的可擴展性為人工智能模型向通用大規模發展奠定了基礎。一方面,Transformer 架構結構靈活,具有很強的可擴展性。通過增加層數、注意力頭數等方式,根據任務和數據集規模的不同調整模型規模、改進模型性能,這為開發更大規模、更強大的模型提供了可能。另一方面,Transformer 具有良好的并行化能力,這使得其能夠處理大規模數據集。
在大規模數據和計算資源的支持下,基于 Transformer 可以設計并訓練參數規模上億的大模型。這種大模型具有更好的泛化能力和性能,能夠應對更加復雜的處理任務,并逐漸進入到可以大規模、可復制的大工業落地階段[5],應用于細分領域的下游任務。
△ 圖1 大模型與應用下游任務
(圖源https://arxiv.org/pd
f/2108.07258.pdf)
清華大學講席教授、智能產業研究院院長張亞勤在《AI大模型時代》的演講中指出,“GPT+ 等各種大模型是人工智能時代的“操作系統”,對上層應用有重構、重寫的作用?!辈煌臅r代有不同的操作系統,它們決定了服務器架構和應用的形態。人工智能時代,大模型將成為底層的操作系統,芯片架構包括 GPU、CPU、XPU,上層的云計算架構將從 IaaS–PaaS–SaaS,演變為 IaaS– 垂直模型/MaaS/基礎模型 –SaaS。
上海大學計算機工程與科學學院鄒國兵教授于 2012 年就提出了“MaaS”(模型即服務)的概念:MaaS 由基礎層、中間核心層和底層擴展層三部分構成。
△ 圖3 MaaS理論模型
基礎層包含用戶的身份信息,如姓名和職業等;中間核心層涉及用戶的重要特征,如興趣、偏好、目標等;底層擴展層含有個性化知識的用戶特征,如通過語義分析和推理得到的興趣、偏好和模型網絡?;A層、中間核心層和底層擴展層共同構建了一個 MaaS 平臺。平臺可以作為獨立的服務平臺,嵌入到云計算中,位于 PaaS 層和 SaaS 層之間。從 MaaS 的構成得以看出,它可以利用IaaS層收集的個人信息,生成個性化的模型網絡。百度創始人李彥宏在“文心一言”發布會上表示大模型時代下,將會產生新型云計算公司,其主流商業模式也將從 IaaS 變為 MaaS[6]。
大模型時代下,需要擁抱以工業大模型為基礎、輕量化微調的 MaaS 服務,快速形成智能化的 MaaS 應用,優化傳統工業互聯網賦能方式,推動我國工業化進程[7]。
在開發設計方面,開發人員可以直接通過自然語言生成代碼,提升產品易用性和個性化程度。PaaS 的開發可以基于 MaaS 平臺,或者直接由 MaaS 替代,實現數據和功能的定制化。應用模型的圖像生成能力,設計人員可以用更低的時間成本進行三維可視化設計,建立智能工業知識庫。例如:汽車外形的研發設計可以直接通過大模型生成并給出對應的設計說明及優缺點,輔助設計師創新。
在生產制造方面,大模型能在生產制造流程中幫助工人精準設定設備的工藝參數,提供有效的精細化操作指引,在突發故障時提供快速診斷和應急解決方案建議。例如:針對復雜的儀器設備和多流程的工藝環節,大模型可以自動生成各環節工藝參數,并在數字孿生系統進行仿真輸出報告供人類選擇。
在運營管理方面,大模型通過對 ERP、CRM、SRM 等系統的運營數據與模型代碼的理解,用戶直接使用自然語言描述需求,生成儀表盤、報告或 AI 分析。同時也能與圖像識別處理系統、時間序列分析等系統融合,通過深層次、多維度的數據分析。例如:大模型直接生成Excel并進行數據分析,供管理人員了解整個工廠的運營情況、提供可參考的最終決策。
在產品服務方面,大模型可以提高響應效率并創新產品服務形式。既可以通過智能客服的形式協助人工進行會話、業務處理、操作講解,也可實現社媒推廣、智能面試等創新服務。例如:大模型可以充當社交媒體 KOL,為抖音、微博、微信公眾號等各種平臺創建內容并與關注者互動,以推廣產品或服務。
在人員培訓方面,大模型可以被視為一個規模龐大、擁有專業知識體系的數據庫,通過與員工的交互來輸出知識,在工業領域的人員培訓中多功能應用,實現智能培訓。例如:模擬如應急事件、安全事故等各種突發場景,讓員工在模擬實踐中學習應對突發情況的方法和技能。
然而互聯網領域通用的 AI 模型開發和應用與工業領域有著非常明顯的差異,主要體現在數據、需求規模、精度要求、算力支持、模型部署等五個方面 [8]。百度、騰訊、阿里巴巴、華為等國內科技企業在 MaaS 領域已經展現了強大的研發實力和實踐能力,在工業領域模型應用上探索了路徑。百度 Apollo 提供自動駕駛、智能汽車、智能交通等解決方案;文心大模型構建了“基礎+任務+行業”的三級模型體系,基礎大模型支撐任務與行業大模型的建設,任務和行業大模型結合真實場景與數據反哺基礎大模型優化;騰訊混元協同了騰訊預訓練研發力量,完整覆蓋 NLP、CV、多模態及眾多行業領域任務模型;阿里巴巴“通義”大模型基于 AI 統一底座構建了通用模型與專業模型協同的層次化人工智能體系,支撐了電商、金融、物流等多個場景;華為云“盤古大模型”與昇騰(Ascend)芯片、昇思(MindSpore)語言、ModelArts 平臺深度結合,已經發展出包括基礎大模型(L0)、行業大模型(L1)、行業細分場景模型(L2)三大階段的成熟體系。
因此,在行業大模型的構建和應用方面,應引導 AI 模型研發供應商與制造類鏈主企業展開充分對接,形成數據、訓練、治理全套服務的大模型開源生態體系。朱巖教授在《2023年中國數字經濟發展的十個趨勢》一文中提出預測,如同 2C 的大型平臺經濟企業一樣,在 2B 領域也將涌現大量新型的產業數字服務平臺企業。
參考文獻
[1] 張智雄,錢力,謝靖等.(2023).ChatGPT對科學研究和文獻情報工作的影響.
CSTR:32003.36.ChinaXiv.202303.00093.V1
[2] 唐長樂,高翔,謝鑫.(2023).ChatGPT賦能數字人文:概念解構、應用前景與現實問題.圖書情報工作.
CSTR:32003.36.ChinaXiv.202303.00089.V1
[3] 時斕娜. “特別能聊”的人工智能聊天機器人ChatGPT會聊出些什么?[N]. 工人日報
[4] Ouyang, Long et al. “Training language models to follow instructions with human feedback.” ArXiv abs/2203.02155 (2022): n. pag.
[5] 張振乾,汪澍,宋琦,高云龍.人工智能大模型在智慧農業領域的應用[J].智慧農業導刊, 2023,3(10):9-12+17.DOI:10.20028/j.zhnydk.2023.10.003.
[6] 思杭.MaaS來臨,SaaS進入「奇點」時刻|產業深度[EB/OL].產業家.http://www.chanyejiawang.com/h-nd-1773.html
[7] 顧維璽.類ChatGPT推動中國新型工業化發展[J].中國信息界,2023(02):32-35.
[8] 王改靜.卡奧斯工業智能研究院工業AI技術總監王曉利:工業AI面臨五大挑戰[N].通信產業報,2023-02-27(010).DOI:10.28806/n.cnki.ntxcy.2023.000097.