張 勤:首先從技術(shù)上我要說(shuō)明一下,DUCG 不是基于當(dāng)前全世界流行的大數(shù)據(jù)機(jī)器學(xué)習(xí),而是基于臨床專家的不確定因果知識(shí)。這里有一個(gè)誤區(qū):將人工智能等同于大數(shù)據(jù)機(jī)器學(xué)習(xí)。無(wú)論是媒體的誤解,還是企業(yè)和學(xué)者的誤導(dǎo),我認(rèn)為這沒(méi)有反映學(xué)術(shù)的真實(shí)情況。人工智能發(fā)展 60 多年,跟我同歲,前 30 年主要是基于邏輯的,即基于規(guī)則的專家系統(tǒng),但成功的極少,或者說(shuō)最后還是沒(méi)辦法滿足實(shí)際應(yīng)用的需求,原因就在于規(guī)則的碎片化。那種基于特定句式的一條條的碎片化規(guī)則多了之后,就會(huì)出現(xiàn)重疊、循環(huán),矛盾,就難以管理了。這是第一個(gè)大問(wèn)題。第二個(gè)大問(wèn)題就是規(guī)則的不確定性傳播尚無(wú)嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)理論。不確定性是現(xiàn)實(shí)中大量存在的。所以基于規(guī)則的專家系統(tǒng)逐漸淡出,讓位于能夠處理不確定性的大數(shù)據(jù)機(jī)器學(xué)習(xí)。
大數(shù)據(jù)機(jī)器學(xué)習(xí)主要是用加工后的大數(shù)據(jù)訓(xùn)練機(jī)器,獲得一個(gè)可并行計(jì)算的非線性函數(shù)或模型,使輸入與輸出盡可能匹配。就全科臨床診斷而言,輸出就是疾病,輸入則是患者的癥狀、體征、風(fēng)險(xiǎn)因素、化驗(yàn)結(jié)果、影像結(jié)果等等,至少有一萬(wàn)個(gè)變量,每一個(gè)變量至少有陰性、陽(yáng)性、未知三種狀態(tài),一個(gè)輸入就是這些變量的一個(gè)狀態(tài)組合,這種組合比 3 的 1 萬(wàn)次方還多,是一個(gè)天文數(shù)字。不同樣本空間的數(shù)據(jù)覆蓋的組合區(qū)域是不同的。大數(shù)據(jù)覆蓋的通常是三甲醫(yī)院病歷中的變量狀態(tài)組合,但基層的變量狀態(tài)組合往往與之不同,導(dǎo)致大數(shù)據(jù)機(jī)器學(xué)習(xí)模型在訓(xùn)練和測(cè)試數(shù)據(jù)集上實(shí)現(xiàn)的輸入輸出匹配在基層失靈。這就是著名的泛化問(wèn)題。我們的應(yīng)用場(chǎng)景在基層,但我們學(xué)習(xí)的數(shù)據(jù)集來(lái)自三甲醫(yī)院。這種樣本空間的錯(cuò)位導(dǎo)致實(shí)際使用中診斷正確率大幅降低。換句話說(shuō),大數(shù)據(jù)機(jī)器學(xué)習(xí)模型在測(cè)試集上的正確率不能代表實(shí)際應(yīng)用的正確率,原因就在于泛化問(wèn)題。我們可不可以用基層的數(shù)據(jù)來(lái)學(xué)習(xí)呢?理論上可以,實(shí)際上不可行。因?yàn)榛鶎拥臄?shù)據(jù)難以保證診斷結(jié)論正確性和信息記載完備性,不同的基層情況也不同,即不同基層的樣本空間是不一致的,千變?nèi)f化。因此,解決之道在于避免泛化問(wèn)題。怎么才能在全科臨床診斷中避免泛化問(wèn)題呢?答案就是基于臨床專家的包含不確定性的醫(yī)學(xué)知識(shí),而非匹配式或黑箱式的數(shù)據(jù)學(xué)習(xí)。知識(shí)是魯棒的,其正確性不以應(yīng)用場(chǎng)景變化而不同,即知識(shí)不存在泛化問(wèn)題——這就是我們?cè)瓌?chuàng)的新一代人工智能 DUCG 的解決之道。
DUCG 的優(yōu)點(diǎn)首先在于其無(wú)泛化問(wèn)題,且診斷正確率高。我們構(gòu)建的 DUCG 系統(tǒng)的正確率首先由自己驗(yàn)證,然后再拿到第三方的三甲醫(yī)院去驗(yàn)證,之后我們才投入實(shí)際應(yīng)用,并在實(shí)際應(yīng)用中驗(yàn)證。我們目前已上線的知識(shí)庫(kù)都是基于主訴癥狀的跨科室的知識(shí)庫(kù),覆蓋了咳嗽咳痰、腹痛、嘔血、發(fā)熱、胸痛、心悸、頭暈、頭痛、頸腰背痛、呼吸困難、下尿路癥狀、肥胖、婦科癥狀、兒童發(fā)熱等 36 個(gè)主訴癥狀,每個(gè)庫(kù)包含十幾到上百個(gè)能引起該主訴癥狀的疾病,DUCG 根據(jù)患者病情信息進(jìn)行鑒別診斷,第三方測(cè)試驗(yàn)證每個(gè)庫(kù)的正確率 95% 以上,其中少見(jiàn)病正確率 80% 以上?;鶎臃浅P枰獙?duì)少見(jiàn)病的正確診斷,因?yàn)榛鶎訉?duì)常見(jiàn)病通常還能正確診斷,出問(wèn)題的主要是少見(jiàn)病。少見(jiàn)病數(shù)量雖少,但病種繁多。如果存在大量漏診誤診,就難以讓患者放心,難以實(shí)現(xiàn)基層首診。
DUCG 的第二個(gè)優(yōu)點(diǎn)是診斷結(jié)果和知識(shí)庫(kù)的可解釋性。哪些風(fēng)險(xiǎn)因素怎么影響疾病的發(fā)病率?疾病與癥狀、體征、實(shí)驗(yàn)室檢查結(jié)果和影像學(xué)檢查結(jié)果存在什么因果關(guān)系?不確定性如何計(jì)量和表述?我們都采用圖形直觀的方式進(jìn)行表達(dá),清晰可解釋,包括計(jì)算方法也是全透明的,每個(gè)計(jì)算公式都具有清晰的物理意義,可證實(shí)或證偽。我們采用模塊合成方式來(lái)構(gòu)建大型復(fù)雜 DUCG 知識(shí)庫(kù),每個(gè)知識(shí)模塊不大,可解釋性強(qiáng),更新可在模塊層面進(jìn)行。模塊更新后將自動(dòng)合成為新知識(shí)庫(kù),即可用于疾病鑒別診斷。例如國(guó)家衛(wèi)健委發(fā)布第五版新冠肺炎指南后,我們?cè)谝惶靸?nèi)增加了新冠肺炎診斷模塊,合成知識(shí)庫(kù)后用于包括新冠肺炎在內(nèi)的各種疾病的鑒別診斷,即不僅診斷患者是否患新冠肺炎,而且診斷若不是新冠肺炎的話是那種疾病、如何治療。如果只判斷是否新冠肺炎,那是篩查,而不是鑒別診斷。鑒別診斷就是要從眾多可能疾病中診斷出病人患的是什么病。這樣才能實(shí)現(xiàn)基層首診,有效防控疫情。
作為輔助診斷,人工智能醫(yī)療尚不能代替醫(yī)生看病,法律責(zé)任還要由醫(yī)生來(lái)負(fù),那么診斷結(jié)果就必須要有可解釋性。否則醫(yī)生怎么相信智能系統(tǒng)的診斷是正確的呢?按照現(xiàn)在大數(shù)據(jù)的技術(shù)路線,難以解決可解釋性問(wèn)題,包括模型本身和診斷結(jié)果的可解釋性。DUCG 具有強(qiáng)可解釋性。
DUCG 的第三個(gè)優(yōu)點(diǎn)是能動(dòng)態(tài)生成患者個(gè)體優(yōu)化臨床檢查路徑。看病的過(guò)程其實(shí)是一個(gè)動(dòng)態(tài)找尋病情信息并據(jù)此進(jìn)行診斷的過(guò)程,并不是已經(jīng)收集了病情信息后由智能系統(tǒng)來(lái)下是什么病的結(jié)論,也不是針對(duì)某個(gè)疾病考慮做什么檢查以收集病情信息,而是在不知道疾病的情況下基于已知病情信息確定下一步應(yīng)當(dāng)優(yōu)先收集什么病情信息,遵循動(dòng)態(tài)生成的患者個(gè)體優(yōu)化臨床檢查路徑準(zhǔn)確獲取病情信息,并做出正確診斷,由此實(shí)現(xiàn)精準(zhǔn)醫(yī)療,大幅減少檢查項(xiàng)和節(jié)省看病費(fèi)用。
DUCG 的以上三個(gè)全球領(lǐng)先的技術(shù)優(yōu)點(diǎn)同時(shí)也是基層首診最需要的基本功能??傊?,DUCG 輔助診療平臺(tái)給臨床診斷帶來(lái)了顛覆性的沖擊,使基于經(jīng)驗(yàn)的臨床診斷變成了精密的科學(xué)計(jì)算,大大縮短了基層醫(yī)生診斷疾病的培訓(xùn)過(guò)程,大幅提高了其診病水平。