2019年6月21日,挑戰(zhàn)廣州,真醫(yī)某行業(yè)展會展出的生A生剛應(yīng)用在醫(yī)療領(lǐng)域的智能機(jī)器人。 (視覺中國/圖)
它展現(xiàn)出了真人醫(yī)生一樣的剛上問診素養(yǎng)。
“您說的挑戰(zhàn)甲狀腺結(jié)節(jié)四年前是怎么發(fā)現(xiàn)的?當(dāng)時有什么癥狀?這四年來結(jié)節(jié)有沒有變大或其它癥狀?您是否定期復(fù)查?最近一次復(fù)查什么時候?”
這些連珠炮似的提問,令從醫(yī)十余年的真醫(yī)李惠感到驚訝。因為提問來自一款醫(yī)療大語言模型(下稱“大模型”)MedGPT,生A生剛又稱AI(人工智能)醫(yī)生。剛上李是挑戰(zhàn)一位腎內(nèi)科副主任醫(yī)師。
就在2023年6月底,真醫(yī)李惠與9位來自心內(nèi)科、生A生剛消化內(nèi)科、剛上呼吸內(nèi)科、挑戰(zhàn)內(nèi)分泌科、真醫(yī)腎臟內(nèi)科、生A生剛骨科、泌尿外科等科室的醫(yī)生,聯(lián)手挑戰(zhàn)MedGPT。后者于2023年5月推出,號稱國內(nèi)首款醫(yī)療大模型。
這場在成都的一家醫(yī)院舉行的測試,也被業(yè)內(nèi)譽(yù)為人類與AI在醫(yī)學(xué)領(lǐng)域的一次公開比拼。
最終經(jīng)過7位專家的評審,真人醫(yī)生綜合得分為7.5分,AI醫(yī)生綜合得分為7.2分。AI醫(yī)生與三甲主治醫(yī)生在比分結(jié)果上的一致性達(dá)到了96%。
考慮到大模型不斷自我學(xué)習(xí)成長的能力,眼前的成果難免令人對AI醫(yī)生的應(yīng)用前景浮想聯(lián)翩。據(jù)南方周末記者不完全統(tǒng)計,2023年5月以來,國內(nèi)已至少有醫(yī)聯(lián)、商湯科技、京東健康、聯(lián)影智能、上海聯(lián)通等企業(yè)相繼發(fā)布了醫(yī)療AI大模型。7月27日,谷歌亦發(fā)布全球首個全科醫(yī)療AI大模型Med-PaLM M。
不過,在醫(yī)療大模型投入應(yīng)用前,從診斷的準(zhǔn)確性和可解釋性,到醫(yī)療數(shù)據(jù)的來源,再到AI醫(yī)生與真人醫(yī)生的關(guān)系,許多倫理問題仍待厘清。
和大火的ChatGPT一樣,MedGPT的界面也是一組簡潔的對話框,可見對話與問答功能是其核心所在。在一則現(xiàn)場問診視頻中,患者與MedGPT、真人醫(yī)生的對話氣泡分別用藍(lán)色和綠色表示。但即使不借助顏色,二者之間也有著顯見的差別。
問診中,病人自訴腰疼,AI會追問,左側(cè)還是右側(cè)?“如果是單側(cè)疼痛,也有可能是腎周感染,但更要考慮結(jié)石或腫瘤。”李惠告訴南方周末記者,AI在不能查體的情況下,能通過對話彌補(bǔ)一部分差距。
從文本上看,人類醫(yī)生的表述更加口語化也更簡潔。MedGPT則透露著機(jī)器特有的耐心和客氣。它的回復(fù)往往以“您好!感謝您的配合”開場,接著是長篇大段的解答,有時也會連續(xù)發(fā)問。
“問診比較詳細(xì),它對于每個細(xì)節(jié)都很注重,作為臨床醫(yī)生的補(bǔ)充是非常有幫助的。”作為評委的北京阜外醫(yī)院心內(nèi)科主任醫(yī)師楊躍進(jìn)表示,“但詳細(xì)有時候意味著重點不突出,有些問題就需要一查到底,未來還需要繼續(xù)凝練。”
“我們沒想到一致性得分會這么高,大家都很興奮很滿意。”互聯(lián)網(wǎng)醫(yī)療企業(yè)醫(yī)聯(lián)MedGPT項目負(fù)責(zé)人王磊表示。
從最近層出不窮的新品發(fā)