AI+PICOS在醫學資訊分析中的應用探索

AI+PICOS在醫學資訊分析中的應用探索

自20世紀邁入資訊大爆炸時代以來, 各行各業都在主動或被動地改變其產業模式, 伴隨而來的問題也越來越多,我們需要這麼多資訊嗎? 準確性如何? 我們不再擔心資訊匱乏, 卻需要更多地培養自身理解資訊和分析問題的能力。

一、醫學資訊學概要

醫學資訊學包括醫學與計算機科學、臨床資訊學, 圖形資訊學和生物藥物資訊學等學科,是透過研究醫療資源、實驗設計和方法, 高效獲取醫學資訊, 並進行管理和合理利用資訊的。

1965年由美國國家醫學圖書館開發使用的 Medline 是世界上第一個面向公眾,資訊全面的線上醫學資料檢索平臺,且被一直沿用至今。90年代國際上大量先進地區醫療機構都已經開始應用電子病歷系統(ePR), 包括北美、香港等。21世紀以來, 隨著電子資訊科技的高速發展, 醫學資訊學已不再僅僅用於資訊管理層面, 更多的是輔助醫生進行日常診療工作, 比如遠端醫療技術, 手術機器人等。

二、循證醫學研究方法

循證醫學理論 (Evidence-Based Medicine,EBM)是以現實醫學證據為基礎的, 促進推動醫療行為決策的研究理論。在該理論模型下, 傳統醫學知識的循規蹈矩已不如真實醫學證據所提供的價值高。該理論對各種真實醫學證據做出了證據質量分級,其中Meta 分析、系統綜述和隨機臨床研究(RCT)屬於較高質量型別。

AI+PICOS在醫學資訊分析中的應用探索

圖1 證據等級金字塔

EBM研究共包括5個步驟:(1)將不確定性轉化為可以回答的問題,其中要包含批判性,實驗設計和證據等級;(2)系統化地檢索可找到的最好證據;(3)批判性地評估證據的有效性和正確性;(4)將發現的結果應用到實踐中;(5)應用中效果的分析評價。

簡言之,EBM 研究是 “定義問題—搜尋證據—價值評估—實踐應用—效果分析”的流程閉環,其中最主要的環節是定義問題和搜尋證據。在準備階段,研究者必須對問題的理解和思路保證絕對的清晰,才可以正確且高效地完成後續步驟。在素材蒐集階段,只有保證了高質量的證據,才可能獲得有價值的結論,否再如何最佳化實驗過程和結果分析,也是徒勞。

三、PICOS是什麼?

為了將問題分解得更加清晰明確, 也為了更精準地找到合適可用的證據,研究者們總結出了很多種的思維模型, 而其中最具代表性和實用性的就是 PICO(s),其中 P指Participants (研究物件),I 指 Intervention (干預手段),C 指 Comparator/Control (對比對照), O 指 Outcome (研究結果,終點),S 指 Study design (研究設計)。透過 PICO(s)的問題刻畫和要素分解, 往往復雜且晦澀的臨床研究問題都可以迎刃而解。

例如, 作為腫瘤二線療法的單抗類藥物是比較熱門的研究領域, 如果我們想知道德瓦魯單抗(Durvalumab, 阿斯利康)在接受過放化療的非小細胞肺癌患者(NSCLC)中的療效, 如何分解問題呢?

首先對於研究物件(P) 需要梳理出兩個特徵, 其一是NSCLC, 其二是已經接收過放化療且需要後續治療的患者;對於干預手段(I)I, 我們可以明確這個問題中的主要研究藥物為Durvalumab; 對於 對照對比(C), 我們可以定義其為其他二線治療手段, 或沒有接受二線治療的患者; 對於研究終點(O), 一般會用生存率指標和疾病緩解指標來定義腫瘤領域的藥物療效。

透過問題的結構化梳理後, 我們提煉出了精準的問題框架, 後面的文獻檢索過程就會變得清晰簡單。在操作層面, 我們需要做的就是結合特定文獻檢索工具的邏輯連線詞(例如MeSH), 將 PICO(s) 轉化成檢索策略, 完成證據收集。

四、大資料和人工智慧技術助力創新科研

對於現今的醫療從業者來說,除了臨床實踐以外,不斷學習和創新科研也是必需的工作內容,否則很容易被新知識新技術所淘汰,而且這方面能力也是醫生職稱評級的重要標準。

據Medscape公佈,2015年美國專科醫生平均收入為 28。4 萬美元,據統計,中國醫生2015年均收入為 7。7 萬元。中國醫生工資待遇比較低,但工作壓力較大,在美國醫生眼裡,中國醫生一天看100多個病人的方式是不可思議的,2 min內看一個人是非常不負責任的,不過這種情況是由國情所決定,且壓縮了中國醫生可用於學習與科研的時間精力。在這樣的背景下,如何幫助醫生更快地、有效地去學習和科研也是人工智慧技術在醫學領域的一個探索方向。

1.科學文獻存在多語言性、內容專業、有效閱讀存在難度等技術壁壘。

先不論文獻的多語言性對知識獲取的難度提升,即使是母語系的臨床文獻,也比其他種類的文字產物更加晦澀難懂,而且資訊量更大。但科學文獻的優勢也很明顯,主要有結構相對固定、基本要素全面完整。利用文獻特性,如果讀者可以快速定位並且直接提取自己所感興趣的資訊,那麼這樣讀取資訊的效率是很高的,所以我們需要PICO(s)來成為讀者獲取資訊的指南針。

2.應用人工智慧技術可加快選題、檢索、資料獲取與整合的速度。

一般讀懂 1 篇 3000 字文章至少需要20~30 min,而有目的性的資料讀取只需要3~5 min就可以完成。如果我們將規則轉化成計算機語言,那麼這部分工作完全可以由機器代工,整體速度將近一步提升,3~5 min足夠人工智慧去篩選並提取上百篇上述型別文獻的資訊和資料。

相對的,在做科研和寫文獻的過程中,PICO(s)可以作為大綱來指導作者的構思和選題,幫助其高效獲取並有效整理素材。例如,透過傳統的人工方式,好的迴歸性資料分析需要4~6個月的時間週期去完成,其中選題需要約1個月,資料獲取需要約2個月,資料分析和論文撰寫還需要約2個月。利用PICO(s)的思維去最佳化這個過程可以提高效率,減少因選題不準和資料不足引發的返工率,在此基礎上,結合人工智慧的PICO(s)體系將可以進一步加快選題,檢索,資料獲取與整合的速度。

3.醫學資訊領域中應用人工智慧技術的手段仍然不夠完善,實際應用中存在一定的限制。

即便是被譽為業界老大哥的IBM Watson也在今年早期傳出與安德森癌症研究中心停止合作的訊息,並且其營收也停止了增長。IBM Watson曾取得過很多的成功:

2011年,Watson(沃森)就在智力競賽節目Jeopardy 中獲勝,此後IBM 就在一直積極宣傳沃森。在與巴羅神經學研究所合作的過程中,Watson透過閱讀2500萬篇文獻摘要,100萬篇完整論文和400萬專利文獻,建立了模型去預測RBPs與ALS的相關性。

有研究者為了測試其模型的預測能力,首先將IBM Watson的知識庫限制在2013年之前的學術出版物上,並要求Watson使用這些可用的資訊來預測與ALS相關的其他RBPs。

在2013—2017年期間,Watson在對4個導致突變的RBPs給出了高度評價,證明了模型的有效性。而後,Watson對基因組中所有的RBPs進行篩選,併成功鑑定在ALS中改變的5種新型RBPs。而這僅僅是Watson在藥物發現方面的嘗試之一,除此之外還有與多家研究/政府機構在衛生保健方面的業務合作和拓展。

IBM Watson之後出現低谷的原因,主要是應用人工智慧學習人類經驗,分析問題、預測過程中是有諸多限制因素:

(1)AI的能力高低取決於資料量級大小:資料越多,模型越準確。(2)AI的分析能力基於過往資料——人類無法理解或者未出現過的事件,AI也無從知曉。(3)AI學習的內容是由人來灌輸的——AI可以成為“最聰明的人”,卻無法超越“人”的範疇。

因此,我們應該將AI看作人類的工具,使用它去提升工作效率,而不是成為獨立個體去自由工作。IBM Watson恰恰是因為將自己定位成“醫生”,而非“醫生助手”,卻始終無法達到這樣的高度,從而跌入低谷。

4. 人工智慧與循證醫學的結合更加自然與合理

循證醫學本身就是溯源迴歸性的總結分析,歷史上沉澱的大量資料沒有被整合或挖掘過,利用機器的運作方式高效地處理這些資訊或可得到新的智慧,摸索出一定的規律,進而更好的幫助醫生去攻克醫學難題。

基於 PICO(s) 的框架模式,透過建設智慧化醫學資訊服務平臺,整合資料來源,將研究問題具體化,提供智慧文獻檢索和管理,輸出圖表和分析報告。見圖2~4。

AI+PICOS在醫學資訊分析中的應用探索

圖2 發文趨勢的視覺化圖表樣例

AI+PICOS在醫學資訊分析中的應用探索

圖3 熱點變化的視覺化圖表樣例

AI+PICOS在醫學資訊分析中的應用探索

圖4 廠商分佈視覺化圖表樣例

五、小結

綜上所述,普通純人工PICO(s)模式下的EBM研究週期耗時較長,工作效率很低。談到智慧化醫學, 很多人想到的都是輔助診療,其實若能將AI技術應用到PICO(s) 領域,醫學資訊研究者可以大大提高工作質量和效率。

另外,完整的PICO(s)是由多個標籤組成的, 這些標籤可以被 AI 利用形成學習邏輯,並透過大量文獻的灌輸, AI可以高速精確地提取我們需要的資訊,將人工繁瑣的檢索和閱讀時間大大降低。

目前智慧化醫學資訊服務平臺是基於 PICO(s) 的框架模式,整合多資料來源,將研究問題具體化,提供智慧的文獻檢索和管理,最終可輸出視覺化圖表和分析報告。

—END—

宣告:本文為火石數智原創文章,歡迎個人轉發分享,網站、公眾號等轉載需經授權。

作者:徐奕