您現在的位置是:首頁 > 動漫首頁動漫

Nature子刊:用於阿爾茨海默病痴呆評估的多模態深度學習模型

由 悅影科技 發表于 動漫2023-01-13
簡介945[95%置信區間(CI):0

魚池放維生素c有什麼作用

在全球範圍內,每年有近1000萬新發痴呆病例,其中阿爾茨海默病(AD)最為常見。需要新的措施來改善對各種病因導致認知障礙的個體的診斷。

作者報告了一個深度學習框架,該框架以連續方式完成多個診斷步驟,以識別具有正常認知(NC)、輕度認知障礙(MCI)、AD和非AD痴呆(nADD)的人

。作者展示了一系列能夠接受常規收集的臨床資訊的靈活組合的模型,包括人口統計、病史、神經心理學測試、神經影像學和功能評估。然後,

作者表明這些框架與執業神經科醫生和神經放射科醫生的診斷準確性相比具有優勢

。最後,作者在計算機視覺中應用可解釋性方法,以表明模型檢測到的疾病特異性模式可以跟蹤整個大腦的退行性變化的不同模式,並與屍檢時神經病理學病變的存在密切相關。作者的工作證明了使用既定的醫學診斷標準驗證計算預測的方法。

介紹

阿爾茨海默病(AD)是全球痴呆症的最常見原因

,未來由於人口老齡化導致的病例數量增加可能會加劇對現有的醫療服務需求。臨床需求的增加可能會加劇老年人發病率和死亡率的負擔,因此需要改進治療並及時識別AD。近年來,在開發腦脊液(CSF)生物標誌物以及澱粉樣蛋白和tau正電子發射斷層掃描(PET)等先進成像模式方面做出了重大努力。此外,新一代的AD疾病治療方法現已進入臨床研究範圍,儘管其療效仍存在爭議。儘管取得了這些進展,但許多新興的診斷和治療方式仍然僅限於研究環境,並且生前診斷的支柱仍然是傳統的臨床評估、神經心理學測試和磁共振成像(MRI)。輕度認知障礙(MCI)是痴呆的前驅階段,也可能是AD的一種微妙的早期表現,其診斷同樣需要資深專家的顯著臨床敏銳度。使問題複雜化的是存在許多其他非阿爾茨海默病痴呆(nADD)綜合徵,其臨床表現通常與AD重疊。因此,AD以外的常見痴呆原因,如血管性痴呆(VD)、路易體痴呆(LBD)和額顳葉痴呆(FTD),擴大了神經退行性疾病的鑑別診斷範圍,並導致診斷敏感性和特異性的變異性。

要可靠地區分正常認知老化、MCI、AD和其他痴呆病,需要治療記憶障礙的熟練的專傢俱有顯著的臨床敏銳度,但患者和家屬及時進入記憶診所往往受到限制。這在發達國家的偏遠農村地區和經濟發展中的國家是個大問題,因為那裡缺乏專業的醫生。此外,對熟練臨床醫生的需求正在上升,但美國預計在未來幾十年內將面臨神經科醫生等熟練的臨床醫生的短缺。隨著臨床需求的增加與醫學專業知識的供應減少,用於幫助神經系統診斷的機器學習方法已開始引起人們的興趣。作為對其他組報告的高診斷準確性的補充,作者之前報告了可解釋的深度學習方法,該方法能夠使用磁共振成像(MRI)掃描、年齡、性別和簡易精神狀態檢查(MMSE)。其他人也證明了深度學習在區分AD和特定型別的nADD方面的功效。然而,在記憶診所就診的人的臨床評估需要考慮認知障礙的多種病因。因此,

在統一框架中成功區分不同研究佇列中的NC、MCI、AD和nADD的能力仍有待開發

在這項研究中,作者報告了一個深度學習框架的開發和驗證,該框架能夠在具有不同痴呆病因和不同認知功能水平的多個參與者佇列中準確分類患有NC、MCI、AD和nADD的受試者

(表1,圖1)。使用來自國家阿爾茨海默病協調中心(NACC)的資料,作者開發並外部驗證了能夠使用MRI、非成像變數及其組合對認知狀態進行分類的模型。為了驗證作者的方法,作者證明了模型的準確性與一組執業神經科醫生和神經放射科醫生的診斷效能的可比性。

然後作者利用ShapleyAdditiveexPlanations(SHAP),將計算預測與神經退行性變的眾所周知的解剖學和病理學標記聯絡起來

作者的策略提供了證據,證明即使在異構資料集中,由深度學習驅動的自動化方法也可以接近準確診斷的臨床標準。

表1研究人群和特徵

Nature子刊:用於阿爾茨海默病痴呆評估的多模態深度學習模型

Nature子刊:用於阿爾茨海默病痴呆評估的多模態深度學習模型

圖1。建模框架和總體策略。包括MRI掃描、人口統計、病史、功能評估和神經心理學測試結果在內的多模態資料被用於開發各種分類任務的深度學習模型。本研究使用了八個獨立的資料集,包括NACC、ADNI、AIBL、FHS、LBDSU、NIFD、OASIS和PPMI。作者選擇NACC資料集來開發三個獨立的模型:(i)僅MRI的CNN模型(ii)傳統機器學習分類器形式的非成像模型,它不使用任何MRI資料(iii)一個融合模型,在連線CNN和CatBoost模型的混合架構中結合成像和非成像資料。僅MRI模型在所有八個佇列中都得到了驗證,而非成像和融合模型的外部驗證僅在OASIS上進行。首先,將T1加權MRI掃描輸入CNN以計算連續痴呆模型(DEMO)分數,以評估0到2級的認知狀態,其中“0”表示NC,“1”表示MCI,“2”表示DE。使用最佳閾值演算法將DEMO分數轉換為類別標籤,這些分配構成COG任務。對於患有DE診斷的個體,多工CNN模型同時區分了他們患AD和nADD的風險,作者將這種分類稱為ADD任務。作者將AD診斷的機率表示為ALZheimer(ALZ)評分。然後將MRI匯出的DEMO分數和ALZ分數與非成像變數一起輸入到各種機器學習分類器中以形成融合模型,然後分別預測COG和ADD任務的結果。從NACC測試佇列中隨機選擇了一部分確診的痴呆症病例(n=50),與國際執業神經放射學家團隊直接比較融合模型。模型和神經放射科醫生都使用可用的MRI掃描、年齡和性別完成了ADD任務。此外,隨機選擇了一部分NACC病例(n=100)以將融合模型的效能與執業神經科醫生進行比較,模型和臨床醫生都能獲得一套共同的多模態資料。最後,將模型預測與NACC、ADNI和FHS佇列(n=110)的神經病理學等級進行比較。

結果

作者將鑑別診斷過程劃分為階段性任務。第一個,作者稱之為COG任務,將人標記為NC、MCI或任何原因引起的痴呆(DE)。

值得注意的是,COG任務可以被視為包含三個獨立的二元分類子任務:(i)COG

NC

任務:分離NC和MCI/DE病例(ii)COG

MCI

任務:分離MCI與NC/DE病例,以及(iii)COG

DE

任務:將DE與NC/MCI病例分開。

在完成整體COG任務後,作者接下來制定了ADD任務,其中作者將所有標記為DE的人分配給AD或nADD的診斷。

COG和ADD任務的連續完成允許執行全面描述NC、MCI、AD和nADD案例的總體4分類。

作者還建立了三個獨立的模型:(i)僅MRI模型:

一個卷積神經網路(CNN),它在內部計算一個連續的痴呆模型(DEMO)分數來完成COG任務,以及一個阿爾茨海默氏(ALZ)分數來完成ADD任務。

ii

)非成像模型

傳統的機器學習分類器,僅將來自人口統計學、既往病史、神經心理學測試和功能評估的標量值臨床變數作為輸入。與僅MRI模型一樣,非成像模型還計算了可以完成COG和ADD任務的DEMO和ALZ分數。作者針對這些目的測試了多種機器學習架構,並最終選擇了CatBoost模型作為作者最終的非成像模型架構。

(iii)融合模型:該框架將CNN連線到CatBoost模型

透過這種方法,CNN計算的DEMO和ALZ分數被回收並與可用的臨床變數一起使用。CatBoost模型然後在附加的非成像資訊的上下文中重新計算這些分數。

Nature子刊:用於阿爾茨海默病痴呆評估的多模態深度學習模型

圖2。特定於站點和掃描器的觀察結果。後處理MRI和隱藏層啟用的無監督聚類分別評估了輸入資料和模型預測中的系統偏差。a顯示了下采樣MRI掃描的二維(2D)t分佈隨機鄰域嵌入(tSNE)嵌入。使用樣條插值對後處理的MRI掃描進行下采樣,每個軸上的下采樣因子為8。各個點代表來自單個受試者的MRI,並根據其原始佇列(NACC、ADNI、AIBL、FHS、LBDSU、NIFD、OASIS或PPMI)著色。b作者展示了來自倒數第二個CNN隱藏層的隱藏層啟用的2DtSNE。各個點對應於測試期間MRI掃描的內部表示,並按佇列標籤著色。c顯示了來自NACC資料集的下采樣MRI掃描的2DtSNE嵌入圖。代表MRI掃描的各個點由參與NACC合作的21個阿爾茨海默病研究中心(ADRC)之一的唯一識別符號著色。d顯示了由ADRCID著色的倒數第二層啟用的dtSNE嵌入。e顯示了來自NACC資料集的下采樣MRI掃描的2DtSNE嵌入圖。此圖中的嵌入與c中的嵌入相同,但根據用於獲取每個MRI的掃描儀制造商(通用電氣(GE)、西門子或飛利浦)進行著色。FNACC資料集中的案例顯示了倒數第二層啟用的2DtSNE圖。嵌入等同於在d中視覺化的嵌入,但現在由用於影象採集的掃描儀制造商著色。g提供了按製造商分類的疾病類別計數的表格。僅包括NACC資料集中的案例。作者提供互資訊評分(MIS)來量化疾病型別和掃描儀制造商之間的相關性。H作者還提供了NACC資料集中按ADRCID分層的疾病類別計數的表格表示。MIS再次被證明可以量化診斷標籤和參與NACC研究的各個中心之間的相關程度。

表2混合模型效能

Nature子刊:用於阿爾茨海默病痴呆評估的多模態深度學習模型

Nature子刊:用於阿爾茨海默病痴呆評估的多模態深度學習模型

圖3。深度學習模型的效能。a,bROC曲線顯示真陽性率與假陽性率,PR曲線顯示陽性預測值與靈敏度,在aNACC測試集和bOASIS資料集上。a和b中的第一行表示僅MRI模型、非成像模型和融合模型(CNN+CatBoost)的效能,這些模型經過訓練可將有NC的病例與沒有NC的病例分類(COGNC任務)。第二行顯示了僅MRI模型、非成像模型和COGDE的融合模型的ROC和PR曲線旨在區分有DE的病例和沒有DE的病例的任務。第三行說明了僅MRI模型、非成像模型和側重於區分AD與nADD的融合模型的效能。對於每條曲線,計算平均AUC。在每個圖中,平均ROC/PR曲線和標準偏差分別顯示為粗線和陰影區域。每個圖中的虛線表示具有隨機效能水平的分類器。c,d融合模型中具有最高平均絕對SHAP值的15個特徵分別用於COG和ADD任務,分別在交叉驗證輪次(n=5)。覆蓋在條形圖上的誤差條以資料的平均值為中心,並擴充套件了+/-一個標準差。對於每項任務,MRI掃描、人口統計資訊、病史、功能評估和神經心理學測試結果都被用作深度學習模型的輸入。c和d中的左圖說明了SHAP值的分佈,右圖顯示了平均絕對SHAP值。c和d中的所有圖均按平均絕對SHAP值的降序排列。e,f為了比較,作者還構建了傳統的機器學習模型,使用深度學習模型所使用的相同特徵集來預測認知狀態和AD狀態,結果分別在e和f中呈現。熱圖顯示了為每個模型獲得的具有最高平均絕對SHAP值的15個特徵。源資料作為源資料檔案提供。

混雜評估

作者使用二維t分佈隨機鄰居嵌入(tSNE)來評估疾病狀態與某些形式的元資料之間是否存在混雜關係。使用這種方法,作者觀察到用於測試僅MRI模型的八個佇列中沒有明顯的後處理MRI嵌入聚類

(圖2a,b)

。在NACC佇列中,作者還沒有觀察到基於個別阿爾茨海默病研究中心(ADRC,圖2c,d)或掃描儀制造商(圖2e,f)的明顯聚類。相關地,儘管CNN隱藏層啟用的tSNE分析確實產生了NACC資料點的聚類(圖2b),鑑於選擇NACC作為作者的模型訓練佇列,這是一個預期的現象。否則,由於特定的ADRC(圖2d)或掃描儀制造商(圖2f),作者發現隱藏層啟用沒有明顯的嵌入聚合。最後,從NACC佇列計算的互資訊評分(MIS)表明特定掃描儀制造商(MIS=0。010,圖2g)和ADRC(MIS=0。065,圖2h)。

深度學習模型效能

作者觀察到,融合模型在一系列臨床診斷任務中為NC、MCI、AD和nADD提供了最準確的認知狀態分類

(表2)。作者發現在NACC測試集(圖3a,第1行)和外部驗證集(OASIS;圖3b)之間,COGNC任務模型效能很強大,如接收者操作特徵(AUC)曲線下的面積分別為0。945[95%置信區間(CI):0。939,0。951]和0。959[CI:0。955,0。963]。精確度-召回(AP)曲線下的面積也觀察到類似的數值,分別為0。946[CI:0。940,0。952]和0。969[CI:0。964,0。974]。AUC和AP效能之間的這種對應關係支援對跨資料集的類不平衡的穩健性。在COG

DE

任務中,也看到了類似的結果,因為融合模型產生了各自的AUC和AP分數,分別為0。971[CI:0。966,0。976]/0。917[CI:0。906,0。928](圖3a,第2行),在NACC資料集中的AUC和AP分別為0。971[CI:0。969,0。973]/0。959[CI:0。957,0。961](圖3b,第2行)。相反,在NACC資料集中,分類效能略有下降,AUC/AP值分別為0。773[CI:0。712,0。834]/0。938[CI:0。918,0。958](圖3a,第3行),在OASIS資料集中為0。773[CI:0。732,0。814]/0。965[CI:0。956,0。974](圖3b,第3行)。

相對於融合模型,作者觀察到在僅MRI模型中跨分類的效能適度下降。對於COG

NC

任務,僅MRI框架產生的AUC和AP得分為0。844[CI:0。832,0。856]/0。830[CI:0。810,0。850](NACC)和0。846[CI:0。840,0。852]/0。890[CI:0。884,0。896](OASIS)。在COG

DE

任務上,模型結果具有可比性,其中僅MRI模型的AUC和AP得分分別為0。869[CI:0。850,0。888]/0。712[CI:0。672,0。752](NACC)和0。858[CI:0。854,0。862]/0。772[CI:0。763,0。781](OASIS)。對於ADD任務,僅MRI模型的結果與融合模型的結果大致相當,分別給出0。766[CI:0。734,0。798]/0。934[CI:0。917,0。951]的AUC和AP分數(NACC)和0。694[CI:0。659,0。729]/0。942[CI:0。931,0。953](OASIS)。

有趣的是,作者注意到非成像模型通常會產生與融合模型和僅MRI模型相似的結果。具體來說,為COG

NC

任務訓練的CatBoost模型給出的AUC和AP值為0。936[CI:0。929,0。943]/0。936[CI:0。930,0。942](NACC),以及0。959[CI:0。957,0。961]/0。972[CI:0。970,0。974](OASIS)。COG

DE

任務的結果依然強勁,AUC/PR為0。962[CI:0。957,0。967]/0。907[0。893,0。921](NACC)和0。971[CI:0。970,0。972]/0。955[CI:0。953,0。957](OASIS)。對於ADD任務,非成像模型的AUC/PR分數分別為0。749[CI:0。691,0。807]/0。935[CI:0。919,0。951](NACC)和0。689[CI:0。663,0。715]/0。947[CI:0。940,0。954](OASIS)。

為了評估各種成像和非成像特徵對分類結果的貢獻,作者在COG(圖3c)和使用融合模型的ADD預測任務(圖3d)中計算了具有最高平均絕對SHAP值的15個特徵。儘管MMSE分數是COG任務的主要判別特徵,但從CNN模型得出的DEMO分數在預測認知狀態方面排名第三。類似地,來自CNN的ALZ分數是解決ADD任務的最顯著特徵。有趣的是,當用各種其他機器學習分類器代替CatBoost模型代替融合模型時,特徵的相對重要性基本保持不變(圖3e,f)。這種一致性表明作者的預測框架對於模型架構的特定選擇是穩健的,而是依賴於一組一致的臨床特徵來實現NC、MCI、AD和nADD類之間的區分。相關地,作者還觀察到非成像和融合模型在各種輸入特徵組合中保持預測效能,顯示了在資訊可用性的差異中操作的靈活性。然而,重要的是,在所有的非影像學變數組合中,增加MRI衍生的DEMO和ALZ分數提高了4路分類效能。

Nature子刊:用於阿爾茨海默病痴呆評估的多模態深度學習模型

圖4。痴呆的神經影像學特徵。a,b基於SHAP值的與結果最相關的大腦區域的圖示。a和b中的第一列顯示了在軸向、冠狀和矢狀平面上定向的模板MRI。在a中,第二、第三和第四列分別顯示了來自CNN第二個卷積塊的輸入特徵的SHAP值,這些值分別在所有患有NC、MCI和痴呆的NACC測試物件中平均。在b中,第二列和第三列分別顯示了所有具有AD和nADD的NACC測試物件的平均SHAP值。c顯示了從NACC測試資料獲得的AD和nADD病例的腦區特異性SHAP值。小提琴圖按每個葉組織,並按平均絕對SHAP值的降序排列。d,e分別與AD和nADD分類有關的大腦區域網路。作者選擇了33個具有代表性的大腦區域進行矢狀區域的圖形分析和視覺化,以及57個區域進行軸向分析。代表大腦區域的節點覆蓋在二維大腦模板上,並根據加權程度確定大小。連線不同節點的線段的顏色表示相關性的符號,線段的粗細表示相關性的大小。必須注意的是,不是所有的節點都可以從矢狀面或軸向面看到。

AD

和非AD痴呆的神經影像學特徵

模型預測的出處是透過CNN模型內隱藏層的畫素化SHAP對映來視覺化的。

然後將SHAP矩陣與每個受試者MRI中的物理位置相關聯,以顯示與從NC到痴呆的每個認知衰退階段有關的明顯的腦區

(圖4a)。這種方法允許神經解剖學風險對映來區分與AD相關的區域與nADD相關的區域(圖4b)。事實上,代表疾病風險的彩色圖直接疊加在源自傳統MRI掃描的解剖圖譜上,有助於深度學習模型的可解釋性。此外,SHAP派生表示的獨特性使作者能夠觀察到特定於每個感興趣的結果的疾病提示區域。

SHAP的一個關鍵特徵是大腦內的單個體素或子區域可以有助於準確預測一個或多個類別標籤。例如,在NC參與者的海馬區SHAP值為負值,但在痴呆症參與者中為正值,這強調了海馬體在記憶功能中的公認作用。此外,在海馬區域內觀察到AD的SHAP值呈陽性,nADD病例的SHAP值呈陰性,表明海馬萎縮與AD相關的病因直接成比例。根據其對分割的大腦區域的重要性排序的SHAP值也進一步證實了海馬的作用及其與痴呆預測的關係,特別是在AD的情況下(圖4c),以及nADD案例。在nADD的情況下,其他大腦區域(如側腦室和額葉)的作用也很明顯。顯然,基於SHAP的網路分析揭示了大腦區域之間的成對關係,這些關係同時有助於指示AD的模式(圖4d)。該分析表明的一組大腦網路也表明AD和nADD之間的結構變化存在顯著差異(圖4e)。

神經病理學驗證

除了將隱藏層SHAP值對映到原始神經影像之外,深度學習預測與神經病理學資料的相關性進一步驗證了作者的建模方法。定性地,

作者觀察到COG任務的高SHAP評分割槽域與屍檢獲得的區域特異性神經病理學評分相關

(圖5a)。

同樣,這些人的區域神經病理學變化的嚴重程度與作者使用Spearman等級相關檢驗從CNN得出的區域認知風險評分顯示出中度到高度的一致性

值得注意的是,最強的相關性似乎發生在受AD病理學影響的區域,例如顳葉、杏仁核、海馬和海馬旁回(圖5b)。使用單向方差分析檢驗,作者也拒絕了半定量神經病理評分組(0-3)之間的DEMO評分沒有顯著差異的零假設,置信度為0。95,包括全球ABC嚴重程度評分Aβ的Thal階段(AscoreF檢驗:F(3,51)=3。665,p

=1。813e-2),Braak和Braak用於神經原纖維纏結(NFT)(BscoreF檢驗:F(3,102)=11。528,p

=1。432e-6)和CERAD神經炎斑塊評分(CscoreF檢驗:F(3,103)=4。924,p

=3。088e-3)(圖5c)。作者使用Tukey’s程式進一步進行了事後測試,以比較DEMO分數的成對組均值,觀察到神經退行性研究結果的最高和最低負擔的個體之間分別有一致的顯著差異。值得注意的是,作者還觀察到ALZ評分隨半定量神經病理學評分的增加趨勢(圖5d)。

Nature子刊:用於阿爾茨海默病痴呆評估的多模態深度學習模型

圖5。神經病理學驗證。作者將模型結果與NACC、ADNI和FHS佇列(n=110)的屍檢參與者的神經病理學嚴重程度的區域ABC評分相關聯。a來自阿爾茨海默病神經影像學倡議(ADNI)資料集的示例案例以矢狀、軸向和冠狀檢視顯示。從第二個卷積塊得出的SHAP值和神經病理ABC評分被對映到屍檢時測量的腦區。從視覺上看,無論從哪個隱藏層得出的SHAP值,在解剖學對映的SHAP值之間都有很高的一致性。在顳葉內觀察到SHAP值和神經原纖維纏結(NFT)評分之間的一致性。b熱圖顯示了來自第二卷積層輸入特徵的群體平均SHAP值與大腦各區域的染色劑特異性ABC分數之間的Spearman相關性。在海馬/副海馬、杏仁核和顳回等幾個眾所周知的受影響區域,SHAP值和神經病理變化之間有很強的正相關關係。c蜂巢圖與上覆的盒須圖表示ABC系統子分數(橫軸)與模型預測的認知分數(縱軸)的分佈。顯示的資料點代表來自ADNI、NACC和FHS的一組參與者,他們的神經病理學報告可從屍檢中獲得。每個符號代表一個研究參與者,方框以中位數為中心並延伸到四分位間距(IQR),而底部和頂部的鬍鬚分別代表第1和第3個四分位數-/+1。5 x IQR。作者將p<0。05表示為*,p<0。001為**,p<0。0001為***,基於事後Tukey檢驗。d顯示神經病理學評分分佈與模型預測AD機率的熱圖。這裡,地圖中的每一列代表一個獨特的個體,其沿水平軸的位置是根據深度學習模型的AD風險的降序函式。覆蓋的陰影圖案代表資料集(ADNI、NACC和FHS),每個人都從中抽取。

Nature子刊:用於阿爾茨海默病痴呆評估的多模態深度學習模型

圖 6。 專家級驗證。a對於COGNC任務(第1行),使用NACC資料集中的隨機病例子集(n = 100),將委員會認證的神經學家(n = 17)的診斷準確性與深度學習模型的效能進行比較。個體臨床醫生的指標與訓練模型的ROC和PR曲線相關。個人臨床醫生的表現由藍色加號表示,平均臨床醫生表現以及誤差條由ROC和PR曲線上的綠色加號表示。平均ROC/PR曲線和標準偏差分別顯示為粗線和陰影區域。還顯示了成對Cohen的kappa統計量的熱圖,以證明臨床醫生佇列中的評分者間一致性。對於COGDE任務(第2行)、ROC、PR和評估者協議圖形以相同的方式與認證的神經科醫生進行了比較。對於這些任務,所有神經科醫生都可以訪問多模態患者資料,包括MRI、人口統計、病史、功能評估和神經心理學測試。相同的資料被用作訓練深度學習模型的輸入。b為了驗證ADD任務,作者將NACC佇列中的痴呆病例的隨機子集(n=50)提供給神經放射科醫師團隊(n=7),他們將AD與其他病因引起的痴呆(nADD)分類。如上所述,醫師佇列的診斷準確性與使用ROC和PR曲線的模型效能進行比較。用於視覺化模型和臨床醫生表現的圖形約定如上文a中所述,並且再次顯示成對的Cohen的kappa值以證明評估者之間的一致性。c從選定的大腦區域平均的第二個卷積層的SHAP值顯示為與神經放射科醫生分配的萎縮分數相對應的圖。橙色和藍色點(以及迴歸線和95%CI)分別代表左右半球。Spearman相關係數和相應的雙尾p值也顯示出來,並證明SHAP評分與臨床醫生指定的區域萎縮嚴重程度之間具有統計學意義的比例。

專家級驗證

最後,為了給作者的建模方法提供臨床基準,招募了神經科醫生和神經放射科醫生對NACC病例的一個子集執行診斷任務。神經科醫生和神經放射科醫生的方法和表現表明不同臨床實踐之間存在差異,使用所有任務的成對kappa(κ)評分評估的評分者間一致性適中。特別是在神經科醫生中,作者觀察到COG

NC

任務的平均κ=0。600(圖6a,第1行)和COG

DE

任務的平均κ=0。601(圖6a,第2行)。在執行ADD任務的神經放射科醫生中,作者發現平均κ=0。292(圖6b)。在NC、MCI、AD和nADD的整體4分類中,作者觀察到融合模型的準確度(平均值:0。558,95%CI:[0。482,0。634])達到了神經科醫生的準確度(平均值:0。565,95%CI:[0。529,0。601])。有趣的是,非成像CatBoost模型(平均值:0。544,95%CI:[0。517,0。571])實現了類似水平的4類準確度,但不是僅MRI模型(平均值:0。412,95%CI:[0。380,0。444])。然而,

僅MRI模型確實在ADD任務中的診斷準確性(平均值:0.692,95%CI:[0.649,0.735])比神經放射科醫生(平均值:0.566,95%CI:[0.516,0.616])有適度的提高

(圖6b)。區域SHAP平均值與臨床分級萎縮嚴重程度之間的統計學顯著相關性表明CNN特徵與廣為人知的痴呆標誌物之間存在聯絡(圖6c)。

討論

在這項工作中,作者提出了一系列機器學習模型,這些模型可以處理多模態臨床資料以準確地對AD進行鑑別診斷。這些框架可以連續實現多個診斷步驟,首先根據整體認知狀態(NC、MCI和DE)對人進行劃分,然後將AD的可能病例與nADD的病例分開。重要的是,作者的模型能夠靈活地組合成像和非成像資料,並且它們的效能在具有多種認知狀態和痴呆亞型的多個數據集中得到了很好的推廣。

作者的融合模型在診斷任務中展示了最高的整體分類準確度,取得的結果與從多個機構招募來完成臨床模擬的神經科醫生相當。值得注意的是,在NACC測試集和OASIS外部驗證集中都觀察到了相似的效能水平。作者的僅MRI模型也超過了執業神經放射科醫生的平均診斷準確性,並在另外6個外部佇列(ADNI、AIBL、FHS、NIFD、PPMI和LBDSU)中保持了相似的效能水平,從而表明診斷能力不偏向於任何單一資料來源。還值得注意的是,DEMO和ALZ分數具有很強的分析重要性,就像用於痴呆診斷的傳統資訊一樣。例如,在ADD任務中,SHAP分析顯示ALZ評分在準確預測疾病狀態方面比標準臨床實踐中使用的關鍵人口統計學和神經心理學測試變數(例如年齡、性別和MMSE評分)具有更大的影響。這些源自CNN的分數在用於其他機器學習分類器時保持相同的重要性水平,這表明在數字健康工作流程中具有廣泛的實用性。

此外,事後分析表明,機器學習模型的效能是建立在痴呆症相關的神經變性的既定模式之上的。網路分析表明AD和nADD人群之間SHAP值的區域分佈不同,這在海馬、杏仁核和顳葉等區域最為明顯。這些區域的SHAP值也與神經放射科醫生的萎縮評級有很強的相關性。儘管最近的工作表明,可解釋的機器學習方法可以識別成像資料中的虛假相關性,作者認為有能力將區域SHAP分佈與解剖學萎縮以及Aβ澱粉樣蛋白、神經纖維纏結和神經元斑塊的半定量評分聯絡起來,使建模結果與死後診斷的金標準相聯絡。更廣泛地說,作者的方法展示了一種將深度學習方法與醫療保健中有效的臨床證據相融合的手段。

作者的工作建立在先前構建痴呆診斷自動化系統的努力之上。此前,作者開發並在外部驗證了一種可解釋的深度學習方法,使用MRI和臨床變數的多模態輸入對AD進行分類。儘管這種方法提供了一個新穎的框架,但它依賴於將個體區分為二元結果的人為場景,這簡化了現實世界環境的複雜性。作者目前的工作透過模仿記憶診所設定並考慮整個認知範圍內的案例來擴充套件這個框架。儘管許多團體已經接受了使用深度學習進行nADD診斷的挑戰,甚至這些任務也被構建為疾病亞型之間的簡單二元分類。鑑於醫學實踐很少減少到兩種病理之間的選擇,在深度學習模型可以被吹捧為臨床決策支援的輔助工具之前,需要能夠更充分地複製專家鑑別診斷過程的整合模型。作者的結果展示了一種使用深度學習擴充套件診斷任務範圍的策略,同時還確保自動化系統的預測仍然基於已建立的醫學知識。

有趣的是,應該注意的是,僅非成像模型的效能就接近了融合模型的效能。然而,包含神經影像資料對於透過臨床標準(例如,與死後神經病理學報告的互相關)驗證作者的建模結果至關重要。這種驗證性資料來源不容易與非成像模型同化,因此限制了將其效能獨立地建立在非計算標準中的能力。因此,作者並沒有將神經影像學對診斷準確性的適度貢獻視為一個缺點,而是認為作者的結果提出了一條道路,即平衡對透明度的要求和使用常規收集的臨床資料建立模型的需要。像作者這樣的模型可以在資源豐富的領域得到驗證,在這些領域,先進的神經影像學有助於可解釋性。由於醫生可能難以將醫療決策委託給人工智慧中的黑盒模型,將機器學習結果建立在已建立的痴呆神經科學中可能有助於促進臨床應用。儘管如此,作者注意到非成像模型可能最適合在全科醫生(GP)和資源匱乏的環境中部署。

在功能上,作者還認為,作者的方法提供的輸入靈活性是痴呆症多個階段臨床採用的必要前提。鑑於亞組分析表明對訓練資料的多種組合(即人口統計、臨床變數和神經心理學測試)具有顯著的4種診斷能力,作者的整體框架可能適用於臨床實踐的許多變化,而無需提供者顯著改變他們的典型工作流程。例如,全科醫生經常在有或沒有直接訂購MRI測試的情況下進行認知篩查,而記憶專家通常會擴大測試範圍,包括成像和高階神經心理學測試。這種沿著臨床護理連續體整合的能力,從初級護理到三級護理,使作者的深度學習解決方案能夠透過提供篩查和下游診斷的工具來解決綜合痴呆症護理中的兩級問題。

作者的研究有一些侷限性。首先,在混合性痴呆的情況下,只要出現這種情況,本模型就會預設診斷為AD,從而將單一診斷歸因於患有多種合併症的參與者。鑑於混合性痴呆症相當普遍,未來的工作可能包括多標籤分類的可能性,該分類可能允許識別同一個體內同時發生的痴呆症狀況(例如,LBD和AD、VD和AD)。作者的佇列也沒有包含任何確診的非典型AD病例,估計影響大約6%的老年發病病例和三分之一的早發性疾病患者。還必須注意,MCI本身就是一個廣泛的類別,包括可能會或可能不會發展為痴呆症的人。當在許多佇列中獲得相關資料時,未來的調查可能包括記憶刪除和非記憶刪除的MCI受試者,以瞭解患有前驅AD的人的不同特徵。作者還承認,研究資料主要來自主要關注AD的流行病學研究,並且最佳化這種疾病識別的變數實際上可能有損於某些nADD的準確診斷。例如,作者注意到融合模型在區分AD和非帕金森病痴呆症(如FTD和VD)方面的表現略低於僅有MRI的模型。作者推測某些形式的神經心理學測試,例如MMSE,可能會使預測偏向於更常見的痴呆形式,例如AD。儘管作者使用來自基於人群的佇列(即FHS)的資料驗證了各種模型,但多模式分析框架有可能降低不太常見的痴呆症的診斷準確性。未來的建模工作可能會透過包括針對這些疾病的診斷量身定製的額外臨床資料來最佳化這些疾病的識別:例如,包括運動檢查以評估帕金森病、血管損傷的FLAIR影象或LBD的認知波動和睡眠行為異常。最後,雖然作者已經將模型與個別神經科醫生和神經放射科醫生的表現進行了比較,但未來的研究可能會考慮與合作臨床醫生團隊的共識審查進行比較。

總之,

作者的可解釋的多模態深度學習框架能夠從常規收集的臨床資料中獲得高準確度的痴呆狀態特徵,這與獨立佇列的資料、神經病理學結果和專家驅動的評估進行了驗證。此外,作者的方法提供了一種解決方案,可用於不同的實踐型別,從全科醫生到三級護理中心的專業記憶診所。作者設想在記憶診所進行一項前瞻性觀察研究,以確認作者的模型能夠在與參與痴呆護理的臨床專家相同的水平上評估痴呆狀態

如果在這種頭對頭比較中得到證實,作者的方法有可能擴大機器學習的範圍以進行AD檢測和管理,並最終成為醫療保健從業者的輔助性篩選工具。

方法

研究人群

該研究免於當地機構審查委員會的批准,因為所有神經影像學和臨床資料都是應外部研究中心的要求以去識別格式獲得的,這些研究中心確保遵守道德準則並獲得所有參與者的知情同意。沒有向參與者提供任何補償。

作者收集了來自8個佇列(表1)的人口統計學、病史、神經心理學測試和功能評估以及磁共振成像(MRI)掃描,在評估納入標準後共有8916名參與者

認知正常(NC)4550人,輕度認知障礙(MCI)2412人,阿爾茨海默病痴呆(AD)1606人,其他原因痴呆348人。這八個佇列包括阿爾茨海默病神經影像學倡議(ADNI)資料集(n=

1821)、國家阿爾茨海默病協調中心(NACC)資料集(n=

4822),額顳葉變性神經影像學倡議(NIFD)資料集(n

=253),帕金森病進展標誌物倡議(PPMI)資料集(n

=198),澳大利亞成像、生物標誌物和生活方式旗艦老化研究(AIBL)資料集(n

=661), 開放存取系列成像研究-3(OASIS)資料集(n

=666),弗雷明漢心臟研究(FHS)資料集(n

=313),以及由斯坦福大學路易體痴呆卓越中心(LBDSU)維護的內部資料(n

=182)。

作者根據臨床診斷對參與者進行了標記。根據每個研究佇列提供的臨床診斷對受試者進行標記。作者在沒有進一步考慮潛在病因的情況下保留MCI診斷,以模擬真實的MCI表現譜。對於有記錄的痴呆和阿爾茨海默病痴呆的初步診斷的任何受試者,無論是否存在其他痴呆合併症,都會分配AD標籤。患有痴呆但未確診AD診斷的受試者被標記為nADD。值得注意的是,作者選擇將所有nADD子型別合併到一個單一標籤中,因為在任意數量的預測任務中細分模型訓練存在降低整體診斷準確性的風險(AD,n

=1606)、路易體痴呆(LBD,n

=63)、額顳葉痴呆(FTD,n

=193)、血管性痴呆(VD,n

=21)和其他原因的痴呆(n

=237)。

資料納入標準

每個佇列的受試者如果在正式記錄的診斷後6個月內至少有一次T1加權容積的MRI掃描,就有資格納入研究。作者還排除了所有少於60個切片的MRI掃描。對於在6個月內有多個MRI和診斷記錄的受試者,作者選擇了最接近的神經影像學和診斷標籤配對

因此,每個受試者只使用了一個MRI。對於NACC和OASIS佇列,作者進一步查詢了與人口統計、既往病史、神經心理學測試和功能評估相關的所有可用變數。作者沒有利用非影像學特徵的可用性來排除這些佇列中的個體,並對任何缺失的資料欄位使用K-近鄰歸納法。

MRI

協調和預處理

為了協調群組之間的神經影像資料,作者開發了一系列預處理操作,以相同的方式應用於作者研究中使用的所有MRI。該管道大致包括註冊到標準MNI-152模板的兩個階段。作者將階段1描述如下:

重新配置掃描軸以匹配MNI-152空間的標準方向。

使用自動閾值技術,在原始MRI中識別出僅包含腦組織區域的3D感興趣體積。

感興趣的體積被剝去顱骨以分離大腦畫素。

進行了顱骨剝離大腦到標準MNI-152模板的初步線性配準。這一步近似於從原始MRI空間到MNI-152空間的線性變換矩陣。

第2階段旨在微調線性配準的質量並將大腦分割成離散區域。這些目標是透過以下步驟實現的:

從第1階段的線性配準計算的變換矩陣應用於原始MRI掃描。

在應用從感興趣的初始體積計算的線性配準後,再次進行顱骨剝離,以將腦組織與完全配準的MRI掃描分離。

再次應用線性配准以減輕對MNI-152空間的任何錯位。

應用偏置場校正來解釋磁場不均勻性。

透過將Hammersmith成人大腦圖譜的非線性扭曲應用於後處理的MRI來分割大腦。

作者的MRI處理流程的所有步驟都是使用FMRIB軟體庫v6。0 (FSL) (Analysis Group,Oxford University)進行的。整個預處理工作流程的靈感來自英國生物銀行的協調協議(https://git。fmrib。ox。ac。uk/falmagro/UK_biobank_pipeline_v_1)。作者在每次掃描時手動檢查MRI管道的結果,以過濾掉質量差或處理偽影嚴重的病例。

MRI

協調性評估

作者透過使用t分佈隨機鄰域嵌入(tSNE)演算法對資料進行聚類,進一步評估了作者的影象協調流程。

作者執行此程式是為了確保(i)所有模型的輸入資料沒有站點、掃描器和佇列特定的偏差,以及(ii)預測模型無法學習此類偏差。為了完成(i),作者使用來自後處理的8x下采樣MRI掃描的畫素值執行tSNE。對於(ii),作者使用從為作者的預測任務開發的卷積神經網路(CNN)的倒數第二層派生的隱藏層啟用來執行tSNE(參見下面的“模型開發”)。對於NACC資料集,作者評估了基於特定阿爾茨海默病研究中心(ADRC)和掃描儀制造商(即西門子、飛利浦和通用電氣)的下采樣MRI和隱藏層啟用的聚類。作者還根據特定佇列(即NACC、ADNI、FHS等)使用整個資料集中使用所有可用的MRI,重複tSNE分析。作者還計算了NACC資料集中ADRC ID、掃描器品牌和診斷標籤(NC、MCI、AD和nADD)之間的互資訊分數(MIS)。該指標計算一組公共資料上兩組標籤之間的相似程度。與tSNE分析一樣,MIS計算幫助作者排除了MRI資料中存在的混雜部位和掃描器特定偏差。

非成像資料的協調

為了協調資料集中的非成像變數,作者首先調查了所有八個佇列中的可用臨床資料。作者專門檢查了與人口統計、既往病史、神經心理學測試結果和功能評估相關的資訊。在一系列臨床特徵中,作者發現NACC和OASIS資料集中的資訊可用性最高。此外,鑑於NACC和OASIS佇列遵循統一資料集(UDS)指南,作者能夠利用UDS 2。0和3。0版本之間的有效轉換量表,將所有認知測量結果統一到一個共同的量表上。

預測框架概述

作者開發了預測模型來滿足兩個主要目標。

第一個是作者指定的COG任務,是根據神經影像學來預測每個參與者的整體認知障礙程度(NC、MCI或痴呆[DE])

為了實現這一目標,作者預測了一個連續的0-2分數(NC:0,MCI:1,DE:2),作者將其稱為痴呆模型(DEMO)分數。值得注意的是,COG任務也可以被視為由三個獨立的子任務組成:(i)將NC與MCI和DE分離(COG

NC

任務),(ii)將MCI與NC和DE分離(COG

MCI

任務),以及(iii)DE與NC和MCI的分離(COG

DE

任務)。

第二個目標,作者指定為ADD任務,是預測參與者是否診斷為AD或nADD,因為他們已經在COG任務中被預測為DE。

為了便於參考,作者將一個人進行AD診斷的機率表示為ALZheimer(ALZ)評分。在依次完成COG和ADD任務之後,作者能夠成功地將AD參與者與NC、MCI和nADD受試者分開。

僅MRI模型

作者使用後處理的體積MRI作為輸入並訓練了一個CNN模型

為了在COG和ADD任務之間傳輸資訊,作者訓練了一組通用的卷積塊作為通用特徵提取器。然後透過將各自的全連線層附加到共享的卷積主幹上來分別計算DEMO和ALZ分數。作者將COG任務作為一個迴歸問題,使用DEMO分數和現有認知標籤之間的均方誤差損失。作者使用參考AD標籤和ALZ分數之間的二元交叉熵損失,將AD任務作為一個分類問題來進行。只用MRI的模型是用NACC資料集訓練的,並在所有其他佇列中進行了驗證。為了便於表述結果,作者彙集了所有外部佇列(ADNI、AIBL、FHS、LBDSU、NIFD、OASIS和PPMI)的資料,並計算了所有模型效能指標。

非成像模型

除了僅MRI模型外,作者還使用NACC和OASIS資料集之間共享的所有可用非成像變數開發了一系列傳統機器學習分類器。

作者首先彙編了人口統計學、既往病史、神經心理學測試結果和功能評估的向量。作者透過它們的均值和標準差以及one-hot編碼的分類變數來縮放連續變數。然後將這些非成像資料向量作為輸入傳遞給CatBoost、XGBoost、隨機森林、決策樹、多層感知器、支援向量機和K-最近鄰演算法。與僅MRI模型一樣,透過分別計算DEMO和ALZ分數,依次訓練每個非成像模型以完成COG和ADD任務。作者最終發現,CatBoost模型在每個接收器操作特徵曲線下面積(AUC)和精確召回曲線下面積(AP)指標上產生了最佳的整體效能。因此,作者選擇該演算法作為後續分析的基礎。

為了模擬臨床神經病學環境,作者使用常規收集用於痴呆診斷的資料開發了一個非成像模型。雖然遺傳狀態(APOEε4等位基因)或腦脊液測量值等某些特徵具有很大的預測價值,但作者故意不將它們包括在模型開發中,因為它們不是痴呆症標準臨床檢查的一部分。

為了推斷非影像資料集的完整性影響模型效能的程度,作者使用臨床資料變數的不同組合進行了多次實驗。將以下組合輸入CatBoost演算法進行比較:(1)單獨的人口統計學特徵,(2)人口統計學特徵和神經心理學測試,(3)人口統計學特徵和功能評估,(4)人口統計學特徵和既往病史,(5)人口學特徵、神經心理學測試和功能評估,(6)人口學特徵、神經心理學測試和既往病史,以及(7)人口學特徵、神經心理學測試、既往病史和功能評估。

融合模型

為了最好地利用可用資料的各個方面,作者將MRI和非成像特徵結合到一個通用的“融合”模型中,用於COG和ADD任務

資料來源的組合是透過將來自僅MRI模型的DEMO和ALZ評分連線到臨床變數列表來完成的。然後將得到的向量作為輸入提供給如上所述的傳統機器學習分類器。基於AUC和AP指標,作者最終發現與CatBoost模型相關聯的CNN在區分不同認知類別方面的效能最高;因此,

CNN和CatBoost模型的組合被用作所有進一步實驗的最終融合模型

與使用非成像模型的程式類似,作者研究了MRI特徵如何與人口統計學、既往病史、神經心理學和功能評估變數的不同子集互動。與非影像學模型一樣,鑑於其他佇列的非影像學資料有限,融合模型的開發和驗證只限於NACC和OASIS。

訓練策略和資料拆分

作者使用交叉驗證在NACC資料集上訓練了所有模型

NACC被隨機分成5個大小相等的倍數,NC、MCI、AD和nADD病例的比例恆定。作者在5折中的3折上訓練模型,並分別使用剩餘的兩折進行驗證和測試。每個調整後的模型還在外部資料集中的全部可用案例上進行了測試。所有模型的效能指標均報告為五次交叉驗證的平均值以及標準差和95%置信區間。在培訓之前,作者還在NACC中預留了兩個專門的佇列,用於神經病理學驗證和與臨床醫生的正面比較。在前一種情況下,作者確定了74名受試者,他們在MRI掃描後的2年內可以獲得屍檢神經病理學資料。在後者中,作者隨機選擇了100個年齡和性別匹配的患者組(每個診斷類別25個),為臨床專家提供模擬病例。

SHAP分析

SHAP是一個用於解釋機器學習模型的統一框架,它透過對預測任務的所有可能的邊際貢獻進行平均來估計每個特徵的貢獻。雖然最初是為博弈論應用而開發的48,但這種方法可用於基於深度學習的計算機視覺,將每個影象體素或網路節點視為一個獨特的特徵。

透過將SHAP值分配給特定的體素或將內部網路節點對映到本地成像空間,可以在輸入的MRI上構建熱圖。

儘管存在多種估計SHAP值的方法,但作者實現了DeepLIFT演算法的修改版本,該演算法透過估計反向傳播期間模型啟用相對於標準參考的差異來計算SHAP。作者透過整合訓練MRI的 “背景 ”來建立這個參考,以估計整個資料集的預期值。對於每個測試例子,然後計算整個CNN模型以及特定內部層的SHAP值。兩組SHAP值分別為COG和ADD任務進行了估計。對整個模型計算出的SHAP值直接對映到本地MRI畫素,而對內部層計算出的SHAP值則透過近鄰插值轉換到本地成像空間。

網路分析

作者試圖對SHAP值進行逐個區域的圖形分析,以確定是否可以證明ADD和nADD群體的一致差異。為了視覺化不同大腦區域的SHAP分數的關係,作者建立了大腦內區域間SHAP相關性的圖形表示。作者透過根據它們在登記MRI中的位置對體素SHAP值進行平均來得出特定區域的分數。隨後,作者構建了非迴圈圖,其中節點被定義為特定的大腦區域,邊緣被定義為由Spearman等級相關和Pearson相關係數分別測量的區域間相關性。為了便於視覺化和傳達結構資訊,作者手動將節點與大腦的放射投影對齊。

一旦計算出每對節點之間的相關值,作者就過濾掉p值大於0。05的邊,並根據絕對相關值對剩餘邊進行排序。作者僅使用頂部N條邊(N

=100用於矢狀檢視,N

=200用於軸向檢視)作圖。作者用顏色來表示相關性的符號,用粗細來表示相關性的大小。

神經病理學驗證

神經病理學評估被認為是確認神經退行性疾病的存在和嚴重程度的金標準。作者透過比較模型得出的分數的空間分佈與來自NACC、FHS和ADNI研究佇列的死後神經病理資料來驗證模型識別痴呆症高風險區域的能力,這些資料來自美國國家老齡化研究所阿爾茨海默氏協會的AD神經病理評估指南。來自NACC(n = 74)、ADNI(n = 25)和FHS(n = 11)的110名參與者符合研究納入標準,在死亡後2年內進行了MRI掃描,並有神經病理學資料,被納入神經病理學驗證。資料按照美國國家老齡化研究所制定的NACC第10版神經病理學資料表格的格式進行統一。AD的神經病理病變(即澱粉樣β沉積(Aβ)、神經纖維纏結(NFTs)和神經元斑塊(NPs))在內丘、海馬、額葉、顳葉、頂葉和枕葉皮層進行了評估。這些區域是基於為AD的標準化神經病理學評估而提出的,各種病變的嚴重程度被分為四個半定量的分數類別(0=無,1=輕度,2=中度,3=嚴重)。根據NIA-AA協議,神經病理變化的嚴重程度採用全球 “ABC ”評分,其中包括Thal相法對澱粉樣β沉積的組織病理學評估:(A),神經纖維纏結的分期(B)銀基組織化學,或Phospho-tau免疫組織化學,以及神經纖維斑塊的評分(C)。Spearman‘s rank correlation被用來將DEMO得分預測與A、B、C得分相關聯,方差分析和Tukey’s檢驗被用來評估DEMO平均得分在不同級別的得分類別中的差異。最後,來自ADNI(n = 25)和FHS(n = 11)的參與者的一個子集有區域半定量的Aβ、NFT和NP得分,這也被用來驗證模型的預測。

專家級驗證

作者試圖用參與照顧痴呆症患者的臨床醫生的診斷能力來測試模型預測。

作者招募了一批國際執業的神經科醫生和神經放射科醫生,使用NACC病例的子集參與模擬診斷任務

(見上文 “訓練策略和資料分割”)。向神經科醫生提供了100個病例,其中包括成像資料(T1加權腦MRI掃描)和非成像資料(人口統計學、病史、神經心理學測試和功能評估),並要求他們提供NC、MCI、AD和nADD的診斷印象。值得注意的是,鑑於作者的框架只對內部確定為痴呆的病人進行預測,該模型沒有直接與神經科醫生進行ADD任務的比較。由於這種計算上的預選,與必須對NC、MCI、AD和nADD進行鑑別診斷的神經科醫生進行一致的人群比較是不可行的。神經放射學家獲得了50個已知DE病例的成像資料(T1加權腦MRI掃描)、年齡和性別,然後要求他們提供AD或nADD的診斷印象。對於每個病例,神經放射學專家還回答了一份問卷,對大腦每個亞區的萎縮程度進行評分,評分標準為0到4,數值越高表示萎縮程度越大。對於這兩組臨床醫生,作者還使用Cohen‘s kappa(κ)計算了註釋者之間的一致性。此外,為了將機器學習模型與神經心理學評估進行比較,作者使用NACC資料集中所有可能的神經心理學測試分數的整數分界點進行了COGNC、COGDE和ADD任務。按照這種方法,作者對二元分類進行了簡單的閾值處理。

效能指標

作者透過計算模型執行的平均值和標準差來展示效能。作者基於對NACC測試資料以及其他資料集的模型預測生成了接收者操作特徵(ROC)和精確召回(PR)曲線。對於每條ROC和PR曲線,作者還計算了曲線下面積(AUC&AP)值。此外,作者計算了每組模型預測的敏感性、特異性、F1分數和Matthews相關係數。F1分數考慮了測試的精度和召回率,而MCC是對二進位制分類器不同大小的資料集類的質量的平衡度量。作者還使用Cohen的kappa(κ)計算了註釋者間一致性,即兩位專家就診斷達成一致的次數之比。

統計分析

作者分別對連續變數和分類變數使用單向方差分析檢驗和χ2檢驗來評估研究佇列中NC、MCI、AD和nADD組之間人口特徵差異的總體水平。為了驗證CNN模型,作者評估了AD神經病理學病變(即澱粉樣蛋白β沉積物(Aβ)、神經原纖維纏結(NFT)和神經炎斑塊(NPs))的半定量神經病理學評分的存在和嚴重程度是否反映CNN模型預測的DEMO分數。作者根據A、B和C評分對病變進行分層,並使用Spearman等級相關性來評估它們與DEMO評分的關係。接下來使用單向方差分析,作者評估了A、B和C分數的不同評分類別的平均DEMO分數的差異。作者使用Tukey-Kramer檢驗來確定評分類別(0-3)水平之間平均DEMO分數的成對統計顯著差異。同樣,為了分析SHAP值與已知的神經退行性疾病標誌物之間的對應關係,作者將SHAP與放射科醫生對萎縮的印象相關聯。利用來自每個參與者的分割圖,作者計算了50個給神經放射科醫師的測試案例中的每一個的區域SHAP平均值,臨床醫生分配了0-4個區域萎縮量表。作者用雙尾計算皮爾遜相關係數為了分析SHAP值與已知的神經退行性疾病標誌物之間的對應關係,作者將SHAP與放射科醫生對萎縮的印象相關聯。利用來自每個參與者的分割圖,作者計算了50個給神經放射科醫師的測試案例中的每一個的區域SHAP平均值,臨床醫生分配了0-4個區域萎縮量表。作者用雙尾計算皮爾遜相關係數為了分析SHAP值與已知的神經退行性疾病標誌物之間的對應關係,作者將SHAP與放射科醫生對萎縮的印象相關聯。利用來自每個參與者的分割圖,作者計算了50個給神經放射科醫師的測試案例中的每一個的區域SHAP平均值,臨床醫生分配了0-4個區域萎縮量表。作者用雙尾計算皮爾遜相關係數p值表示不相關係統產生Pearson相關係數的機率與已知與AD病理學有關的神經解剖區域中的觀察值一樣極端。所有統計分析均在0。05的顯著性水平上進行。模型效能的置信區間是透過假設AUC和AP值在交叉驗證實驗中的正態分佈來計算的,該實驗使用具有4個自由度的t-student分佈。

計算硬體和軟體

作者在配備Intel i9 14核3。3GHz處理器和4個NVIDIA RTX 2080Ti GPU的計算工作站上處理了所有MRI和非成像資料。Python(版本3。7。7)用於軟體開發。每個深度學習模型都是使用PyTorch(1。5。1版)開發的,繪圖是使用Python庫matplotlib(3。1。1版)生成的,numpy(1。18。1版)用於向量化數值計算。其他用於支援資料分析的Python庫包括pandas(版本1。0。3)、scipy(版本1。3。1)、tensorflow(版本1。14。0)、tensorboardX(版本1。9)、torchvision(版本0。6)和scikit-learn(版本0。22。1)。使用單個2080TiGPU,訓練深度學習模型的平均執行時間為10小時,推理任務耗時不到一分鐘。所有臨床醫生均使用3DSlicer(版本4。10。2)檢查MRI(https://www。slicer。org/)並在REDCap(版本11。1。3)中記錄印象。此外,使用SAS(9。4版)完成了神經病理學分析的統計資料。

參考文獻:Multimodal deep learning for Alzheimer’s disease dementia assessment