精品久久久久久中文字幕,狠狠干夜夜操,高h纯肉无码视频在线观看,日韩欧美成人一区二区三区,日本三级电影精品五区

Jul 20, 2020

醫(yī)學(xué)模型深度學(xué)習(xí)訓(xùn)練的挑戰(zhàn)

在現(xiàn)實(shí)世界中,我們看到的健康人比患病的人要多得多,這也反映在醫(yī)學(xué)數(shù)據(jù)集中。健康和患病類(lèi)別的例子數(shù)量并不平均。這反映了疾病在現(xiàn)實(shí)世界中的頻率。在醫(yī)療數(shù)據(jù)集和信用卡欺詐數(shù)據(jù)集中,你可能會(huì)看到正常樣本的數(shù)量是異常樣本的一百倍。

作者|Rishiraj Acharya 編譯|VK 來(lái)源|Medium

在醫(yī)學(xué)數(shù)據(jù)集的訓(xùn)練算法期間面臨的許多問(wèn)題中,這三個(gè)最常見(jiàn):

  1. 類(lèi)別不均衡
  2. 多任務(wù)
  3. 數(shù)據(jù)集大小

對(duì)于這些問(wèn)題,我將分享一些解決問(wèn)題的技術(shù)。

類(lèi)別不均衡挑戰(zhàn)

在現(xiàn)實(shí)世界中,我們看到的健康人比患病的人要多得多,這也反映在醫(yī)學(xué)數(shù)據(jù)集中。健康和患病類(lèi)別的例子數(shù)量并不平均。這反映了疾病在現(xiàn)實(shí)世界中的頻率。在醫(yī)療數(shù)據(jù)集和信用卡欺詐數(shù)據(jù)集中,你可能會(huì)看到正常樣本的數(shù)量是異常樣本的一百倍。

結(jié)果,很容易被誤認(rèn)為是模型表現(xiàn)出色,而實(shí)際上卻并非如此。如果使用accuracy_score準(zhǔn)確度這樣的簡(jiǎn)單度量,就會(huì)發(fā)生這種情況。準(zhǔn)確度對(duì)于這類(lèi)數(shù)據(jù)集來(lái)說(shuō)不是一個(gè)很好的度量標(biāo)準(zhǔn),因?yàn)闃?biāo)簽嚴(yán)重傾斜,所以一個(gè)只輸出正常標(biāo)簽的神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率甚至還能略高于90%。

解決方案:

我們可以定義更有用的指標(biāo),例如F1度量或"精確度/召回率"。精度定義為"真正例個(gè)數(shù)/(真正例個(gè)數(shù)+假正例個(gè)數(shù))"。假正例很多時(shí)這是一個(gè)很好的度量。另一方面,召回率定義為"真正例個(gè)數(shù)/(真正例個(gè)數(shù)+假反例個(gè)數(shù))"。當(dāng)假反例本很多時(shí)這是一個(gè)很好的度量。醫(yī)療領(lǐng)域的大多數(shù)模型就是這種情況。但是,我們經(jīng)常需要同時(shí)考慮假正例個(gè)數(shù)和假反例個(gè)數(shù),這就是F1度量的功能。它在精確度(Precision)和召回率(Recall)之間取得均衡,由公式2 * ((Precision*Recall) / (Precision+Recall))給出。

處理類(lèi)不均衡的另一種流行技術(shù)是"重采樣"。這是從多數(shù)類(lèi)(樣本過(guò)多的那一類(lèi))中刪除示例(稱(chēng)為欠采樣)或在少數(shù)類(lèi)中添加示例(稱(chēng)為過(guò)采樣)以在這兩個(gè)類(lèi)之間取得均衡的行為。盡管它們可以通過(guò)使用復(fù)雜的重采樣技術(shù)來(lái)解決,但它們具有自己的缺點(diǎn),如信息丟失和過(guò)擬合。

多任務(wù)挑戰(zhàn)

在現(xiàn)實(shí)世界中,通常僅預(yù)測(cè)健康或患病是不夠的。我們經(jīng)常需要將醫(yī)療數(shù)據(jù)分為多個(gè)類(lèi)別或標(biāo)簽。例如,僅從心律中檢測(cè)出心律失常并沒(méi)有那么有市場(chǎng),對(duì)患者進(jìn)行分析判斷得到哪種心律失常更有價(jià)值。例如病狀可能是房顫,室上性心動(dòng)過(guò)速或任何其他類(lèi)型。

從理論上講,可以為需要分類(lèi)的每個(gè)標(biāo)簽訓(xùn)練單獨(dú)的神經(jīng)網(wǎng)絡(luò)模型,但是這對(duì)于寫(xiě)代碼來(lái)說(shuō)非常不切實(shí)際。如果我們可以將所有這些分類(lèi)模型組合到一個(gè)返回多個(gè)預(yù)測(cè)的單個(gè)深度神經(jīng)網(wǎng)絡(luò)中,就比較有價(jià)值。

解決方案:

我們使用一種稱(chēng)為"多類(lèi)別分類(lèi)"或"多標(biāo)簽分類(lèi)"的方法來(lái)應(yīng)對(duì)這一挑戰(zhàn),它們之間略有不同。在多類(lèi)別中,數(shù)據(jù)樣本的類(lèi)別是互斥的,而在多標(biāo)簽中,數(shù)據(jù)樣本可以屬于多個(gè)類(lèi)別。在醫(yī)學(xué)領(lǐng)域,我們通常使用多標(biāo)簽分類(lèi),因?yàn)槿绻颊弑辉\斷為肺不張(肺的膨脹不全),則并不意味著他/她就不會(huì)有心臟肥大。我們將模型最后一層的分?jǐn)?shù)再傳遞給Sigmoid激活函數(shù)。這會(huì)把最后一層的每個(gè)分?jǐn)?shù)轉(zhuǎn)換為0到1之間的值,而與其他分?jǐn)?shù)無(wú)關(guān)。

對(duì)于多標(biāo)簽分類(lèi),我們選擇的損失函數(shù)變?yōu)閎inary_crossentropy,其中由于我們使用了Sigmoid激活函數(shù),因此每個(gè)標(biāo)簽都被視為獨(dú)立的伯努利分布。在需要多類(lèi)的情況下,可以用損失函數(shù)設(shè)置為categorical_crossentropy的softmax激活函數(shù)來(lái)替換Sigmoid激活函數(shù)。

數(shù)據(jù)集大小挑戰(zhàn)

處理醫(yī)學(xué)數(shù)據(jù)集的主要挑戰(zhàn)是這些數(shù)據(jù)集的大小。大型訓(xùn)練數(shù)據(jù)除了具有良好的體系結(jié)構(gòu)外,還對(duì)模型的性能起著重要的作用,并且可用于疾病的患者數(shù)據(jù)數(shù)量往往不夠。低數(shù)據(jù)集大小是導(dǎo)致高偏差和高方差的主要原因。這導(dǎo)致模型的推廣和優(yōu)化困難。

解決方案:

為了解決模型優(yōu)化的困難,我們使用一種稱(chēng)為"遷移學(xué)習(xí)"的方法,其中我們使用從相關(guān)網(wǎng)絡(luò)較低層中學(xué)習(xí)來(lái)訓(xùn)練較高層,而無(wú)需它們從頭開(kāi)始學(xué)習(xí)。由于先前的訓(xùn)練,較低的圖層可以用作良好的特征提取器,因此我們可以根據(jù)數(shù)據(jù)集對(duì)其進(jìn)行微調(diào)。該技術(shù)優(yōu)化速度更快,并減少了訓(xùn)練新模型所需的數(shù)據(jù)量。

為了解決模型泛化的困難,我們使用一種稱(chēng)為"數(shù)據(jù)增強(qiáng)"的技術(shù),將數(shù)據(jù)提供給模型之前,不是復(fù)制相同的示例,而是對(duì)示例進(jìn)行一些隨機(jī)轉(zhuǎn)換。這樣,我們可以使模型對(duì)于大小或亮度等微小變化保持不變。諸如水平或垂直翻轉(zhuǎn)圖像,更改圖像的亮度或?qū)Ρ榷?,將圖像旋轉(zhuǎn)或縮放到一定程度之類(lèi)的做法都有助于數(shù)據(jù)擴(kuò)充。此技術(shù)在小型數(shù)據(jù)集中避免過(guò)度擬合非常有用。


作者:Pans
鏈接:https://juejin.im/post/5ec2632b518825213940eb9e
來(lái)源:掘金
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。


聯(lián)系我們



寬泛科技專(zhuān)注為人工智能、邊緣計(jì)算、影視后期、動(dòng)漫設(shè)計(jì)、商務(wù)應(yīng)用等領(lǐng)域,

提供基于人臉識(shí)別、深度學(xué)習(xí)、視覺(jué)計(jì)算、VR/AR/MR、桌面虛擬化、

數(shù)據(jù)存儲(chǔ)及數(shù)據(jù)可視化、視訊會(huì)議等信息化解決方案及服務(wù)。

如果您有合作需求或?qū)氋F建議,歡迎來(lái)信。

郵箱:hezuo@kuanfans.com

合作熱線(xiàn):(021) 5415 5559