《生物醫(yī)學數(shù)據(jù)挖掘-數(shù)據(jù)的采集和組織課件》由會員分享,可在線閱讀,更多相關(guān)《生物醫(yī)學數(shù)據(jù)挖掘-數(shù)據(jù)的采集和組織課件(31頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,生物醫(yī)學數(shù)據(jù)挖掘,Biomedical Data Mining,生物醫(yī)學數(shù)據(jù)挖掘Biomedical Data Minin,2,回顧,第一章 概論,一、什么是數(shù)據(jù)挖掘,二、數(shù)據(jù)挖掘的過程,三、數(shù)據(jù)挖掘方法的分類,預(yù)測型,描述型,2回顧第一章 概論,3,第一章 概論,一、什么是數(shù)據(jù)挖掘,二、數(shù)據(jù)挖掘的過程,三、數(shù)據(jù)挖掘方法的分類,四、數(shù)據(jù)挖掘性能評價,評價準則,樣本的組織,預(yù)測型模型的性能評價,描述型模型的性能評價,3第一章
2、 概論一、什么是數(shù)據(jù)挖掘,4,評價準則:結(jié)果或模型,準確性,可理解性,性能,數(shù)據(jù)的噪聲,四、數(shù)據(jù)挖掘性能評價,4評價準則:結(jié)果或模型四、數(shù)據(jù)挖掘性能評價,5,樣本的組織,所有樣本屬性已知,兩類樣本:相互獨立,學習樣本,/,訓練樣本集:規(guī)律的總結(jié),測試樣本集:評價、檢驗,四、數(shù)據(jù)挖掘性能評價,5樣本的組織四、數(shù)據(jù)挖掘性能評價,6,兩類樣本的分組,6兩類樣本的分組,7,隨機分組法:,通常:訓練集,(2/3),,測試集,(1/3),兩類樣本的分組,模型,評估,7隨機分組法:兩類樣本的分組模型評估,8,交叉驗證法:,如,K,折交叉驗證法(一般隨機分成,10,組),留一法:適用樣本數(shù)據(jù)更少的情況,兩類樣
3、本的分組,8交叉驗證法:兩類樣本的分組,9,舉例,例,1.,預(yù)測型模型,肺癌 干預(yù),(,手術(shù),/,手術(shù)化療,),及預(yù)后(五年生存),共,5,萬個樣本,其中,1.7,萬干預(yù)后,5,年內(nèi)死于肺癌,如何組織數(shù)據(jù)進行數(shù)據(jù)挖掘?,9舉例例1.預(yù)測型模型,10,例,2.,共,1000,個,其中,315,個五年內(nèi)死亡,如何組織數(shù)據(jù)?,例,3.,共,49,個,,14,個,5,年內(nèi)死亡,,35,個存活,如何組織數(shù)據(jù)?,10例2.,11,總結(jié):,隨機,分布與總體相近,計算成本的考慮,樣本要保證足夠多,但不只是數(shù)量的多少,11,12,預(yù)測型模型的性能評價,殘差,混淆矩陣,P10,靈敏度(,sensitivity,)
4、,特異度(,specificity,),分類正確率(,accuracy,),ROC,(,receiver operating characteristics curve,)曲線,四、數(shù)據(jù)挖掘性能評價,12預(yù)測型模型的性能評價四、數(shù)據(jù)挖掘性能評價,13,靈敏度,特異度,分類正確率,四、數(shù)據(jù)挖掘性能評價,13四、數(shù)據(jù)挖掘性能評價,14,例:,ECG(electrocardiogram),診斷試驗的結(jié)果,靈敏度,=,?,特異度,=,?,分類正確率,=?,14例:ECG(electrocardiogram)診斷試驗,15,靈敏度與特異度,取值:均在,0-1,之間,缺點:單獨使用,可能出現(xiàn)矛盾,解決辦法
5、:,ROC,曲線,15靈敏度與特異度,16,ROC,曲線,靈敏度與特異度間的平衡,(trade off),四、數(shù)據(jù)挖掘性能評價,1,特異度(假陽性率),靈敏度,機率線,(chance line)(diagonal reference line),16ROC曲線四、數(shù)據(jù)挖掘性能評價1特異度(假陽性率)靈敏,17,完美結(jié)果,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,無用結(jié)果,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,17完美結(jié)果0.00.20.40.6
6、0.81.00.00.2,18,ROC,曲線下面積(,Area,),高,0.90-1.00=excellent(A),中,0.80-0.90=good(B)0.70-0.80=fair(C),低,0.60-0.70=poor(D)0.50-0.60=fail(F),0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4,0.6,0.8,1.0,FPR,T,P,R,A,0.664,A,0.830,0.0,0.2,0.4,0.6,0.8,1.0,0.0,0.2,0.4
7、,0.6,0.8,1.0,FPR,T,P,R,A,0.938,18ROC曲線下面積(Area)0.00.20.40.60.,19,例,4.,繼續(xù)前例,,干預(yù)及預(yù)后(五年生存),共,5,萬個樣本,其中,1.7,萬干預(yù)后,,5,年內(nèi)死于肺癌,其余,3.3,萬存活。,假定對上述數(shù)據(jù)分別建立了預(yù)測型模型,A,和,B,,,試比較兩個模型的性能。,19例4.繼續(xù)前例,,20,模型,A,模型,B,20模型A,21,比較模型,A,與,B,:,21比較模型A與B:,22,性能評價的作用:,如實表明,描述模型的性能,可以比較,模型性能的優(yōu)劣、高低,同一問題可多個模型,即使僅一個模型,可設(shè)計多個參數(shù),22性能評價的
8、作用:,23,總結(jié),第一章 概論,一、什么是數(shù)據(jù)挖掘,二、數(shù)據(jù)挖掘的過程,三、數(shù)據(jù)挖掘方法的分類,四、數(shù)據(jù)挖掘性能評價,23總結(jié)第一章 概論,24,第二章 數(shù)據(jù)采集與準備,一、數(shù)據(jù)的采集和組織,1.,數(shù)據(jù)采集和管理,2.,數(shù)據(jù)的組織,3.,數(shù)據(jù)的類型,二、數(shù)據(jù)管理,三、數(shù)據(jù)預(yù)處理,24第二章 數(shù)據(jù)采集與準備一、數(shù)據(jù)的采集和組織,25,一、數(shù)據(jù)的采集和組織,數(shù)據(jù)采集和管理,關(guān)系數(shù)據(jù)庫,DB,既往的數(shù)據(jù),如電子病例,數(shù)據(jù)倉庫,DW,面向特定目標的、集成的數(shù)據(jù)集合,如,HIS,25一、數(shù)據(jù)的采集和組織數(shù)據(jù)采集和管理,26,一、數(shù)據(jù)的采集和組織,數(shù)據(jù)組織,平面文件,記錄:處理的對象,屬性:一個特征,2
9、6一、數(shù)據(jù)的采集和組織數(shù)據(jù)組織,27,一、數(shù)據(jù)的采集和組織,數(shù)據(jù)的類型,數(shù)值:可運算,如年齡、血壓,分類:文字或數(shù)字,不可運算,二值型:,對稱:如性別:男、女,非對稱:如陽性,1,、陰性,0,排序型,數(shù)值型和分類型數(shù)據(jù)的轉(zhuǎn)換,27一、數(shù)據(jù)的采集和組織數(shù)據(jù)的類型,28,一、數(shù)據(jù)的采集和組織,例,.,采集原始數(shù)據(jù),姓名:,ID,:,性別:,年齡:,血壓:,腫瘤,TNM,分期:,28一、數(shù)據(jù)的采集和組織例.采集原始數(shù)據(jù),29,第二章 數(shù)據(jù)采集與準備,一、數(shù)據(jù)的采集和組織,二、數(shù)據(jù)管理,1.Excel,2.,關(guān)系數(shù)據(jù)庫,三、數(shù)據(jù)預(yù)處理,29第二章 數(shù)據(jù)采集與準備一、數(shù)據(jù)的采集和組織,30,二、,數(shù)據(jù)管理,Excel,數(shù)據(jù)管理,數(shù)據(jù)清單,排序、篩選,統(tǒng)計分析,分類匯總,30二、數(shù)據(jù)管理Excel數(shù)據(jù)管理,31,二、,數(shù)據(jù)管理,關(guān)系數(shù)據(jù)庫,數(shù)據(jù)定義,排序、索引和篩選,查詢和統(tǒng)計,31二、數(shù)據(jù)管理關(guān)系數(shù)據(jù)庫,