統(tǒng)計(jì)學(xué)-思想方法與應(yīng)用(袁衛(wèi)等)第七章方差分析.ppt
《統(tǒng)計(jì)學(xué)-思想方法與應(yīng)用(袁衛(wèi)等)第七章方差分析.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《統(tǒng)計(jì)學(xué)-思想方法與應(yīng)用(袁衛(wèi)等)第七章方差分析.ppt(40頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
統(tǒng)計(jì)學(xué):思想、方法與應(yīng)用,袁衛(wèi)劉超,第7章方差分析,7.1單因素方差分析7.2方差分析回顧7.3雙因素方差分析,學(xué)習(xí)目標(biāo),了解方差分析的一般思想;明白單因素方差分析能解決什么問題;了解為什么要介紹雙因素方差分析;相關(guān)理論在統(tǒng)計(jì)學(xué)軟件中的應(yīng)用。相應(yīng)統(tǒng)計(jì)分析結(jié)果的解讀。,方差分析(AnalysisofVariance,ANOVA)是英國(guó)統(tǒng)計(jì)學(xué)家羅納德費(fèi)歇爾(RonaldFisher)20世紀(jì)年代發(fā)展起來(lái)的一種在實(shí)踐中被廣泛運(yùn)用的統(tǒng)計(jì)方法。從形式上看,方差分析是比較多個(gè)總體的均值是否相等,但本質(zhì)上,它所研究的是分類型自變量對(duì)數(shù)量型因變量的影響,這使得它同后面一章介紹的回歸分析關(guān)系密切,但是又不完全相同。如果有一個(gè)人們感興趣的指標(biāo)(因變量),其變化可能受到眾多離散型因素(如性別、種族、職業(yè)等)而不是連續(xù)型因素(如年齡、收入、價(jià)格等)的影響,我們可以考慮使用方差分析。這些影響因變量的離散型因素稱為因素或因子(factor),因素的取值稱為水平(level)或處理(treatment)。這里,因素就是變量,水平就是該變量的取值,這些名詞是分類或?qū)傩宰兞克赜械?。為了了解哪些因素?duì)感興趣的指標(biāo)(因變量)有影響,我們必須在眾多因素中確定哪些因素影響大些,哪些影響小些,以便于進(jìn)一步研究對(duì)因變量的預(yù)測(cè)和控制。,為什么我們要學(xué)習(xí)方差分析,為什么不能用前幾章討論的檢驗(yàn)來(lái)比較總體的均值差異呢?可以每次比較兩組均值,但是會(huì)累加了第一類錯(cuò)誤。假設(shè)我們采用中不同的方法(A,B,C,D)訓(xùn)練新射擊手。在訓(xùn)練結(jié)束后,我們用普通的檢驗(yàn)方法比較不同射擊技巧的成績(jī)。研究問題:4組射擊成績(jī)的均值是否存在差異?回答這個(gè)問題我們需要比較4種訓(xùn)練方法。,為什么我們要學(xué)習(xí)方差分析,用t分布比較4組總體均值,需要進(jìn)行6次不同的t檢驗(yàn)。也就是說(shuō),我們需要分別比較4種方法的平均成績(jī):A和B,A和C,A和D,B和C,B和C,以及C和D。如果顯著性水平設(shè)為0.05,那么正確判斷的概率為0.95。因?yàn)槲覀兎謩e進(jìn)行6次獨(dú)立的檢驗(yàn),任何一次檢驗(yàn)都不做錯(cuò)誤判斷的概率為:P(都正確)=0.956=0.735因此,至少一次錯(cuò)誤的概率為1-0.735=0.265。總之,如果我們用t分布分別做6次獨(dú)立的檢驗(yàn),至少有一樣本錯(cuò)誤發(fā)生的概率從0.05上升到了0.265。顯然我們需要用更好的辦法來(lái)而非6次t檢驗(yàn),方差分析允許我們同時(shí)比較多個(gè)處理的均值并且避免了第一類錯(cuò)誤概率的增加。,7.1單因素方差分析,例7.1研究員想挑選出能使小麥畝產(chǎn)量最大的化肥,選了三個(gè)品牌的化肥:A,B和C。開始,他將土地分成大小相同的24塊。小麥在同時(shí)以相同的方式播種,唯一差別就是所施的肥料不同,8塊地用A,8塊地用B,其余8塊地用C。在收割的季節(jié),記下每塊地的小麥產(chǎn)量。這里三種不同的肥料就是三種不同的處理。產(chǎn)量用公斤表示。數(shù)據(jù)見表7.1。,7.1.1小麥產(chǎn)量與化肥品牌之間的關(guān)系,為了顯示平均產(chǎn)量是否隨化肥品牌不同而不同,我們首先看散點(diǎn)圖7.1。這里的散點(diǎn)圖與前面介紹的散點(diǎn)圖有一些不一樣,其橫軸是分類變量。,7.1.1小麥產(chǎn)量與化肥品牌之間的關(guān)系,從散點(diǎn)圖可以發(fā)現(xiàn),不同品牌的化肥所導(dǎo)致的小麥平均產(chǎn)量的確是有明顯差別的。而且即使是同一品牌,小麥的產(chǎn)量也明顯不同。這些區(qū)別至少說(shuō)明,小麥的產(chǎn)量與化肥的品牌之間是有關(guān)系的。如果這三塊地的小麥產(chǎn)量差不多,則可以認(rèn)為小麥的產(chǎn)量與化肥的品牌之間是沒有關(guān)系的。,7.1.1小麥產(chǎn)量與化肥品牌之間的關(guān)系,為了更容易的找出各化肥品牌的小麥平均產(chǎn)量的不同,我們對(duì)每個(gè)化肥品牌做一個(gè)箱線圖。,7.1.1小麥產(chǎn)量與化肥品牌之間的關(guān)系,比較基于數(shù)據(jù)的箱線圖可以揭示小麥產(chǎn)量的哪些信息呢?首先應(yīng)該來(lái)對(duì)比不同化肥品牌的中位數(shù),因?yàn)樗鼈兇碇行闹?。?dāng)我們仔細(xì)看盒子中間代表中位數(shù)的橫線時(shí),就會(huì)注意到品牌B的中位數(shù)最高。因此可以斷定這個(gè)品牌的化肥的小麥產(chǎn)量最高。類似的,品牌C的中位數(shù)最低,則品牌C的化肥的小麥產(chǎn)量最低。品牌B的化肥的小麥產(chǎn)量居中。箱線圖的另一個(gè)特征是盒子的高度不同。例如品牌A和品牌C的盒子高度接近,都比品牌B盒子要矮,這就意味著品牌A和品牌C這兩種化肥下的小麥產(chǎn)量波動(dòng)性都小比品牌B的化肥下的小麥產(chǎn)量。,7.1.2關(guān)系強(qiáng)度有多大?,箱線圖比散點(diǎn)圖更能顯示各地區(qū)之間小麥產(chǎn)量的不同和兩個(gè)變量間存在關(guān)系。但我們還想知道這兩個(gè)變量之間關(guān)系的強(qiáng)度,以及這個(gè)關(guān)系是否可能出于偶然。要回答這些問題我們還需要做進(jìn)一步的工作,即利用方差分析。我們的興趣在均值上,但在判斷均值之間是否有差異時(shí)要借助于方差。,7.1.2關(guān)系強(qiáng)度有多大?,原理為:把因變量的值隨著自變量的不同取值而得到的變化進(jìn)行分解,使得每一個(gè)自變量都有一份貢獻(xiàn),最后剩下無(wú)法用已知的原因解釋的則看成隨機(jī)誤差的貢獻(xiàn)。然后用各自變量的貢獻(xiàn)和隨機(jī)誤差的貢獻(xiàn)進(jìn)行比較(F檢驗(yàn)),以判斷該自變量的不同水平是否對(duì)因變量的變化有顯著貢獻(xiàn)。輸出就是F-值和檢驗(yàn)的一些p-值。,方差分析原理,模型中的假定:,涉及的檢驗(yàn):H0:m1=…=mp,線性模型:,公式:總平方和=組間平方和+組內(nèi)平方和,其中,SST有自由度n-1,SSB有自由度p-1,SSE有自由度n-p,在正態(tài)分布的假設(shè)下,如果各組增重均值相等(零假設(shè)),則,有自由度為p-1和n-p的F分布.,7.1.3在總體中的關(guān)系如何?,由SPSS可以得到方差分析表:,該表說(shuō)明我們要拒絕零假設(shè),各化肥品牌導(dǎo)致的小麥產(chǎn)量之間有顯著不同.,方差分析表的說(shuō)明:,這里n為觀測(cè)值數(shù)目p為水平數(shù),Fa滿足P(F>Fa)=a.這是自由度為p-1和n-p的F-分布的概率,7.1.4F檢驗(yàn):比較均值,雖然方差分析拒絕了零假設(shè),但是我們可能還有一些疑惑,比如(1)到底哪兩種品牌化肥的小麥平均產(chǎn)量不相同?(2)如果兩種化肥的小麥平均產(chǎn)量不同,那么它們的平均產(chǎn)量底有多大差別?,7.1.4F檢驗(yàn):比較均值,為了找到是哪一個(gè)均值與眾不同,我們?cè)趫D7.3中列出了每種化肥得到的小麥產(chǎn)量的均值。從圖中可以看出中化肥品牌B的小麥產(chǎn)量均值最高,而品牌A的小麥產(chǎn)量均值居中,品牌C的小麥產(chǎn)量均值最低。但是仍然很難說(shuō)哪一組均值在統(tǒng)計(jì)意義上不同,哪一個(gè)相同。,進(jìn)一步的問題...,當(dāng)方差分析拒絕了原假設(shè)時(shí),即認(rèn)為至少有兩個(gè)總體的均值存在顯著性差異時(shí),須進(jìn)一步確定是哪兩個(gè)或哪幾個(gè)均值顯著不同,則需要進(jìn)行多重比較來(lái)檢驗(yàn)。多重比較是指在因變量的三個(gè)或這三個(gè)以上水平下均值之間進(jìn)行的兩兩比較檢驗(yàn)。多重比較問題:,多重比較方法,SPSS提供了各種不同的多重比較方法,包括最小顯著差異LSD法、Bonferroni法、Tukey法、Scheff法,如下圖所示。,由SPSS可以得到多重比較結(jié)果,此時(shí)我們?cè)赟PSS的輸出結(jié)果選擇LSD方法輸出的多重比較結(jié)果。如果設(shè)定的顯著性水平為α=0.10,由于0.057<0.10,那么不具有方差齊性,此時(shí)我們可以選擇Tamhane方法的輸出結(jié)果,見表7.5的第三部分的下邊。,做了以下三對(duì)比較:品牌A~品牌B、品牌A~品牌C和品牌B~品牌C。每一對(duì)比較都有相應(yīng)的p-值。,應(yīng)用方差分析需要的假設(shè)條件有:(1)各總體是正態(tài)分布。(2)各總體的有相同的標(biāo)準(zhǔn)差。(3)樣本互相獨(dú)立。當(dāng)滿足上述條件時(shí),可以用F分布作為檢驗(yàn)統(tǒng)計(jì)量的分布。在研究分類型自變量和數(shù)量型因變量之間關(guān)聯(lián)的過程中的一部分是方差分析。在這里,我們?cè)诖搜芯康氖腔势放坪托←湲a(chǎn)量?jī)蓚€(gè)變量。其它還有諸如職業(yè)與收入的關(guān)系、不同教育方法與學(xué)生的學(xué)習(xí)水平的關(guān)系等例子。方差分析是基于計(jì)算因變量在按照自變量的各類的均值之間的差異程度和每一類中觀測(cè)值的差異程度。我們所得到方差分析的結(jié)果是基于各種平方和的大小。表7.4是一個(gè)典型的計(jì)算機(jī)輸出的結(jié)果(當(dāng)然,對(duì)不同的計(jì)算程序,方差分析表的形式也許會(huì)發(fā)生變化)。,7.2方差分析回顧,F檢驗(yàn)及其p-值告訴我們因變量在各類中的均值是否有顯著差異。如果F值大而因此p-值小,我們就拒絕無(wú)區(qū)別的零假設(shè),并認(rèn)為在實(shí)際中兩個(gè)變量之間是有關(guān)系的。通常當(dāng)p-值小于0.05時(shí)就可以拒絕零假設(shè)了。有時(shí)我們會(huì)看到p值下面的數(shù)值顯示*和**。在腳注中會(huì)解釋一個(gè)星號(hào)表示它的p值小于0.05,而兩個(gè)星號(hào)則表示p-值小于0.01。統(tǒng)計(jì)表的缺點(diǎn)是它無(wú)法提供精確的p-值;它一般只能給出p是小于某些值的。但是,我們可以用統(tǒng)計(jì)軟件求出精確的p-值。比如可以在Excel中通過“=FDIST(42.6,2,21)”命令求得小麥產(chǎn)量方差分析的p-值就為0.00000004。精確的p-值能夠提供更多的信息,因?yàn)槲覀兡苤浪烤贡?.05或比0.01小多少,也可以知道在拒絕零假設(shè)時(shí)的把握有多大。,7.2方差分析回顧,7.3雙因素方差分析,在小麥產(chǎn)量的例子中,我們將總效應(yīng)分為兩類:化肥變量的效應(yīng)和殘差變量的效應(yīng)。換句話說(shuō),我們只考慮了效應(yīng)的兩個(gè)來(lái)源,即來(lái)自化肥變量和隨機(jī)誤差。但是影響小麥產(chǎn)量的因素除了所用化肥的品牌,可能還有土壤、天氣等等因素的影響。考慮其他因素的好處是降低殘差的效應(yīng),即降低F統(tǒng)計(jì)量的分母,F(xiàn)值會(huì)變大,使我們拒絕均值相等的零假設(shè),或者說(shuō)我們可以解釋更多的效應(yīng),從而減少誤差。下列例子說(shuō)明了誤差變差的減少。本節(jié)討論雙因素方差分析(Two-WayANOVA),其分析方法可以很容易地被推廣到多因素方差分析(Multi-WayANOVA)。,7.3雙因素方差分析,例7.2一個(gè)地區(qū)的交通管理局正準(zhǔn)備擴(kuò)大從郊區(qū)到商業(yè)中心的公車服務(wù),考慮四條路線:1號(hào)線、2號(hào)線、3號(hào)線、4號(hào)線。交管局想進(jìn)行檢驗(yàn)判斷四條路線的平均行駛時(shí)間是否存在差異。因?yàn)榭赡艽嬖诓煌緳C(jī),檢驗(yàn)時(shí)讓每一名司機(jī)都分別行駛四條路線。下面是每個(gè)司機(jī)在每條路線上所需的行駛時(shí)間。在0.05的顯著性水平下,四條路線的行駛時(shí)間的均值是否有差異?如果不考慮司機(jī)的影響,行駛時(shí)間的均值是否有差異?,7.3雙因素方差分析,首先,我們用單因素方差分析的假設(shè)檢驗(yàn),即只考慮四條路線。在這種情況下,效應(yīng)來(lái)源于因素或者隨機(jī)誤差。比較四條路線平均行駛時(shí)間的零假設(shè)和備擇假設(shè)為:因?yàn)楣灿兴臈l路線,所以分子的自由度為4-1=3,分母的自由度為20-4=16。此時(shí)對(duì)應(yīng)于0.05的顯著性水平下的臨界值是3.24,因此,如果計(jì)算的F值大于3.24,則拒絕零假設(shè)。,,,各處理均值不全相等。,7.3雙因素方差分析,F值的計(jì)算結(jié)果是1.618,比臨界值3.24小,實(shí)際上p-值0.225遠(yuǎn)大于0.05,所以不能拒絕零假設(shè)。交管局得出結(jié)論四條路線的平均行駛時(shí)間無(wú)差異,沒有某條路線行駛速度快而被選擇的理由。,7.3.1無(wú)交互效應(yīng)的雙因素方差分析,如果上例中我們只考慮路線引起的效應(yīng)而將其余的都?xì)w為隨機(jī)效應(yīng),那么我們沒有必要讓五名司機(jī)分別行駛四條路線。如果我們考慮不同司機(jī)的影響,我們就能減少殘差平方和,從而得到更大的F值。我們把本例中的司機(jī)因素稱為區(qū)組因素(blockingvariable),即在方差分析中能減少殘差平方和的第二個(gè)處理因素。在本例中將司機(jī)作為區(qū)組因素,從殘差平方和中提取出司機(jī)的影響能夠影響處理的F比值。這里介紹無(wú)交互作用的雙因素方差分析。,7.3.1無(wú)交互效應(yīng)的雙因素方差分析,因?yàn)槲覀兛紤]不同司機(jī)行使時(shí)間的差異,所以要對(duì)區(qū)組做假設(shè)檢驗(yàn)。兩組假設(shè)分別為:1.不同路線均值都相等(),各路線均值不全相等2.區(qū)組均值都相等(),各區(qū)組均值不全相等兩因素方差分析表的格式與單因素方差分析的格式一致,唯一的區(qū)別是加了一行區(qū)組變差。,,,,,7.3.1無(wú)交互效應(yīng)的雙因素方差分析,從該表可以看出,關(guān)于對(duì)司機(jī)的零假設(shè)的p-值是0.002,對(duì)路線的零假設(shè)的p-值是0.024。可以得知在0.05的顯著性水平下,路線和區(qū)組的零假設(shè)都被拒絕。因此,路線和司機(jī)這兩個(gè)因素都對(duì)行駛時(shí)間有顯著作用,也就是說(shuō)這兩個(gè)因素的不同水平的確造成了行駛時(shí)間的不同。這表明司機(jī)這個(gè)因素的引進(jìn),使得路線對(duì)行駛時(shí)間從沒有影響變成有顯著影響。,7.3.2有交互效應(yīng)的雙因素方差分析,值得注意的是,對(duì)于上面的例子,我們僅僅分析了路線和司機(jī)這兩個(gè)因素分別對(duì)行駛時(shí)間的影響。也就是說(shuō)因?yàn)樗緳C(jī)變化所帶來(lái)的行駛時(shí)間的變化是同行駛的路線是無(wú)關(guān)的。這顯然是值得斟酌的。對(duì)于一個(gè)實(shí)際問題,僅考慮因素各自的作用是不是合理?能不能回答我們關(guān)心的問題?那就得視具體問題而論了。因此,我們接下來(lái)簡(jiǎn)單介紹帶交互作用的雙因素方差分析。要說(shuō)明的是,如果每一種因素水平的組合只有一個(gè)觀測(cè)值,那么由于數(shù)據(jù)量不夠會(huì)導(dǎo)致無(wú)法判斷是否有交互作用。這時(shí)即使有交互作用,也混在誤差項(xiàng)中而無(wú)法分離出來(lái)。,7.3.2有交互效應(yīng)的雙因素方差分析,例7.3該地區(qū)的交管局還想研究司機(jī)變化所帶來(lái)的行駛時(shí)間的變化與行駛的路線是否有關(guān)?因此,我們假設(shè)對(duì)這個(gè)地區(qū)的交管局進(jìn)行了2次測(cè)試。獲得數(shù)據(jù)如下表所示。,7.3.2有交互效應(yīng)的雙因素方差分析,從數(shù)據(jù)表可以看出,司機(jī)因素有5個(gè)水平,路線因素有4個(gè)水平,每個(gè)水平組合重復(fù)數(shù)n=2,共有=542=40個(gè)觀測(cè)值。我們?nèi)匀豢梢韵袂懊婺菢佑懻撔旭倳r(shí)間和作為因素(自變量)的路線類型和司機(jī)之間的關(guān)系,還由于路線類型和司機(jī)的每種組合都有2個(gè)觀測(cè)值,因此還可以考慮路線類型和司機(jī)之間的交互效應(yīng)行駛時(shí)間的影響。,7.3.2有交互效應(yīng)的雙因素方差分析,從中可以看到,與無(wú)交互的雙因素方差分析結(jié)果一樣,路線和司機(jī)因素的p-值都小于0.05,檢驗(yàn)是高度顯著的。交互項(xiàng)“司機(jī)*路線”反映的是司機(jī)因素和路線因素聯(lián)合產(chǎn)生的對(duì)行駛時(shí)間的附加效應(yīng)。由于p-值0.025小于0.05,因此,檢驗(yàn)高度顯著,這表明司機(jī)因素和路線因素聯(lián)合產(chǎn)生的交互作用對(duì)行駛時(shí)間有顯著影響。換句話說(shuō),也就是不同路線的行駛時(shí)間差異會(huì)因?yàn)樗褂玫乃緳C(jī)的不同而不同,或者說(shuō)不同司機(jī)的行駛時(shí)間差異會(huì)因?yàn)樗?jīng)過的路線不同而不同。,7.3.2有交互效應(yīng)的雙因素方差分析,交互作用的模型可以從點(diǎn)圖中直觀看出。圖7.4中的五條折現(xiàn)分別表示了每名司機(jī)行駛不同路線所需的平均時(shí)間。如果在有交互作用的模型中,這樣五條線還是平行的,那就說(shuō)明司機(jī)因素和路線因素之間沒有交互作用。從該圖可以看出,這五條線并不平行,這從直觀上說(shuō)明這兩個(gè)因素的主效應(yīng)不是簡(jiǎn)單可加的,是有交互作用的。,還要說(shuō)明的是,如果每一種因子水平的組合只有一個(gè)觀測(cè)值(這里例中每個(gè)組合有四個(gè)觀測(cè)值),那么,無(wú)法對(duì)是否有交互作用進(jìn)行判斷;這是由于數(shù)據(jù)量不夠,交互作用即使有也混在誤差項(xiàng)中,無(wú)法剝離出來(lái)進(jìn)行分析。,附:一般方差分析表的數(shù)學(xué)意義,而計(jì)算機(jī)的方差分析表的輸出的意義為(這里包含在SSM中還有一個(gè)SS和1個(gè)自由度屬于截距的(沒有用處)沒有列出):,方差分析表公式的意義為:,- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 統(tǒng)計(jì)學(xué) 思想 方法 應(yīng)用 第七 方差分析
鏈接地址:http://www.hcyjhs8.com/p-3525310.html