單變量推論統(tǒng)計1:參數(shù)估計.ppt
《單變量推論統(tǒng)計1:參數(shù)估計.ppt》由會員分享,可在線閱讀,更多相關(guān)《單變量推論統(tǒng)計1:參數(shù)估計.ppt(30頁珍藏版)》請在裝配圖網(wǎng)上搜索。
第三章單變量的推論統(tǒng)計之一:參數(shù)估計,第一節(jié)抽樣分布第二節(jié)參數(shù)的點估計和區(qū)間估計,,第一節(jié)抽樣分布一、相關(guān)名詞解釋參數(shù)值統(tǒng)計值隨機抽樣隨機樣本,,,二、蒙特卡羅抽樣分布:常見的統(tǒng)計問題是:總體未知,比如我們并不知道華電所有學(xué)生的大學(xué)語文的平均分為u=65。我們只是隨機抽樣,比如抽取了3000名學(xué)生,得知這個3000名學(xué)生所構(gòu)成的樣本的均值=64。因此我們用得到的這個樣本統(tǒng)計值去估計總體的參數(shù)值。但是我們都知道,樣本是隨機抽取的,不同的人抽取到的樣本(假設(shè)讓全班28個人每個人都抽一個3000人容量的樣本)是不同的,同一個人反復(fù)抽樣時也很可能抽取到不同的樣本。根據(jù)排列組合,抽到的是無限個情況的樣本。我們反復(fù)從華電學(xué)生(假設(shè)是10000名)中抽3000個人組成樣本,每次都計算出一個新的樣本均值,那么將會得到無數(shù)個樣本均值,這種重復(fù)抽樣的方法就叫蒙特卡羅抽樣方法。從每個樣本中可以計算出一個樣本均值,我們將重復(fù)抽取的n個樣本的都計算出來,研究發(fā)現(xiàn),這些均值就構(gòu)成了均值的蒙特卡羅抽樣分布。,,,,,因此可見,它是一種理論分布。研究發(fā)現(xiàn):1、抽樣分布的圖形顯示樣本均值圍繞其目標(biāo)u,以標(biāo)準(zhǔn)誤差SE=σ/近似正態(tài)地波動。(因此n越大,SE越小,即波動越小)2、同樣地,我們發(fā)現(xiàn)樣本比例p也可以用這個方法來處理,它圍繞其目標(biāo)P,以標(biāo)準(zhǔn)誤差SE=近似正態(tài)地波動。,,,,三、對比總體分布、樣本分布、抽樣分布1、參數(shù)值:u和σ都是唯一確定的值。統(tǒng)計值:由于總體容量N〉樣本容量n,因為重復(fù)抽樣時,每次抽取到的元素都會不盡相同。因此,不同的樣本的統(tǒng)計量很可能不同。2、抽樣中樣本只涉及到總體中的部分元素而不是全部元素。因為樣本的統(tǒng)計量與總體的參數(shù)值之間總是存在一定的差別,我們引入抽樣分布的概念,旨在對這種差別進行一定的說明。3、均值的正態(tài)近似原理:樣本均值以SE的標(biāo)準(zhǔn)誤差圍繞總體均值u波動。隨著n的增加,波動越來越小,越接近正態(tài)分布。(n≥30),,4、比例的正態(tài)近似定理:在容量為n的隨機樣本中,樣本比例p以SE=的標(biāo)準(zhǔn)誤差圍繞總體比例波動。隨著n的增加,p的分布也就圍繞其目標(biāo)波動地原來越小,越來越接近正態(tài)分布。(n≥30,np≥5)5、抽樣分布是關(guān)于樣本均值的分布,它的均值就是總體的均值u,即。。。,而抽樣分布的標(biāo)準(zhǔn)差,將之稱為標(biāo)準(zhǔn)誤差SE,以與總體分布、樣本分布相區(qū)分。其中SE=,而當(dāng)樣本相當(dāng)大時,一般用樣本的標(biāo)準(zhǔn)差s來代替總體。,,例:臺灣的一次普遍調(diào)查顯示,臺灣民眾的月收入近似地服從正態(tài)分布,其均值為13110臺幣,標(biāo)準(zhǔn)差為8750元,求:(1)隨機地抽取一個人,其收入超過18430元的概率。(2)抽取一個含有50人的隨機樣本,求其平均收入超過16000元的概率。(3)如果總體不是正態(tài)的,那么(2)的答案是什么?,,例:全廠滿意工作環(huán)境的工人比例為35%,現(xiàn)在從全廠中隨機抽取150名工人,問其滿意工作環(huán)境的工人比例超過45%的概率。,,作業(yè)題:1、試計算以下數(shù)值的四分位差、中位數(shù)、眾數(shù)2,3,4,5,4,4,2,5,6,6,7,,2、調(diào)查某地區(qū)的212個鄉(xiāng),目的是要知道每個鄉(xiāng)之育齡婦女(15-44歲)落實計劃生育的比率,以下為收集到的資料。1)試求四分位差。2)試求40百分位數(shù)點的值。,,第二節(jié)參數(shù)的點估計和區(qū)間估計,一、點估計1、總體均值的點估計值。2、總體方差的點估計值。3、總體標(biāo)準(zhǔn)差的點估計值。4、總體比例的點估計值。,,二、區(qū)間估計(即:求置信區(qū)間)1、基本概念置信度:又稱可信度、置信水平。即總體的參數(shù)值落在置信區(qū)間的把握?;蛘哒f用置信區(qū)間去估計總體參數(shù)值時,成功的可能性有多大。置信區(qū)間:在一定的置信水平下,根據(jù)樣本的統(tǒng)計值來估計總體的參數(shù)值處于一定的區(qū)間之內(nèi),這個區(qū)間就是置信區(qū)間。顯著度:又稱顯著性水平。它表示用置信區(qū)間來估計總體參數(shù),其不可靠的概率。若置信水平為95%,則顯著性水平為5%或0.05。,,2、置信區(qū)間與置信度之間的關(guān)系相互制約置信度高低反映的是這種估計的可靠性或把握性的問題,而置信區(qū)間的大小反映的是這種估計的精確性問題。對于同一個總體和同一個抽樣規(guī)模來說,所給區(qū)間的大小與做出這種估計所具有的把握性成正比。即區(qū)間越大,則對這一估計成功的把握性也越大;反之,則把握性越小。綜上,從精確性出發(fā),要求所估計的區(qū)間越小越好,但是從把握性出發(fā),又要求所估計的區(qū)間越大越好。人們總是需要在二者兼進行平衡與選擇。,,3、總體均值的區(qū)間估計1)總體方差σ已知時,大、小樣本的均值估計2)總體方差σ未知時,大樣本的均值估計3)總體方差σ未知時,小樣本的均值估計4)未知總體比例(成數(shù)),大樣本的比例估計5)未知總體比例,小樣本的比例估計例:設(shè)某工廠婦女從事家務(wù)勞動時間服從正態(tài)分布N(u,),隨機抽取了一個n=36的樣本,發(fā)現(xiàn)其每天平均從事家務(wù)勞動的時間=2.65小時,求u的雙側(cè)置信區(qū)間。(a=0.05)解:,,,,例:設(shè)某工廠婦女從事家務(wù)勞動時間服從正態(tài)分布N(u,),隨機抽取了一個n=25的樣本,發(fā)現(xiàn)其每天平均從事家務(wù)勞動的時間=2.65小時,求u的雙側(cè)置信區(qū)間。(a=0.05)解:,,,總結(jié):1)總體參數(shù)u是常數(shù),并且一直保持不變,變化的是隨機區(qū)間,其中心為,長度為2SE。2)隨著樣本含量n的增加,的標(biāo)準(zhǔn)誤差σ/也越來越小,因此置信區(qū)間也變得更窄更精確。這就是增加樣本含量的價值。3)隨著置信度的增高,也隨之增大,因此置信區(qū)間變得更寬,即更加含糊不明確,這也是可以理解的:要想把某一個聲明表達得更有把握,就必須使其更加含糊不明確。因此置信度和精確度之間是矛盾的。我們對于實際問題總是在兩者之間作一個合理的折衷。,,,,,,,例:設(shè)某社區(qū)受教育程度服從正態(tài)分布N(u,σ),根據(jù)35人的隨機抽樣調(diào)查,=11.5年,S=3.6年,求u的雙側(cè)置信區(qū)間。(a=0.01)解:,,例:設(shè)某社區(qū)受教育程度服從正態(tài)分布N(u,σ),σ未知,根據(jù)26人的隨機抽樣調(diào)查,=11.5年,S=3.6年,求u的雙側(cè)置信區(qū)間。(a=0.01)解:,,,,,t分布是適用于小樣本的一種分布。其扁平或高聳的程度取決于自由度(df=n-1),其自由度越大,越高聳,形狀與標(biāo)準(zhǔn)正態(tài)分布曲線越接近。當(dāng)n≥30時,一般認為與正態(tài)分布近似。t分布與正態(tài)分布的相似之處:t分布基線上的t值從-∞-+∞;平均數(shù)等于0處,左側(cè)t值為負,右側(cè)t值為正;曲線以平均數(shù)處為最高點向兩側(cè)逐漸下降,尾部無限延伸,永不與基線相接,呈單峰對稱形。使用t分布的條件:必須假定總體為正態(tài)分布。(與使用Z分布的不同之處),,為什么t分布的自由度是n-1而不是n呢?自由度:指的是可以自由取值的個案的數(shù)目,對于一組數(shù)據(jù)來說,假定n=1,則我們可以算出均值(就是這個唯一的數(shù)本身),但是無法考慮分布的形狀。描述分布的形狀最有價值的是方差,只有n超過1,我們才能得到這組數(shù)據(jù)分布的方差。(=),因此對于方差來說,均值占用了一個自由度,其余的n-1個自由度留給了方差。例:有5個數(shù),其均值為3,請問:1)你能確定這5個數(shù)都是什么嗎?2)如果不能,那么請問其中有幾個數(shù)是可以自由取值的?,,,戈塞爾用筆名“學(xué)生”發(fā)表。為什么分母中根號下為n-1?樣本數(shù)據(jù)的離散程度小于總體數(shù)據(jù)的離散程度(假設(shè)用全距這個離散量數(shù)來說明)。因此樣本的標(biāo)準(zhǔn)差會比總體的標(biāo)準(zhǔn)差偏小。因此s除以根號n會有偏誤,所以采用了根號n-1,在nS/,因此分母中為更貼近于σ/),,,,,,,,例:從某社區(qū)取n=200個家庭的樣本,36%的家庭中家庭事務(wù)是丈夫說了算,問:此社區(qū)家庭事務(wù)是丈夫說了算的家庭比例的置信區(qū)間。(a=0.01)解:法一:法二:,,4、二總體均值差的區(qū)間估計1)已知σ,大樣本(n1+n2≥100)2)已知σ,小樣本(n1+n2<100)3)未知σ,大樣本4)未知σ,小樣本5、二總體成數(shù)差的區(qū)間估計,,例:為了了解甲、乙兩地中學(xué)畢業(yè)生成績的差別,兩地作了抽樣調(diào)查,結(jié)果顯示:甲地:=520,S1=40,n1=800名,乙地:=505,S2=50,n2=1000名,求:a=0.05時,兩地平均成績差的區(qū)間估計。,,,,,,例:有兩個小組,甲小組:n1=11,人均每周抽煙=5盒,S1=1.5。乙小組:n2=11,人均每周抽煙=7盒,S2=2.0,求:a=0.05時,兩組抽煙均值差的置信區(qū)間。,,,,,,例:甲、乙兩地各做1000戶抽樣調(diào)查,其中甲地擁有電視機為825戶;乙地擁有電視機為760戶。求:a=0.05時,兩地電視機擁有比例(成數(shù))差的置信區(qū)間。,,6、單側(cè)置信區(qū)間,,例:設(shè)某工廠月平均收入服從正態(tài)分布N(u,),隨機抽取了一個n=36的樣本,發(fā)現(xiàn)其每人平均月平均收入為265元,求u的單側(cè)置信區(qū)間。(a=0.05)解:,,,作業(yè):1、我國某地區(qū)成年人教育水平的均值為8.2年,標(biāo)準(zhǔn)差為3年。隨機抽取了25位成年人進行調(diào)查,發(fā)現(xiàn)平均受學(xué)校教育在7-9年之間的概率是多少?(抽樣分布)2、一架電梯是按照極限負重為1000公斤設(shè)計的,聲稱可以容納13人。假定利用該電梯的所有乘客重量的平均值為70公斤,標(biāo)準(zhǔn)差為12公斤。那么一個13人的隨機樣本的重量總體超過負重極限1000公斤的概率是多少?(先算出樣本均值),,3、課本403,六A4、課本403,六B,- 1.請仔細閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 變量 推論 統(tǒng)計 參數(shù)估計
鏈接地址:http://www.hcyjhs8.com/p-11523221.html