統(tǒng)計學專題培訓課程課件
單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,0,13 十二月 2024,1,統(tǒng)計學專題培訓課程,統(tǒng)計學,教學課件,天津財經(jīng)學院統(tǒng)計系,高建國,第,1,章 總論,統(tǒng)計學是搜集數(shù)據(jù)、整理數(shù)據(jù)并從數(shù)據(jù)中獲取有用信息的一門方法論科學。我們從數(shù)據(jù)中獲取的有用信息是來說明社會經(jīng)濟現(xiàn)象,總體,數(shù)量特征,的。,有限總體和無限總體,(,1,)認識事物的現(xiàn)實狀況;(,2,)認識隨機現(xiàn)象的統(tǒng)計規(guī)律;(,3,)減少人們對某種系統(tǒng)知識的無知而產(chǎn)生的認識上的不確定性。,第,2,章 數(shù)據(jù)的搜集,一、一些基本概念,總體單位,總體,標志,指標,數(shù)量指標,質(zhì)量指標,數(shù)量標志,品質(zhì)標志,數(shù)據(jù)的搜集也就是統(tǒng)計調(diào)查,它是保證我們獲取有用信息的關(guān)鍵。,變量,分為連續(xù)變量和離散變量,數(shù)量型和屬性變量,例,1,:調(diào)查天津市工業(yè)企業(yè),2001,年增加值的規(guī)模。,總體是“全部工業(yè)企業(yè)”,總體單位是“每一工業(yè)企業(yè)”,標志是“每一工業(yè)企業(yè)的增加值”,數(shù)量標志,指標是“增加值總和”,數(shù)量指標。,例,2,:調(diào)查天津市學齡兒童入學情況。,總體是“所有兒童”,總體單位是“每一個兒童”,標志是“是否入學”,品質(zhì)標志,指標是“入學率”,質(zhì)量指標。,例,3,:調(diào)查天津市,2001,年居民年收入情況。,總體是“所有居民”,總體單位是“每位居民”,標志是“每位居民的年收入”,數(shù)量標志,指標是年均收入,質(zhì)量指標。,二、統(tǒng)計分組,1.,將統(tǒng)計調(diào)查所獲取的零散的不系統(tǒng)的資料,按照一定的研究目的和任務,進行加工和整理的一種行之有效的統(tǒng)計方法。它可以幫助我們完成,4,種任務。,2.,分組時應該正確選擇分組標志,以免不能準確的完成,4,種任務;同時應遵循互斥性和包容性原則,以免重復或遺漏。,3.,組距式分組中,應該弄清一些概念:組數(shù)、組距及組距的類型(如等組距、異組距、開口組距、閉口組距)、組限(上限、下限、如何確定組限)、組中值(它的假定性、開口組距的組中值如何計算、用組中值計算的平均數(shù)是一個準確值嗎)。,三、統(tǒng)計調(diào)查方案,是在背景分析的前提下,制定出的周密完整的,以指導調(diào)查工作順利完成的一項計劃任務書。一項完整的統(tǒng)計調(diào)查方案包括,8,方面的內(nèi)容。,第,3,章 數(shù)據(jù)和統(tǒng)計指標的基本類型,一、數(shù)據(jù)的類型,它分為總體總量和標志總量(兩者要成對出現(xiàn)才能判斷,比如職工人數(shù)如何判斷,只有將它和工資總額或者和工業(yè)企業(yè)數(shù)結(jié)合在一起才能判斷出它的歸屬,即它和工資總額結(jié)合在一起,它是總體總量;它和工業(yè)企業(yè)數(shù)結(jié)合在一起,它是標志總量);時期數(shù)又稱流量指標和時點數(shù)又稱存量指標(兩者判斷的正確與否對序時平均數(shù)的計算有至關(guān)重要的影響,序時平均數(shù)的計算將在第,13,章里講解,而如何判斷呢,,二、指標的類型,有數(shù)量型數(shù)據(jù)(用數(shù)來表示且數(shù)的計算有意義)和品質(zhì)型數(shù)據(jù)(用文字來表示也可用數(shù)來表示但數(shù)的計算沒有意義)。,1.,總量指標,應根據(jù)其特點即(,1,)與時間長短是否相關(guān),(,2,)前后時間上的數(shù)值相加是否有意義來判斷)。,2.,平均指標,在同質(zhì)總體內(nèi),通過“填平補齊”,“取長補短”的方式,獲得的描繪總體一般水平的指標。,3.,相對指標,它有,5,種形式:動態(tài)相對指標,比較相對指標,計劃完成相對指標,結(jié)構(gòu)相對指標,強度相對指標。,平均指標和相對指標統(tǒng)稱為比率型變量,我們在第,4,章里將涉及到這個概念,到時在詳談。,第,4,章 數(shù)據(jù)的描述性整理,一、數(shù)據(jù)分布狀態(tài)的描述方法,1.,分布列:有品質(zhì)型和數(shù)量型分布列。它們是通過統(tǒng)計 表來描述數(shù)據(jù)的分布狀態(tài)。,在這里還應該弄清楚以下概念:次數(shù)又叫頻數(shù)、頻率、頻數(shù)密度、頻率密度。因為這些概念可以幫助我們了解數(shù)據(jù)的分布狀態(tài)。,2.,分布圖:有棒圖、直方圖、折線圖、曲線圖。它們是通過統(tǒng)計圖來描述數(shù)據(jù)的分布狀態(tài)。它們與分布列相比更加直觀。,畫圖時如果是等組距,那么可用頻數(shù)或頻率來做圖;如果是異組距,那么應該用頻數(shù)密度或頻率密度來做圖。,二、數(shù)據(jù)分布的特征及特征數(shù),分布特征 分布特征數(shù),位置特征 平均數(shù)、中位數(shù)、眾數(shù),離散特征 全距、平均差、標準差、離散系數(shù),偏斜特征 偏態(tài)系數(shù),峰度特征 峰度系數(shù),三、幾種常用的位置特征數(shù),(一)平均數(shù),常見的有算術(shù)平均數(shù)、調(diào)和平均數(shù)、幾何平均數(shù)。幾何平均數(shù)在第,13,章里會詳細加以解釋,這里主要講解前兩個。,對于絕對數(shù)和比率變量如何計算平均數(shù),我們可這樣做:,1.,先確定變量。根據(jù)題意平均“誰”,“誰”就是變量。,比如,求平均日產(chǎn)量,則“日產(chǎn)量”就是變量;又如,求,50,家企業(yè)的平均計劃完成百分比,則“計劃完成百分比”就是變量。,2.,判別“所確定變量”的類型是絕對數(shù)變量,還是比率變量。,3.,如果是絕對數(shù)變量,那么權(quán)數(shù)是次數(shù)(頻數(shù))或頻率,并采用加權(quán)算術(shù)平均數(shù)的公式來計算。,如:“日產(chǎn)量”是絕對數(shù)變量,則權(quán)數(shù)是各組的人數(shù)或人數(shù)比重。,4.,如果是比率變量,那么要找出比率變量的基本比式,然后再根據(jù)已知資料來確定權(quán)數(shù)和計算公式。,如:“計劃完成百分比”是比率變量,其基本比式是實際數(shù)與,計劃數(shù)的比值。那么權(quán)數(shù)和公式這樣選擇:,(,1,)若已知資料是比率變量和基本比式的分母資料,則權(quán)數(shù)為分母資料,用,f,表示,并采用加權(quán)算術(shù)平均數(shù)。,(,2,)若已知資料是比率變量和基本比式的分子資料,則權(quán)數(shù)為分子資料,用,M,表示,并采用加權(quán)調(diào)和平均數(shù)。,例如:通過調(diào)查獲取了,15,個企業(yè)的產(chǎn)值計劃執(zhí)行情況,如下表,(單位:萬元),計劃完成,%,企業(yè)數(shù)計劃產(chǎn)值,8090 2 100,90100 3 200,100110 6 400,110,以上,4 300,合 計,15 1000,計算,15,個企業(yè)的平均計劃完成百分比。,(,1,)在這道題中,我們平均的是“計劃完成百分比”,那么,它就是變量,用,x,表示,變量值為各組的組中值。,(,2,)該變量的性質(zhì)是比率變量,其基本比式是實際產(chǎn)值與計劃產(chǎn)值之比。,(,3,)從已知資料中可知條件是比率變量和基本比式的分母資料,則權(quán)數(shù)是分母資料“計劃產(chǎn)值”,用,f,來表示,采用加權(quán)算術(shù)平均數(shù)公式來計算即可。,(二)中位數(shù),平均數(shù)的著眼點在于抵消各觀察值之間的數(shù)量差異,表明將各個觀察值“截長補短”以后的平均水平。中位數(shù)的著眼點在于尋求全部觀察值按其大小順序排列,居中間位置的一般水平。,例如:人口的年齡分布往往近似,J,型:嬰兒數(shù)最多,隨著年齡的增大,人數(shù)逐漸下降,到了百歲左右,所剩的人,(三)眾數(shù),眾數(shù)的著眼點在于尋求各組中頻數(shù)最多的觀察值。用 來反映要了解的現(xiàn)象中最普通、最常見的數(shù)值水平。,數(shù)就很少了。如果計算年齡的算術(shù)平均數(shù),老年人口數(shù)雖然較少,但其年齡數(shù)值很高,這樣一來,計算的平均年齡就會偏向老年一方。因此,各國的人口統(tǒng)計資料中,平均年齡的計算一般采用中位數(shù)。,比如,一位食品部經(jīng)理想按照預期的銷售量來分配貨物架的空間。從這個意義上來說,我們應該依據(jù)眾數(shù),而不是平均數(shù)或中位數(shù)來確定,即過去具有最高銷售量的食品將得到最大限度的貨物架空間。,又如,如果你的業(yè)務是提供足球運動衫的號碼,那么,哪一種度量對你來說更為有用:平均數(shù)、中位數(shù)或眾數(shù)?當然是眾數(shù)。,四、離散特征數(shù),有,4,種:一是全距:在實際生產(chǎn)中稱之為極差,用,R,表示。,二是平均差:有簡單式和加權(quán)式之分。當平均數(shù)是簡單算術(shù)平均數(shù)時,平均差便采用簡單式;當平均數(shù)是加權(quán)算術(shù)平均數(shù)時,平均差便采用加權(quán)式。,三是標準差(方差):也有簡單式和加權(quán)式之分。和平均差一樣,選擇哪種形式要依賴于平均數(shù)的計算。,四是離散系數(shù):有全距系數(shù)、平均差系數(shù)和標準差系數(shù)。一般地,標準差系數(shù)的應用場合較多。,例,1.,甲、乙兩個企業(yè)平均每月的勞動生產(chǎn)率都是,8000,元,它們的標準差分別是,320,元和,240,元,那么哪個企業(yè)的勞動生產(chǎn)率的代表性更強?,對于這種情況,因為甲乙兩個企業(yè)的總體平均水平是相同的,所以,我們可以直接根據(jù)標準差的大小來判別乙企,業(yè)的勞動生產(chǎn)率的代表性強。,例,2.A,、,B,兩個商場,2000,年平均每月的銷售額分別為,16000,元和,8000,元,它們的標準差各為,320,元和,240,元,那么哪個商場的銷售額穩(wěn)定些?,例,3.,對某系一年級的,100,名男生進行調(diào)查,得到平均身高為,172,厘米,平均體重,68,公斤,各自的標準差分別為,6,厘米和,4,公斤,那么,100,名男生的身高和體重何者離散較嚴重?,對于例,2,和例,3,這兩種情況,由于面對的一個是兩個總體水平相差很懸殊,一個是兩個總體的性質(zhì)或計量單位不同,我們不能直接根據(jù)已知的標準差的大小來判別總體內(nèi)變量值的離散程度,應該計算兩個總體各自的標準差系數(shù)。結(jié)果是例,2,中,,A,商場的標準差系數(shù)是,2%,,,B,商場的標準差系數(shù)是,3%,,即,A,商場的銷售額穩(wěn)定。例,3,中,身高的標準差系數(shù)是,3.49%,體重的標準差系數(shù)是,5.88%,,即,100,名男生體重的離散較嚴重。,第,5,章 隨機試驗和隨機變量,一、隨機現(xiàn)象,在給定條件下,不能確切預見其結(jié)果的現(xiàn)象。,1.,由于存在著不能確定的和不能完全預見的偶然性的影響因素,隨機現(xiàn)象便產(chǎn)生了。,2.,隨機現(xiàn)象具有一定的規(guī)律性。規(guī)律值附近發(fā)生的可能大,規(guī)律值遠處發(fā)生的可能小。,3.,要保證給定的條件是相同的。,二、隨機試驗(可重復、不可重復)、事件(基本事件、復合事件;必然事件、不可能事件),三、概率,有主觀概率和客觀概率之分。在以后章節(jié)中涉及到的概率是指客觀概率,即大量觀察條件下頻率的穩(wěn)定值。,四、隨機變量及其分布,書中,127,頁第,1,個例子的隨機變量是“可能出現(xiàn)的點數(shù)”,第,2,個例子的隨機變量是“等待時間”,第,3,個例子的隨機變量是“取出球的顏色”。,從上述,3,個例子中可以看到例,1,和例,3,是離散型隨機變量,例,2,是連續(xù)型隨機變量。,我們通過“分布”來刻畫隨機變量的特征。也可以通過特征數(shù)來認識隨機變量的特征。,第,6,章 有限總體概率抽樣,一、一般問題,抽取樣本時我們應該作到:對每一次抽取行為都應精心組織,使得此時尚留在總體中的所有單位都有可能被抽到,且有確定的,不等于零的被抽中的概率。,例如,一個籠子里裝有,800,只兔子,調(diào)查人員閉上眼睛將手伸入籠中抓取兔子的行為,是不是符合隨機抽取的原則。,正確的作法是:在,800,只兔子身上編上號碼,并做好,800,個鬮,放在盒子里充分攪勻,從盒子里隨機抽取一個號碼,號碼是幾,就從籠子中抓出相同號碼的兔子。這就符合隨機抽取的原則了。,如果向例子中所描述的那樣“閉上眼抓兔子”那屬于隨便抓取,因為在籠口附近的兔子被抓住的可能大于遠離籠口的兔子。,等概率和不等概率抽樣的共同點:各單位都有確定的不等于零的被抽中的概率。,二、一些基本概念,例:某微波爐生產(chǎn)廠家想要了解微波爐進入居民家庭生活的深度。為此從某地區(qū)已購買了微波爐的,2200,個居民戶中用簡單隨機抽樣方法以戶為單位抽取了,30,戶,詢問每戶一個月使用微波爐的時間。調(diào)查結(jié)果依次為(分鐘):,450 900 50 700 400 520 600 340 280,800 750 550 20 1100 440 460 580 650,430 460 450 400 360 370 560 610 710 200,試估計該地區(qū)已購買了微波爐的居民戶平均一戶一個月使用微波爐的時間,并以,95.45%,的置信概率做保證對平均使用微波爐的時間進行區(qū)間估計。,根據(jù)該例子我們來了解一下一些概念。,1.,題中的,N=2200,就是“,有限總體,”,,n=30,就是“,概率樣本,”。,2.30,戶居民的平均使用微波爐的時間,:,(分鐘),和方差,是“,統(tǒng)計量,”。,3.,我們用樣本統(tǒng)計量,作為對有限總體指標,的估計,,用,來表示,稱之為“,估計量,”。,4.,點估計:,用樣本估計量及其觀察值來表達對總體指標 的估計。即,5.,區(qū)間估計:用一個取值區(qū)間來表達對總體指標的估計。,這個數(shù)值區(qū)間叫作置信區(qū)間。,該題的置信區(qū)間為 至,區(qū)間的左端為置信下限,右端為置信上限。式中的臨界值,z,,根據(jù)置信概率來確定。本題的樣本容量為,30,,屬大樣本,應查標準正態(tài)分布表,不過