jim yeh on 九月 9th, 2008

在〈基於政治信仰的統計修辭〉的迴響中,有讀者提到他對文中的統計學外行,於是讓同人興起寫文章介紹統計學基本觀念的想法,以幫助讀者了解該篇文章。過去同人曾在〈三百公斤的豬〉中以生活化的例子來說明統計推論的假設檢定,這篇文章基本上還是不會用太過學術化的角度來詮釋統計學,而是以生活上的隱喻來說明統計學上的重要概念,希望能引起讀者進一步學習統計學的興趣。

統計學的觀念並不難理解,只是一大堆定理與公式讓人望而卻步。但其實只要對統計學建立清楚的觀念,要了解這些公式與定理都是輕而易舉的,並不需要死背硬記它們。而建立統計學觀念最有效的方法,我認為應該要從日常生活出發,只要從生活應用的角度出發,統計學就不再會離我們如此遙遠。

因此,同人在此還用我認為學統計學最經典的那句話「三百公斤的豬是不是一頭肥豬?」來做為開頭。要回答這個問題,我們必須知道在所有豬的重量所成的群體(母體)之中,比三百公斤重的豬的比例,而最簡單的方法當然是先算出豬的平均重量;如果豬的平均重量大於三百公斤,我們可以輕易地知道大部分的豬的重量都超過三百公斤,那三百公斤的豬自然不是一頭肥豬。

那如果豬的平均重量小於三百公斤,我們是否可以說三百公斤的豬是一頭肥豬呢?我們當然不能如此武斷,而是應該看三百公斤的豬比豬的平均重量多多少公斤。但問題是我們怎麼知道超過豬的平均重量多少公斤才算是肥豬呢?這與每一隻豬的重量差異程度有關,一般可用豬的重量標準差來衡量,這標準差便是界定觀測值與平均值之間差異大小的基本尺度單位。

如果我們知道豬的重量所形成的群體是呈常態分配的話,那麼就可以得到在豬的群體中,與平均重量差距不超過幾倍標準差的豬隻比例有多少;小於一倍標準差的比例不大於 68%、小於二倍標準差不大於 95%、小於三倍標準差則不大於 99%。


圖片來源:Normal distribution. (2008, September 6). In Wikipedia, The Free Encyclopedia.

因此,我們只需定義了認定肥豬(或瘦豬)的標準為何,也就是認定其重量與平均重量相差幾倍標準差以上才稱為肥豬(或瘦豬),那麼我們就可輕易地客觀判定三百公斤(與其它重量)的豬是否是肥豬(或同理可證的瘦豬),我們只需要求得平均數與標準差這兩個母體參數就可知道這一切。

以上便是敍述性統計的範疇,我們通常有興趣的是母體參數,幫我們在日常生活中做出判斷與決策。但問題是在真實世界中,母體參數常常是難以獲得的。例如我們不大可能找到所有的豬,然後去量測牠們的重量並算出平均值與標準差。受限於人力與成本的限制,在無法求得母體參數的情況下,我們要如何做出客觀的判斷與決策呢?

這便是推論統計所要解決的問題,也就是統計學比較複雜的地方,這將會讓統計與機率扯上關係。運用抽樣以樣本統計量來推論母體參數,並運用機率來量化抽樣誤差。雖然我們無法完全無誤地知道母體參數的真確值,但卻可以運用機率來控制判斷與決策的誤差與品質。

依據中央極限定理,如果我們從母體中抽取足夠的樣本,並且使樣本具有獨立性與來自同一母體的原則,不論其樣本的母體是不是屬於常態分配,其樣本的統計量的機率分配必定會呈現常態分配。其樣本的統計量的平均值會逼近母體的平均值參數,其樣本統計量的標準差則會相當於母體的標準差除上樣本數 n 的開根號。

所以運用這個特性我們可以用樣本的統計量來推論母體參數,並運用機率來量化抽樣誤差,將推論出錯的機率限制在某個範圍之內,這就是推論統計的基本觀念。

回到三百公斤的豬的例子來看,雖然我們不可能量測每一隻豬的重量來求得母體的平均重量,但只要量測超過 25~30 隻隨機取樣的豬隻重量,便可以在可接受抽樣誤差的容許範圍之內,用樣本平均重量以區間估計來推論可能的母體平均重量,或是以假設檢定來判定是否接受假設的母體平均重量。

舉例來說,假設我們可以接受母體平均重量有 5% 的錯誤機率,我們便會選取樣本統計量的平均值的正負 2 倍標準差來當成母體平均值的信賴區間。這樣所估計出來的母體平均值加上已知的母體標準差便可以用來判定三百公斤(或其它重量)的豬是否為肥豬(或瘦豬)。

不過,一般而言,母體的標準差並不容易求得,在這個時候我們就必須以樣本的標準差來取代母體的標準差,不過此時樣本統計量的機率分配就變成了自由度為 n-1 的 T 分配。而由此我們也可以發現不管樣本的統計量的機率分配是常態分配或是 T 分配,其操作概念都是一樣的,藉由樣本的統計量來推論母體參數,而以標準差除上 n 值來衡量抽樣誤差的大小。

如此看來,推論統計的觀念其實是很簡單的,許多的公式與定理只是提供在不同的情形下,讓我們可以舉一反三。但簡單並不等於隨便,推論統計的觀念是用樣本的統計量來推測母體參數,而不是用樣本的觀察值來推論母體參數。在對統計學觀念不清楚的情況下誤用統計學的方法,在別人指正時又用似是而非的理由硬拗,只會讓人發現此人對統計學是真的外行。



     

One Response to “統計推論的生活化觀念”

  1. [...] 本來同人覺得這種預測方式還蠻具參考指標的,因為據說上次總統大選這種預測方式還蠻有用的,但這好像跟我看過的民調數據落差非常大,用我所了解的推論統計的觀念來看,好像這樣預測也會有問題[1]。 [...]

Leave a Reply

You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="">