BillyPan 寫了一篇用 830 遊行當天部落格訪問數推估遊行人數的文章,在這篇文章在 funP 張貼一小時後,馬上被同人揭穿用推論統計在這篇文章所發現的問題。我指出他用來預估全台綠營上網人數母體的樣本,其樣本大小 n=1,因此所預估出來的 830 遊行當天上網人數下降的比例將會有極大的偏誤。
無獨有偶,後來 Zulu 也提出了其它星期六部落格來訪數字比 830 遊行當天還要少的事實,來突顯 BillyPan 的觀點疏漏。他提到照 BillyPan 的邏輯,8 月 9 日不同 IP 的訪客數更少,人數下降比例 Y 值是 11%,所以 8 月 9 日遊行的人數應該有將近46萬人。
BillyPan 對我和 Zulu 的質疑提出他的辯解。他認為只要儘量找一個流量夠大的部落格的到達率變化量,就可以逼近真正母群,他說他的 n 值大概超過 3000 左右,用來推估真正母體 N=389 萬的變化。
另外他也認為 Zulu 的算法也不行,因為因為部落格讀者會累積,拿後面的數字來算,覺得前面的數字減少,很可能是因為讀者越來越多,而不是因為遊行的關係。
BillyPan 的回答讓同人覺得很有趣,雖然他笑我對統計外行,弄錯 n 值的意思,但從他的回應中可以發現他對統計觀念的模糊。同人不敢說自己是統計專家,但統計學對我而言,除了在課堂上及書本上所獲得的知識以外,加上完成碩士學位論文的親手操作,還不至於不能分辨樣本空間與基本事件,BillyPan 的回應,反而讓我懷疑他是否真的懂統計學?
BillyPan 用收視率或民意調查來反駁說他的樣本 n 值為 1 的說法,但同人還是第一次聽說 n 值要用這種不確定的數值。不管研究者用那一種抽樣方法,n 值應該是明確而非約略大概的值。否則在不知母體標準差的情形下,n 值不知道要如何求得標準誤來推論母體參數的信賴區間?這樣看來,BillyPan 似乎並不了解樣本的 n 值是取決於對不同基本事件的觀測,而對這些觀測的集合便形成了所謂的樣本空間。
就像一般的收視率或問卷調查有 n 組觀測值,因此它們的樣本數為 n,用這 n 個觀測值的統計量來推論元素數目為 N 的母體參數。因此如果我們想要了解 830 遊行當天全台政治傾向偏綠的部落格點閱人數降低的比例,只用 BillyPan 部落格單一的觀測值是不夠的,而是要觀測 25 個相同政治傾向的部落格才能統計推論出我們想要知道的答案。顯然 BillyPan 並不了解抽樣方法與樣本空間大小是兩回事呀。
其實要如 BillyPan 所言要用他的部落格來代表政治傾向偏綠的部落格網友的行為,也是可以的;此時我們所觀測的事件就應該找出連續 25 週末上網人數以統計出平均上網人數與其差異性,而不是如 BillyPan 只根據單一月份來推論當天上網人數的降低數字。
如果以單一網站不同時間人數的變化來看,Zulu 的質疑突顯了一個事實:830 遊行當天人數並未如 BillyPan 所假設的當天部落格來訪人數有顯著差異,因為 8/9 的數來訪人數比 830 遊行當天的人數要更少。
我們可以用 BillyPan 提出網站來訪人數的數字來分析,八月份的前四個周末的平均來訪人數為 3193(同人不知為何會與 BillyPan 算的 3170 不同,但差距不大其分析結果會是一樣的),樣本標準差為 331.58。由此可以發現遊行當天部落格來訪人數的減少還小於樣本的標準差,顯見當天人數在 95% 的信心水準之下,並未達到顯著差異的標準。
這個分析結果其實己經打破了 BillyPan 的假設,沒有證據證明綠營支持者因為 830 遊行而減少上網,但他卻還在人們提出質疑用沒有被證實的理由來忽略它。這正如 Zulu 所說的:
在科學社群中之所以要有同行互審的規矩,就是避免有人用有問題的理論來騙不懂的人。但比利潘的 blog 就是個政治 blog,裡面的統計學、數學式、GIS 目的並不是呈現真實而是為了政治宣傳服務,換句話說,統計學在他那裡只是一種修辭法。
比利潘質疑我的推論說「部落格讀者會累積,拿後面的數字來算,覺得前面的數字減少,很可能是因為讀者越來越多,而不是因為遊行的關係。」如果讀者數會隨時間變化,那他自己憑什麼用830的值和平均值的差代表上街人數?畢竟他那套的推估也是建立在整組資料對時間的相對穩定性上面。無論如何,我簡單地算了一下,微弱的增加趨勢也許存在,但8月9日的殘差還是遠遠高過8月30日。意思說,我原來的主張還是有道理的。如果比利潘那個推估法成立的話,8月9日的遊行人數應該遠遠多過830才對。
同人看到 BillyPan 那篇文章在 funP 的推薦數字,覺得還真是令人不禁感慨呀。知識份子運用科學方法來進行政治宣傳的修辭,但願是基於無知;否則拿別有用心的方式來誤導不懂的人,實在是比無知更可怕萬分。子曰:爾愛其羊,我愛其禮。參加遊行的人數或許是個見人見智的問題,但扯出刻意扭曲的科學方法,只會令我輩等知識份子所不齒的呀。
上網減少人數和遊行人數會有多大關連?披著統計學的外衣幹這種愚蠢的事。在billypan的網格上版主是講不贏的,就好像扁就算說再怎麼不可置信的謊言都有人當真理一樣,在billypan的網格裡也由一群狂熱的擁護者。
我覺得故意誤導的人比不懂裝懂的人更可惡。
另外這篇提到什麼統計學之類的,我一整個外行XD
@hala,我沒並要去 billypan 那邊踢館,只有口水的政治辯論對我一點意義都沒有。這篇文章只是表達正確的統計學觀念而已。
@carloschen,我想想看要不要寫一篇介紹統計學基本觀念的文章,來幫助您了解本文。請密切注意本網誌。 😀
取暖有了所謂的科學化理由,就更暖了:P
那個部落格我都當成笑話看
所有用繆論推論出來為政治服務的文章
都有多少不一的漏洞
被質疑時不敢正面回答只會硬拗
不過一堆頭腦不清楚的信徒卻看的津津有味
你一直弄錯,母體不是『830 遊行當天全台政治傾向偏綠的部落格點閱人數降低的比例』而是『可能閱讀抽樣部落格的潛在網友數目』。我寫在文章的一開始了。
真正要認真作的話,是去調查這群讀者中每個人的開機上網行為。這麼大的母群體大概要觀察個上千人才準,我不是市調公司當然辦不到,就以部落格的點閱率變化來代替這樣的調查。
我沒有要算所有部落格的平均人數的變化,那不是我的方法,所以你說n=1,是誤解了我的意思。
這篇本來就是kuso之文,我早就寫了『用這樣前所未見,異想天開的估計方法』,方法學沒問題才有鬼。不過你弄錯了我的原意~
BillyPan,看到你的回應,覺得你可憐得又無知又傲慢;誰弄錯並不是看誰片面聲稱,而是大家可以用客觀的資料與數據來檢驗。更何況你在上面的回應也承認了方法有鬼,難道你真的是故意騙不懂統計學的人嗎?這樣我真的對你相當不齒!
你把全國上網人數取四成一當做綠營支持者的人數,也就是你文中所稱的 X。把 X 中在遊行當天來訪人數下降的比例當做 Y%。如果母體不是830 遊行當天全台政治傾向偏綠的部落格訪客,請問你拿 X * Y% 是什麼意思呢?
好,就算照你所說,你的 n 不是 1,但你只取了 1 個月的五個周末資料,n = 5。就算不考慮樣本數太少,算出來 830 當天人數減少也在標準差之下,難道你不了解你部落格當天人數的減少還在標準範圍之內,也就是人數的減少並未達到顯著差異,你的假設已被推翻,難道你是真的不懂統計學與量化研究方法,還是要騙不懂統計學的社會大眾?
再機會教育一下:
不管多大的母體,樣本只要超過 25-30 以上就夠了,只是怕抽樣不夠隨機而已。因此問卷調查的預測不準通常不是樣本數不足,而是抽樣方法所抽到的樣本不夠隨機,無法用中央極限定理以樣本的統計量來逼近母體參數。
自動引用通知: 同人的生活派對 » 統計推論的生活化觀念
自動引用通知: 選舉文宣的道德 « 同人的生活派對