這一章的重點,是說明低劣統計的製造方式:薄弱的猜測、含糊的定義、有問題的測量,以及貧乏的取樣。此時你可能會想,是不是所有統計都有問題,統計不過是個「該死的謊言」。難道沒有好的統計嗎?我們該如何分辨統計的好壞呢?
這一章指出的問題,其實也道出了好的統計所必須具備的部分條件。首先,*好的統計不能光靠猜測*。統計最基本的問題是:這個數字是怎麼算出來的?統計絕非十全十美,但某些缺點卻是要不得的。我們不該對猜測抱持太大的信心(即便是基於經驗或知識的猜測)。
請注意猜測的危險徵兆:提供統計數字的人是否有偏見,他們是否想證明問題非常普遍或極為少見?數字是否相當龐大、接近整數?統計所描述的,是否是個從未見過、不為人知而且還包括龐大黑數的社會問題(如果是,倡議者又是如何得出這個數字呢)?
第二,*好統計靠的是清楚合理的定義*。千萬記住,每一項統計調查都必須對研究對象加以定義。定義必須清楚,而且對外公開。個案不是定義,戲劇化且駭人驚悚的故事與最極端的案例更絕對不是定義。任何提出統計數據,用來描述社會問題的人,應該能夠並願意解釋用以製造數據的定義。定義通常很廣:能夠包含各種與舉例不同(且通常較為輕微)的案例。
我們要問的是:定義究竟多廣?定義包含了什麼?然後,問問自己,這些提出數據的人是否特別喜歡廣泛或狹隘的定義?原因是什麼?並且想想這些定義是否排除太多漏報個案,或納入太多誤報個案。
第三,*好統計的基礎是清楚合理的測量*。所有統計多少都與測量有關;儘管測量都不完美,但是各種缺陷的嚴重程度不一。提供統計者應有能力與意願解釋測量社會問題的方法,並做出明智的抉擇。如果提供數字的人持有某種偏見(偏好較大或較小的數字),那麼,該偏見可能就會反映在測量問題的方法。例如,他們可能會調整問題的措辭,以誘導某些回應,或是藉由特殊方法解讀。對於測量方法不明者,我們必須謹慎以對,思考究竟是怎樣的測量選擇,製造出這樣的統計數據。
最後,*好的統計數據要有好的樣本*。光是清楚合理的定義和測量還不夠。幾乎所有統計都是由小樣本推論到大規模母體,提供統計數據的人,應該解釋自己選擇樣本的方法。好的樣本能夠代表母體;理想上,這樣的樣本應該隨機抽出。格外留意樣本數少、非隨機的便利抽樣;這類樣本雖然取得容易、花費低,卻難以成為全面性推論的基礎。記得問問自己,選擇的樣本會怎樣扭曲最後的統計結果。
好的統計所具備的共同特徵,是我們不只看到一個數字;我們還看到數字背後的定義內涵、測量方法與抽樣方式,也就是得出數字的完整過程。當報告隱瞞了這些訊息,我們絕對有理由懷疑數字的真假。
摘自 《統計數字是事實?是謊言?》 商周出版社 提供
(http://www.dajiyuan.com)