五南官網

圖解統計與大數據

分享Facebook

作　　者╱

吳作樂、吳秉翰

出版社別╱

五南

書　　系╱

圖解系列

出版日期╱

2025/11/18 (3版 2刷)

I S B N ╱

978-626-343-648-0

書　　號╱

1HA9

頁　　數╱

264

開　　數╱

20K

定　　價╱

350 (特價 280)

●認識傳統統計與大數據的關係：Small Data vs. Big Data
●認識敘述統計、推論統計的意義及應用
●認識傳統統計、工程統計、大數據分析三者的關係

本書介紹在各個範疇會用到的統計，其中內容包涵傳統統計、基礎機率、工程統計、生物統計，以及2010年開始熱門的大數據分析。為了讓大家理解這些內容，本書使用深入淺出的說明，來認識各個範疇的統計意義，並了解統計如物理一樣，是用數學語言敘述的應用科學。
由於統計涵蓋相當大的領域，本書針對的對象為「小學到高中的學生及一般人的敘述統計」、「高中到大學的推論統計」、「社會人士所需要理解的大數據與統計」三大區塊。

吳作樂
學歷
國立台灣大學數學系學士
美國哥倫比亞大學數理統計博士
經歷
公共電視董事
長榮大學資訊管理系教授
數位內容創作學程主任
國家太空中心主任
國際宇宙航行學院 (International Academy of Astronautics) 院士
宏遠育成科技股份有限公司總經理
工研院電通所副所長
美國Bell core公司信號處理部研發經理(District Manager)
美國貝爾實驗室(Bell Labs) 衛星通訊部門研究員

吳秉翰
學歷
輔仁大學應用數學學士

前言
第一章　統計綱要
1-1 傳統統計與大數據分析有何不同　
1-2 傳統統計是什麼　
第二章　傳統統計
一、敘述統計
2-1 常用的圖表(1)—長條圖　
2-2 常用的圖表(2)—直方圖　
2-3 常用的圖表(3)—折線圖　
2-4 常用的圖表(4)—圓餅圖、雷射圖　
2-5 常用的圖表(5)—泡泡圖、區域圖　
2-6 平均經常是無用的統計量　
2-7 認識不一樣的平均數：加權平均數　
2-8 濫用平均的實例(1)—只看PISA的平均值：part 1　
2-9 濫用平均的實例(2)—只看PISA的平均值：part 2　
2-10 標準差是什麼　
2-11 常態分布　
2-12 偏態、眾數、中位數　
2-13 濫用平均的實例(3)—M型社會　
2-14 濫用平均的實例(4)—台灣的平均所得　
2-15 濫用平均的實例(5)—不要再看平均所得，要看中位數所得　
2-16 濫用平均的實例(6)—不要再看平均所得，要看圖表　
2-17 衡量資料分散程度的數值　
2-18 升學用到的統計：百分位數與偏差值　
2-19 濫用平均的實例(7)—85%的人有屋、幸福指數　
2-20 難以察覺的圖表錯誤—非洲比你想像的大很多　
二、推論統計的基礎機率
2-21 機率的意義
2-22 機率的分類　
2-23 隨機取樣的方法(1)　
2-24 隨機取樣的方法(2)　
2-25 獨立事件的機率　
2-26 條件機率　
2-27 利用樹狀圖計算機率　
2-28 貝氏定理　
2-29 排列與組合(1)　
2-30 排列與組合(2)　
2-31 核電真的安全嗎？保險費怎麼來？　
2-32 樂透1：各獎項的機率為多少　
2-33 樂透2：多久會開出一次頭獎　
2-34 撲克牌遊戲中，梭哈的牌面大小　
三、推論統計
1. 基本工具與常用的概率分布
2-35 認識二項分布、卜瓦松分布　
2-36 大數法則　
2-37 中央極限定理　
2-38 中央極限定理的歷史　
2-39 標準化　
2-40 常態分布的歷史與標準常態分布　
2-41 t分布與自由度　
2-42 t分布歷史與t分布表　
2-43 卡方分布與F分布　
2. 估計
2-44 估計(1)　
2-45 估計(2)　
2-46 比例的區間估計(1)—民調的區間估計　
2-47 比例的區間估計(2)—所需樣本數量　
2-48 區間估計的應用：民調　
3. 假設檢定
2-49 假設—虛無假設與對立假設　
2-50 檢定的概念　
2-51 已知母體標準差，母體平均數的z檢定　
2-52 p值法　
2-53 未知母體標準差，母體平均數的t檢定　
2-54 母體比例的檢定　
2-55 已知母體標準差，兩母體平均數的z檢定　
2-56 未知母體標準差，假設兩母體標準差相同，兩母體平均數的t檢定　
2-57 未知母體標準差，假設兩母體標準差不同，兩母體平均數的t檢定　
2-58 兩母體比例的檢定　
2-59 相依樣本的檢定　
2-60 兩母體變異數的F檢定　
2-61 ANOVA檢定(1)　
2-62 ANOVA檢定(2)　
2-63 卡方檢定(1)—適合度檢定　
2-64 卡方檢定(2)—列聯表分析　
4. 迴歸分析
2-65 迴歸線的由來　
2-66 圖案與迴歸線的關係　
2-67 迴歸線怎麼計算　
2-68 迴歸線的可信度　
2-69 複迴歸分析(1)　
2-70 複迴歸分析(2)　
2-71 複迴歸分析(3)　
四、生物統計
2-72 健保費與二項分布的關係　
2-73 統計野生動物的數量—捉放法　
2-74 醫療統計：判斷何種物質引起疾病、藥物是否有用　
第三章　工程與商業的統計應用
一、工程統計
3-1 資料探勘(1)—資料探勘的介紹　
3-2 資料探勘(2)—數據中的異常值　
3-3 資料探勘(3)—分群討論　
3-4 資料探勘的應用(1)　
3-5 資料探勘的應用(2)　
3-6 時間序列　
3-7 機器學習　
二、大數據的統計方法
3-8 什麼是大數據　
3-9 大數據的問題　
3-10 統計學界的統計分析與商業界的大數據分析之差異　
3-11 統計學界的統計分析與工程界的統計分析之差異　
3-12 大數據分析的起點　
3-13 資訊視覺化　
3-14 視覺分析的意義　
3-15 建議大數據該用的統計方法　
3-16 卡門濾波　
3-17 資訊科學家的定位、大數據結論　
3-18 大數據與機器學習 (1)—概要　
3-19 大數據與機器學習 (2)—蒙地卡羅法　
3-20 大數據與機器學習(3)—蒙地卡羅法的實際應用　
第四章　統計的應用、其他
4-1 物價指數　
4-2 失業率　
4-3 怎樣的房價是合理　
4-4 如何看貧富差距？官員與學者的爭論：馬有多少牙齒？　
4-5 嘆！不曾有正確民調與認知(1)—民調有哪些問題　
4-6 嘆！不曾有正確民調與認知(2)—民調該注意的重點　
4-7 嘆！不曾有正確民調與認知(3)—該怎麼發展　
附錄一　參考連結　
附錄二　常用的統計符號　
附錄三　如何使用z表　
附錄四　如何使用t表　
附錄五　如何使用F表　
附錄六　如何使用χ2表　


人工智慧基礎概論：AI規劃師我也可以成功做到	不用數字的研究：質性研究的思辯脈絡	用JASP完成論文分析與寫作 (完整版)

JASP應用統計分析進階	量化研究與統計分析：SPSS 與R資料分析範例解析	偏最小平方法結構方程模型：S martPLS 簡易實務應用

1-1 傳統統計與大數據分析有何不同
（一）傳統統計分析
傳統統計的歷史源自17世紀，一直到20世紀，統計的研究是希望從樣本推論到母體，所以都是以小樣本數為主，其原因是有效樣本的不易取得且太過昂貴，並且數據受太多因素互相干擾而不準確，所以早期的統計研究分為兩個階段。
第一階段：資料分析（Data Analysis）：研究如何收集、整理、歸納，描述資料中的數據和分散程度。第一階段的統計又被稱做探索性資料分析（Exploratory Data Analysis, EDA）。資料分析傾向於直接利用數據做判斷。
第二階段：推論統計（Inferential Statistics）：由第一階段的資料分析推理數學模型，由隨機且有效的樣本推論到全體情形，來幫助決策。第二階段的統計又被稱做數理統計，傾向於利用第一階段的結果，並排除不必要的極端值後，再作分析。
以前統計因為樣本取得不易，必須用少數有效樣本推理、決策。也因此做許多機率模型並驗證，最後有了目前的統計。
（二）大數據分析
到了21世紀的電腦時代，因為能獲得大量資料，不像以前的資料量比較少，工程界已經有能力可以處理大量資料的分析，直接用電腦做出各種視覺化（Visualization），再來加以分析。但是由於可以獲得大量資料，也導致了樣本不完全是隨機樣本，所以大數據的分析不能僅限於傳統統計的分析方法（隨機抽樣），必須用到工程統計多年發展的工具。一直到2010年網路的普及程度提高，商業界也意識到利用大量外部資料來分析商業行為是勢在必行，所以商業界推出大數據分析（Big data）的統計方法，但其實目前大數據分析就是工程界上早已使用大量數據的統計分析。
處理大量資料的分析，又稱資料科學（Data Science），現狀是使用者不用完全懂統計的原理，只要會操作電腦來進行視覺化及分析，期望從中找到有用的資訊。當然這樣的方法在統計觀點是較不嚴謹的，但仍有助於分析。也正因為大數據的不嚴謹性，普遍地不被大多數統計學家認同是有效的統計方法。但在作者觀點，數據視覺化的提升可被認定是在敘述統計範疇內，並且使用的方法是工程統計的方法（Predictive Analytics），所以大數據分析可被歸類在統計之中，當然如果要很完整且有效的被利用，則需要數理統計的證明。
（三）統計分析與大數據分析的異同
由以上的內容可知，統計與資訊、通訊工程師具有密切相關性，可參考圖1、2。然而實際情形卻是兩者間有著很大的距離，各走各的路。其中有許多內容，數理統計已經研究出內容，但因為溝通的不易，工程師也不知道其統計內容，而自行開發程式與統計內容。同時工程師開發的統計工具，因缺乏嚴謹的統計模型，在某程度上的討論具有高度風險性。
以工程界為例，如果有問題可以很快檢測出來，但如果是社會、醫療、人文類的問題，容易受多重因素影響，不容易即時檢驗統計結果是否正確。所以工程師開發的統計程式，在某些情形下沒有數學嚴謹的統計理論支持，容易失去準確性。同理在商業上的大數據分析使用也要更小心。
（四）結論
我們可以發現統計的演變，從少量數據來推論數學模型，進而做出推論。然而在21世紀可獲得大量數據，並利用電腦跳過部分數學模型，利用視覺化來分析，科技的改變帶動統計的進步，當然視覺化的分析，裡面仍然是藏著數學模型在內，並且也需要數學的驗證，只不過仍在研究中，但已經可由視覺化來幫助分析。
大數據的時代比起以往更需要統計分析來驗證，利用數據圖像化、視覺化、即時互動來協助判斷，換句話說大數據就是更精細的敘述統計，而非只是簡單的長條圖、或說是數據量太少的統計。以上的方法廣泛的應用在各門學科之上，從自然科學和社會科學到人文科學、統計學、經濟學、戰爭（如：飛彈遞迴修正路線），甚至被用來工商業及政府的情報決策之上。
本書用大量的圖表來認識統計、數據分析，利用圖案來說明統計來降低對數學式的陌生，並學習統計與生活相關的內容，最後認識大數據時代，數據圖像化、視覺化如何利用，並知道傳統統計與大數據的差異性，就是小樣本（Small data）與大樣本（Big data）的分析。了解這些內容後，就不會一昧的使用平均，或是被不會統計的人濫用統計來誤導思考方向。
1-2 傳統統計是什麼
傳統統計是什麼？簡單來說，主要分為兩類。
1. 敘述統計：觀察資料，從資料中發現資訊，將該資料的特徵與性質明確化。舉例：飲料店假日平均賣出50杯飲料。
2. 推論統計：從資料中分析出該資料趨勢，由部分的資料（稱為：樣本）推論出下一階段會是怎樣的情況。經由樣本資料推論出全部的情形（稱為：母體）。舉例：飲料店利用很多次銷售數量，得到平均可賣50杯，標準差為5杯，所以預測出下個周日95%可能會賣出40~60杯飲料。標準差的概念將在後面內容說明。
（一）樣本與母體的說明
統計首先需要收集資料，被稱為樣本，再由樣本資料，推論全體情況，全體在統計上稱為母體。舉例：母體以數量來看，就是浮在海上的冰塊加上海面下的冰塊，見圖1：但該圖是以少部分浮冰（海平面上）做為樣本來推論母體，這樣的樣本只取海平面以上的部分，取樣不夠隨機，真正的樣本資料應該具有隨機性，見圖2，這樣的取法才能讓少部分的資料代表整體。不幸的是社會上卻常常做取浮冰（海平面上）的調查，因為這樣有助於美化統計數字，將導致大家對統計的不信任，或是認為有人利用統計來騙人。
在推論統計中，為了分析過去資料來推論未來的情形，統計學家作了各種估計與檢定，建構了現代推論統計。其中建構現代統計的重要人物是數理統計學家尼曼（Jerzy Neyman：1894-1981）與皮爾森（Egon Sharpe Pearson：1895-1980），他們發明了由部分資料推論全體的估計，以及比較兩種資料的是否有差異的檢定基礎。統計的發展請參考圖3。
統計的實驗方法如何產生？這由英國統計學家、生物學家費雪（Ronald Aylmer fisher：180-1962）設計，據說他在喝紅茶時聽到有人提到杯子先放紅茶還是先放牛奶，味道會有所不同，進而引發動機去設計實驗，最後有了實驗設計法。費雪替現代推論統計奠定基礎。
（二）敘述統計與推論統計的優缺點
1.敘述統計
敘述統計的優點是令人可以快速了解資料的內容，如出處、數量，並得知母體的特徵與性質，如：考試成績常使用的平均，或是由小到大的最中間的數：中位數，這些都是屬於敘述統計的一部份。敘述統計可以明確的得到一些簡潔的數據，缺點是產生的統計量不一定是有效的分析，如：平均。
敘述統計可觀察圖表，令人直觀地看到變化，如長條圖，見圖4。圖表就是一種基本的數據視覺化，我們為什麼需要數據視覺化？因為一大堆數字不容易看出差異性，但數據視覺化後，圖表可以快速幫助找出差異性。
2.推論統計
推論統計的重點是由樣本來推論母體，不用獲得全部資料，事實上在絕大多數的情況都無法獲得太多有效數據，必須用估計的方法客觀推論母體的數值，以及利用檢定的方法判斷不同樣本間的差異。例如：某大學男學生的身高作隨機抽樣取50人取平均，得到平均身高為170，所以估計男學生身高約170。而女學生的身高作隨機抽樣取50人取平均，得到平均身高為160，所以估計女學生身高約160。發現男生比女生高，而男女之間比較身高是否真的是男生比女生高，就稱為檢定。推論統計的限制是不易收集有效且夠多的隨機樣本、且需要的數量往往價格昂貴，如：醫學上的疾病樣本。
（三）結論
敘述統計的意義就是利用統計量及圖表來快速做初步判斷；推論統計的意義就是使用嚴謹的統計工具，利用樣本推論母體。
再次將傳統統計與大數據作比較，大數據面臨比傳統統計更大量的數據，因為數據太多，難以用傳統統計的數據視覺化圖表判斷，而必須使用電腦軟體的數據視覺化來幫助分析；並且大數據的數據不能保證隨機（非隨機抽樣），所以大數據的範疇涵蓋傳統統計，所以也涵蓋工程統計。