大數據決策分析盲點大突破10講:我分類故我在
作  者╱
何宗武
出版社別╱
五南
書  系╱
博雅科普
出版日期╱
2018/08/01   (1版 1刷)
  

若無法看見預覽文件請按此下載


I  S  B  N ╱
978-957-11-9806-4
書  號╱
RM43
頁  數╱
360
開  數╱
20K
定  價╱
450 (特價 356)


★只有這本書!教你比程式語言更重要的數據思維!

在未來,容易上手的程式語言與免費的教材只會越來越普及,
唯有絕佳的 資料素養 和 決策分析能力 才能真正讓你出類拔萃!

◎內行引入門→本書作者實力雄厚,擁有多年教學經驗,更是R語言中文版的編譯者。
◎功力就大增→解析型企業、時間序列、決策樹、隨機森林等十個大數據核心講題幫你全方位大提升!
◎思維超展開→程式語言專業講解與發人省思的分析探討同步幫你掌握關鍵。
◎展望大未來→每講皆以國際化的大數據時事開頭,引發學習興趣,增進視野高度!

※※書中附贈豐富資料檔案做學習使用,請至本公司網站http://www.wunan.com.tw,輸入書號 RM43,即可找到下載處。

我分類故我在!大數據也要大思維!思維革新比數據技術更重要!

在商業分析和商業智慧的脈絡下,建構大數據,而不是從巨量資料當中大海撈針。
如果只是把資料變大,認知學習能力的維度卻沒有變大,接下來會如何?從少量數據都學習不到的價值,大數據只是讓它更遙不可及。

大數據時代來臨,獲取數據和資訊的技術越發精進,每天產生的數據量也越來越龐大,該如何使龐大資訊發揮影響力?在未來,容易上手的程式語言與免費的教材只會越來越普及,唯有絕佳的資料素養和決策分析能力才能真正讓你出類拔萃!

作者鑽研R語言多年、擁有資深學界經驗,貢獻良多。本書內容豐富,以十個面向切入,探討大數據所必備的工具,例如R Commander、決策樹、隨機森林與R語言強大的視覺化功能。除了概念解析之外,作者更逐行解析專業程式語言,再加碼實際操作與應用功能說明,在每講的最後,還能領略作者獨到的觀念釐清,讓你不會迷失在大數據的眉角中。非常適合做為R語言的基礎自學書,對於初入大數據領域的讀者如同暮鼓晨鐘、醍醐灌頂。
※書籍推薦人
嘉實資訊總經理 李政霖 我好評故我推薦
※推薦文
比爾蓋茲曾說「蒐集、管理和使用資料的方式,決定了輸贏!」科學家們則說「繼蒸汽,電力,石油之後,下一次工業革命的生產要素是 『 資料 』!」特別是人工智慧的發展,需要大量的數據,於是,資料科學就成為未來非常重要的一個領域。
  如何把「資料」變成「資訊」,是資料科學的重大課題,過往台灣廠商在電腦硬體上表現的很好,生產的電腦及各種資訊終端,蒐集了大量的資料,也處理了大量的資料,但如果我們在如何運用資料上缺席了,在下一波的競逐中,就會愈來愈落後。
  幸好台灣還有一些資料科學家,看到這樣的現象,不斷的寫文章,寫書,把畢生所學,毫無保留的介紹給大家,希望能夠結合更多的有識之士,讓台灣在硬體奇蹟之後,再創另一個高峰。
  何宗武老師就是其中一位這樣的資料科學家。
  何老師令人感佩之處在於,他長期在資料科學領域耕耘,明知道這是趨勢,但卻從來不趕流行,反而扎扎實實,一步一腳印的深耕於資料科學領域。他說,大數據不是口號,是思維,是內化為個人與企業決策的一部分,這些年來,他不斷的寫作出書,帶領著我們這些資料科學的門外漢,一步一步的走進這個新的殿堂。

  在大數據,人工智慧等口號響徹雲霄之際,何老師大道至簡,從根柢說起,寫出了《我分類故我在》這本新書,在書裡,老師搭配R語言相關套件,從最基礎的平均數與變異數、時間序列、期望值與信賴區間和線性迴歸,由淺入深,一路介紹到集群分析、決策樹及隨機森林。就像是一本大數據乾坤大挪移的武功祕笈,陪著我們一層一層的修練,最終可以把數據化為決策。
  這幾年來,我服務的公司嘉實資訊,從金融資訊供應商往交易決策平台的方向前進,我們試著透過程式語法,從龐雜的金融數據中,找到高機率不斷發生,且極可能瞬間即逝的交易機會。這當中,資料科學就像是習武之人必須不斷積累的內力,只有雄厚的內力,才能確保在尋找聖盃的道路上,不會走火入魔。
何老師的這本書,來的正是時候,可以讓有志於從事量化交易的朋友,帶著正確的觀念,處理金融相關的數據,很榮幸可以幫我這位優秀的學弟介紹這本書,一切,就從學會分類做起吧!
嘉實資訊總經理 李政霖 2018/07

何宗武

現任
國立台灣師範大學全球經營與策略研究所 教授

經歷
世新大學特聘教授
世新大學財務金融學系 教授
世新大學數量方法研究暨發展中心主任

  專長財務經濟學、金融大數據、計量經濟資料科學及程式語言等,著作多本相關書籍如:《R語言:深入淺出財經計量》、《R資料採礦與數據分析:以GUI套件Rattle結合程式語言實作》、《資料分析輕鬆學:R Commander高手捷徑》、《Eviews高手:財經計量應用手冊》

第1講 淺談解析型企業
第1節 大數據是因為他會長大
第2節 資料解析的兩個大數據環境
第3節 演算法
第4節 數據解析之資訊概論
第5節 測量的哲學──自我學習之路
第6節 本書安排

第2講 掌握資料的統計性質--分布
第1節 資料分布的前兩階動差--平均數和變異數
第2節 描述資料中央趨勢的兩組方法
第3節 資料分布的另外兩個動差
第4節 提審大數據

第3講 時間序列的分類分析
第1節 時間序列性質
第2節 時間序列分析-- 低頻
第3節 時間序列分析— 日高頻資料
第4節 時間序列分類分析— 日內高頻資料
第5節 提審大數據

第4講 線性模式的分類原理— 期望值與信賴區間
第1節 簡易統計原理
第2節 R Commander實作
第3節 R程式碼實作
第4節 提審大數據

第5講 二元模式的分類原理-Logistic迴歸
第1節 簡易廣義線性模型
第2節 R Commander的實作
第3節 R程式的實作
第4節 提審大數據

第6講 主成分的分類原理— 把資料變少了
第1節 簡易原理
第2節 R Commander的實作
第3節 R程式的實作
第4節 提審大數據

第7講 集群分析的分類原理
第1節 集群分析的基本概念
第2節 R Commander實作
第3節 R程式的實作
第4節 提審大數據

第8講 決策樹的分類原理
第1節 分類決策樹原理
第2節 用R GUI 實作
第3節 R Code
第4節 提審大數據

第9講 隨機森林
第1節 原理
第2節 R GUI實作
第3節 R Code實作
第4節 提審大數據

第10講 大數據行銷──購物籃分析
第1節 關聯的分類原理簡介
第2節 R GUI 實作
第3節 R code
第4節 提審大數據

附錄A
第1節 R 漫談和GUI簡介
第2節 R Commander的裝置
第3節 安裝與載入R commander

附錄B

附錄C
第1節 資料檔讀取
第2節 資料庫讀取
第3節 資料表處理的函數

Google
Analyti
cs 疑難雜症
大解惑:讓你恍
然大悟的37個
必備祕訣
漫畫+圖解財經
數學:學習經濟
和商用數學最容
易上手的方法
大數據逆轉力:
數據狂人、棒球
老教練和他不起
眼的球員們
區塊鏈的衝擊:
從比特幣、金融
科技到物聯網顛
覆社會結構的破
壞性創新技術
當虛擬實境和人
工智慧齊步走:
從現實、科幻、
產品、企業到未
來的影響
諾貝爾經濟學家
的故事



RM43資料檔.RAR



「大數據,大思維」這六個字是筆者在 2015 年受電視訪問時所強調的標題,當時會這麼講,是因為大數據過度強調資訊技術範疇,容易和企業進步所需要的成分格格不入。如果講大數據只是一個串流數據的科技設備,那麼大數據只是讓企業糾纏於資料庫規模與形式上的資料演算。一言以蔽之,所謂的大思維,就是數據時代下的解析型企業。解析型企業做的各類決策都跟數據解析有關,例如,行銷就變成 Analytical Marketing,風險管理就是 Analytical Risk Management。
數據解析就是以證據為基礎的決策行為,為什麼這件事重要?想像一下,如果你胸痛去看心臟科,醫生不實際檢查你的心臟,直接就裝三支支架;想像一下,你的醫生用直覺判斷某個藥物有用,不實際做生理檢驗,就直接開給你服用;想像一下,你會用大學成績單決定交往對象嗎?這樣的決策很恐怖的。我們應該蒐集資料,研究資訊進步,有更好的分析技術就應該學習,這就是改善決策的方法。
解析型企業最早由 Davenport2 提出類似的概念,後來 Lewis and Lee3(2015) 再以認知學習型企業 (Cognitive Enterprise) 擴充這個想法。數據解析能否對企業創造價值,原因就在於一個數據學習型的生態系沒有緊緊鏈接決策。我們可以和過去的「Metrics 量化」一詞比較來理解何謂「Analytics」:Metrics 是以指標 (例如,各種績效指標 Performance index)為基礎的量化系統,最具代表的就是把數字績效做成視覺化的雷達圖和儀表版;Analytics 則是以型態與關係 (Pattern and Correlation) 為基礎的類型辨識(Pattern Recognition)。以學生學習為例,教育上的 Metrics 量化的績效指標會用考試成績和出缺勤等數字,透過模型與演算法計算出好學生或壞學生的標準。Analytics則透過感測器 (sensor) 的數位記錄來瞭解學生學習模式,例如:教室參與和使用 e-learning 學習紀錄,利用投入狀況 (engagement inputs) 去測量一個學生努力學習過程 (process) 的曲線,而不是學習結果 (outcomes) 的曲線。若只是使用結果數據,可能會把一個正在努力向上的學 生退學了。實際案例可以看 Cathy O’Neil4 在其書上所抨擊的美國中學教師評鑑系統,將認真優秀教師解聘的案例。
所以,問題不是大數據,數據再大,但是方法論不改變,產出的結果並不會有什麼改善。資料科學協助企業的層面不只是用更多數據做量化,用大量數據從事 Metric 而不是 Anlaytics,就會造成 O’Neil 所謂的大災難。然而,我們也可以廣義的說:Analytics 是擴增維度的新量化 (Augmented NewMetrics)。
本書使用「解析型企業」一詞來說明與數據解析緊密結合的企業決策模式,是一個結合「機器智能」和「大腦智能」的解析型 (Analytical) 決策生態鏈,如圖 1。
沒預測,沒決策。數據解析產生預測 (Prediction),基於預測衍生出可行的策略 (Strategies) 集合,然後做出決策 (Decision),決策經過市場(Market) 檢驗而有績效,進而再回饋給資料分析。在這個物聯網導向的數據經濟時代,數據的紀錄蒐集和儲存都更容易,因此,每個人或多或少都要透過一定的數據來完成某些工作,例如:企業的行銷決策,要分析顧客行為和意見;個人購買特定商品時,要閱讀相關口碑數據;政黨提名候選人,也要做民調。過去是數字,現在是數位型態。
然而,雖然數據使用普及性增加,卻被幾種事物包裝出層層的進入障礙:第一就是被大數據包裝,將重點變成資料庫技術,數年下來,大數據三個字被炒作成比大小的工作,浮濫而且空洞;其次是被程式語言包裝,導致學習的重心變成寫程式的技術,甚至將問題炒作成哪個程式語言比較好,糾結於在 Python/R 或 Spark/Hadoop 上面學習演算法。數據科技帶來了演算法這些事務,如果只是把資料變大,認知學習能力的維度卻沒有變大,接下來會如何?也就是說,從少量數據都學習不到的價值,大數據只是讓它更遙不
可及。
事實上,整個數據事件與資料庫的大小無關,和決策事實有關。如果數據事件與企業決策制定無關,那就不是大數據解析;因為,如果和決策有關,數據會慢慢變大,意義也會愈來愈厚。所以,關鍵在於一個和決策深度連結的數據分與預測,資料庫不但會自己長大,更會面臨來自決策成功和失敗的結果,回頭修正預測,這就是所謂的認知學習 (Cognitive Learning)。現階段我們看到很多號稱機器學習 (Machine Learning) 架構,只有機器沒有學習。