登入會員
品牌介紹
關於我們
企業徵才
客服中心
會員專區
與我連絡
申訴信箱
FAQ
電子報
書目下載
圖書總覽
服務推薦
教學網
考用網站
首頁
書目下載
會員專區
與我連絡
飛躍六十 迎向百年
法律/政治
法律
政治、公共事務
財經/商管/觀光
財經、商管、統計
觀光、餐旅、休閒
文/史/哲/期刊
辭書、總類
語言、文學
歷史、哲學、宗教
藝術、設計、文創
學術期刊
理工/醫護
理工
醫護暨生命科學
農林漁牧
教育/心理/傳播
教育
心理、諮商與輔導
社會、傳播(影視)
小五南/中等教育
小五南
電機與電子群
餐旅群
家政群
商業與管理群
英文
藝術群
農業群
食品群
【春節延後出貨公告】 親愛的五南會員:您好,適逢春節假期,五南官網均可正常下單購買, 惟2/5(一)中午12:00之後的網站訂單,物流停止送貨,將延至2/15(四)開工後正常出貨, 造成不便敬請見諒,五南祝您新年快樂!
分享
財經、商管、統計
大數據時代的決策思維:資料敘事的起承轉合
Data Narrative
作 者:
何宗武
出版社別:
五南
出版日期:2021/07/07(1版1刷)
ISBN:978-986-522-850-7
E I S B N:9789865228538
書 號:1FAK
頁 數:232
開 數:25K
定 價:450元
優惠價格:360元
主題書展
9/2-10/31 2024五南開學祭!論文/法律政治/教育/社會心理/電機理工/數學物理/化學程式/醫護/農林漁牧/教科書8折起,特價書99元起,全站滿550打95折
滿額優惠折扣
9/2-10/31 五南開學祭!全站滿550再95折
1FAK.RAR
林育秀 中正大學資訊管理學系 助理教授 許育峯 中正大學會計與資訊科技學系 助理教授 陳若盈 台灣羅伯特博世(Robert Bosch GmbH)資深採購專員 蔡馨儀 台北牛乳大王連鎖事業副總經理 羅至美 臺北大學公共行政暨政策學系教授、歐盟莫內講座教授 (依姓氏筆劃順序)
知識如何成為決策智慧?如何從這些資料衍生出未來的創新政策?大數據決策的素養在於明確地知道您的決策問題,然後能思考需要哪些資料提供資訊,並運用經濟理論對資料進行實證分析。 面對未來五年的產業趨勢,您要如何對不確定性做資料敘事? 一個社會經濟的架構可以發掘很多現象,這是資料敘事的關鍵。我們利用敘事將「知識」轉換成「智慧」,主要在於賦予數據獲得一個明確的價值和行動目標,決策者必須能夠利用資料支持對公司經營目標的敘事。分析就是從多到少,大到小的探索與解析過程,從資料到智慧,就是一個步步結晶的思考和敘事過程。 本書從資料敘事的起承轉合、如何分析資料的意義,到案例研討,一步步帶領讀者,針對商業實務上遇到的問題,獨立設計出解決方案的流程。
何宗武 現任 臺灣師範大學全球經營與策略研究所 教授 經歷 世新大學特聘教授 專長為財務經濟學、金融大數據、計量經濟資料科學及程式語言等。著作多本相關書籍,如:《數位創新:商業模式經濟學》、《大數據決策分析盲點大突破10講:我分類故我在》、《管理數學與Python:數據分析的必修課》、《R語言:深入淺出財經計量》、《R資料採礦與數據分析:以GUI套件Rattle結合程式語言實作》、《資料分析輕鬆學:R Commander高手捷徑》、《Eviews高手:財經計量應用手冊》。
推薦序-一起來磨練駕馭資料的基本功 林育秀
推薦序-培養獨立思考的能力 許育峰
推薦序-讓我們透過案例,更加具體察覺自己思考的脈絡 陳若盈
推薦序-誠摯邀請您從讀故事的角度啟程 蔡馨儀
推薦序-大數據的意義與價值在於決策 羅至美
序-資料敘事的決策本質 何宗武
Part 1 資料敘事的起承轉合
01 起承轉合
1.1 資料→資訊→知識→智慧
1.2 排序→分類→預測→決策
1.3 資料敘事與策略風險的管理思維
02 測量的藝術
2.1 從公式解釋測量的意義
2.2 兩組中央趨勢
2.3 小心比較的陷阱
2.4 需要的資料往往不大
03 分類:數據之道一以貫之
3.1 監督式學習用直欄(解釋)變數X 對Y 的數據列分類
3.2 非監督式學習用直欄(解釋)變數X 對資料的列ID分類
3.3 類神經深層學習:以一貫之的數據之道
04 文字分析
Part 2 兩性問題
05 異質性
5.1 同質和異質
5.2 難解的異質性─資料偏誤(Data Bias)
5.3 交叉驗證法
06 內生性
6.1 內生性在哪裡?
6.2 因果經濟學
6.3 都是內生性惹的禍
Part 3 案例研討
07 推薦系統靈不靈?
7.1 問題簡述
7.2 案例研討
08 視覺化敘事─ Be Informative
8.1 問題簡述
8.2 案例研討
09 TEJ 上市公司財報分析
9.1 資料說明與決策問題
9.2 實做案例研討
10 資料庫行銷
10.1 資料說明與決策問題
10.2 資料分析策略
11 十個小案例研討
11.1 電影票房
11.2 個案研究──消費者信用評等
11.3 個案研究─ Boston 住宅市場
11.4 個案研究──胖小孩問題
11.5 個案研究─糖尿病治療效果
11.6 個案研究─心臟病
11.7 個案研究──普查資料
11.8 請款單的貓膩在哪裡?
11.9 為什麼公司電費這麼高?
11.10 顧客流失要怎麼辦?
推薦序 一起來磨練駕馭資料的基本功 2020 年11 月中旬何宗武教授的一封演講及拜訪邀約信件,開啟了何教授與我的合作,平安夜應何教授與林舒柔教授的邀約,前往臺灣師範大學管理學院全球經營與策略研究所進行主題演講:「Big data in healthcare: A lesson fromNHIRD」,何教授對該次演講給了精闢的結論:「大數據氾濫成災,深度機器學習浮濫無比,學術的根本問題卻始終如一:大哉提問和大哉回應。」以此回應我於演講中的一張投影片「Big Answers to Big Questions」。 何教授在計量資料科學領域中有著豐厚的經驗,並側重於數據分析後的策略管理,此為許多著重數據分析者較為薄弱之處,因此,今年5 月在COVID-19 疫情尚未爆發之前,我力邀何教授至敝人所任教之中正大學資訊管理學系進行專題演講, 主題為:「Data Narrative and Visualization: I visualize,therefore I am」,以副標題致敬「我思,故我在」,更是提醒學生們在面對龐大的數據時,如何找到正確的方法分析、如何以敘事的方式承、如何讓管理者可一眼見到報表的重點,以及如何協助管理者做出正確的決策。 當接到何教授邀請我寫此書《大數據時代的決策思維:資料敘事的起承轉合》推薦序時,備感榮幸。拜讀完此書後,發現此書恰好可與日前的演講主題連接,在現今舉目可見「大數據」的時代,學生們爭先恐後地想當一名「資料科學家」,但在第一線的教學現場會發現,學生往往缺乏資料敘事的能力,追根究柢,絕大原因源自於統計數理知識的不紮實、領域知識的欠缺,以及過往訓練往往是給予已完成整理的資料集直接進行分析,因此學生欠缺整備資料的實戰能力、不知該如何呈現結果、甚至倒果為因。 何教授於本書中開宗明義定義出資料敘事精神的起承轉合,可表現成「資料→資訊→知識→智慧」,乃至「排序→分類→預測→決策」,以深入淺出的方式,並採用許多個案研究,提供讀者了解在面對資料時,思考如何將粗糙的原始資料轉變為有用的智慧。最令我產生共鳴的是第8 章〈視覺化敘事── Be Informative〉,許多資料分析新手、職場新人最常犯的錯誤中,除了不知如何呈現重點外,另一個就是重點過多,進而導致視覺化的災難。何教授於本書中不同於一般教科書直接給答案,而是採用引導式的方法,以開放式問題,讓讀者可透過批判性思考,探索在面對此情境時該怎麼做比較好。 本書不僅適合經營管理決策者閱讀,亦適合初入資料科學領域、想要朝資料科學家發展的學生們閱讀,相信讀者們在閱讀完此書後,可領略出如何將資料進行整理,乃至將結果運用於決策;如何剖析資料,乃至匯集為智慧精華。 林育秀 中正大學資訊管理學系 推薦序 培養獨立思考的能力 何宗武教授是我在世新大學財金系服務時的同事。何老師是資料分析領域的專家,也是我十分敬重的學術前輩;因此當收到何老師的邀請,請我為他的新書寫推薦序時,我感到十分驚喜與榮幸。 在這本《大數據時代的決策思維》中,何宗武老師利用幾個不同的章節來說明什麼是資料分析,從Part 1 的「資料敘事的起承轉合」開始介紹資料、資訊、知識與智慧的不同,再到 Part 2 的「兩性問題」解釋資料分析中常見的異質性與內生性問題。在這些章節中,何老師除了不斷使用範例/案例來幫助讀者進行理解之外,亦不斷地提出問題讓讀者進行思考;藉由範例與問題思考,進一步幫助讀者學習,也讓讀者透過思考問題的過程進行腦力激盪,進一步激發出更多的想法。除此之外,在 Part 3 的「案例研討」,提供為數不少的案例讓讀者進行練習,書中除了進行解釋與說明之外,也讓讀者可以站在決策部門主管的角度,針對不同的情境與問題進行思考,進一步培養讀者在面對資料分析相關問題時,獨立思考的能力。 本書的內容包含了基礎觀念的說明、資料分析方法的介紹以及為數不少且種類多元的範例演練。透過本書,讀者可以學習到資料分析的基本概念以及需要留意的細節;也可以透過本書學習包含統計與機器學習的資料分析方法,更可以透過本書演練與實務相關的範例。同樣身為資料分析的研究者以及教授資料分析課程的老師,本人認為此書對有志學習資料分析的讀者來說,是不可多得的好書。 許育峯 國立中正大學會計與資訊科技學系 助理教授 推薦序 讓我們透過案例,更加具體察覺自己思考的脈絡 第一次見到何老師是在印老師的經濟學課堂上,但真正能夠跟何老師互動是在大數據決策分析這堂課當中。在選課前,就不少同學討論著大數據這門課聽起來很硬耶,選這堂課好嗎?該不會要寫程式吧!還好老師第一堂課就特別說明授課對象是身為中高階經理人的EMBA 學生,因此不會教寫程式,而是教授如何看懂數據並能夠透過數據進行決策。 曾經因為工作的關係,經常需要將ERP 內的資料轉換成知識,因此當老師談論起資料的素養時,只能說真的超有感。生活在大數據時代的我們,即使不會寫程式,但每一分鐘每一秒都有可能創造出無數筆的數據。對於基層的員工來說,數據的世界對他們來說似乎是很遙遠,但其實不然。會單純地認為不需要數據的觀念,只因為他們並非資料的使用者。我也曾經試著將分析的工作指配給下屬,但僅是要求他們將資料轉換成知識,就已經有某種程度的困難。詢問他們在由資料轉換成知識的過程中遇到了什麼困難時,卻沒有人可以回答我,而我也不知道該如何有系統地解釋這轉換的過程。當我被問為什麼要這麼分類,又該分幾類時,我最常的回答是:你久了就知道怎麼分類了。這對員工來說並不是個有效的答案,但我也不知道該如何解釋。如果連最基礎的資料轉換成知識都有困難,更別說是進一步進到敘事了。 對於已經擅長拿資料來說故事的人而言,資料的轉換絕對不是個問題。反而是在視覺化敘事上很容易陷入迷思。最常見的場景是會議上在PPT 裡呈現了一張乍看下很厲害的圖,圖上又標滿了數字與文字。可能與會者還來不及看清楚,就已經進到下一頁,就只能被簡報者帶著走。我想這是很多人常用的伎倆,包括我也是。因此當上到視覺化敘事那堂課的時候,有一種被拿照妖鏡照的感覺。當我捫心自問好的視覺化敘事是什麼的時候?我的答案絕對不會是一張看了五分鐘還沒看出重點的圖表。 上完12 堂大數據的課程後,你問我這堂課真的很硬嗎?我想我的答案是課不硬,但很燒腦而且後座力很強。用語言及文字來解釋及梳理思考的方式,我想真的很難不燒腦。因此老師更透過案例的方式,讓大家更加具體地察覺自己思考的脈絡。有幸能夠參與這堂課的課程,老師透過這本書的出版,讓更多無法參與課程的朋友也能夠一起體驗一下燒腦後的快感。對我來說《大數據時代的決策思維》是一本教你如何思考的工具書,「資料敘事的起承轉合」更是畫龍點睛地說明了這本書所要傳達的意涵。 陳若盈 台灣羅伯特博世(Robert Bosch GmbH)資深採購專員 臺師大管理學院EMBA 108 級畢業 推薦序 誠摯邀請您從讀故事的角度啟程 我是典型「數學考不好趕緊選文組」的學生,殊不知到了工作上,從建置資料庫留存基礎的人事、顧客關係、進銷存記錄,到運用各項營收報表來管理連鎖餐飲業各門市的經營,再到決策是否該大舉投入外送市場,樣樣需要數字作為依憑。初選修「大數據」課程時覺得特別緊張,似乎要用到很多專業統計呢,我該怎麼辦?親切的何宗武教授特別撥冗在開學前就為我們釋疑──重點原來在「決策分析」,換句話說,就是你發現了什麼問題(遇到一個需要決策的目標),然後可以怎樣解決(需要哪些數據資料分析),而各種工具都是為了要幫助你的預測能更貼近趨勢。當問題意識越清楚,對資料的脈絡可以解釋得更清楚,大數據所呈現出的就不僅是量,而是有意義的維度。 2020 年2 月,從全程戴口罩到課,逐週演變為聽老師線上開講的我們,也在預測「口罩短缺情形何時解除」、「東京奧運何時宣布延期」等主題作業中,學習找尋更多可測量的變數標的。面對這場未知的大疫,除了追蹤國內外每日發布的確診、死亡人數與走勢,閱讀媒體上關於疫苗研發進程與口罩產量的報導,我們幾位同學也各自分工從路邊日常著手,觀察醫院急診室外發燒篩檢站設置的情形,評估住家附近藥局領口罩的排隊人潮,也記錄下EMBA 高階經理人們相互交換關於產業面衝擊和因應的資訊。儘管時至本書出版的此刻,全球都尚未度過病毒反覆襲擾而低迷的危機,不過在老師鼓勵我們持續登載的記錄中,仍可看到部分因隔離而成長火爆的商品如直播週邊設備,以及為滿足民生所需發展出的虛擬社交新商模,已在人類強韌的求生與適應過程中帶來點滴轉變既有生態的可能性。 感謝何老師將豐富的課程內容再精選成書。在AI、演算法、大數據蔚為最潮關鍵字的今日,若翻開此頁的讀者也跟我一樣,曾被升學考試打擊但現在不得不與數據直球對決,誠摯邀請您可以先從讀故事的角度啟程。博學的何老師文筆生動、案例解說循序漸進,最重要的是,您可以很容易地感受到老師入世犀利又充滿關懷的眼光──在引領我們探索供需、風險種種議題的同時,老師也提醒我們企業管理最終應為社會的共善、永續貢獻己力。如何應用數據幫助在捷運站外叫賣餅乾的身心障礙者找到做慈善以外的經營策略?我將老師在課堂中拋出的這題謹記於此,也歡迎更多朋友在研究與實務的路上與我一起細細思索前行。 蔡馨儀 台北牛乳大王連鎖事業副總經理 臺師大管理學院EMBA 108 級畢業 推薦序 大數據的意義與價值在於決策 大數據(big data)一詞近年來成為各界──從學界、商界到政界──最常見使用的時髦用語。如果說1990 年代以來的代表詞是「全球化」,那麼說2010 年代之後的代表詞是「大數據」,應無庸置疑。到Google 鍵入big data,可以得到超 過90 億筆資料。「大數據」不僅成為當代主流思維中「唯一的遊戲」(所謂的“the only game in town”),更成為指導行為決策的聖經。 但大數據的本質與意義,就如同本書作者所指出的,「資料的實質問題,從來沒有改變:決策」。是的,它的意義與價值在於「決策」。如何把數據資料轉換成有意義的資訊、知識、形成智慧,進而導出正確、完美的決策,實為大數據真正的價值所在。目前多數討論大數據關注在如何寫程式、操作大數據、如何取得數據資料、探勘挖礦等前端作業,而較少見討論如何解讀大數據、分析大數據等後端的意義賦予。然而,後端的意義賦予無疑是大數據對人類行為決策所能產生的最大意義之所在。因此,對後端意義討論的忽視,是目前對大數據學習的一個很重大、也很關鍵的missing link。 本書的出版因此意義重大。它是國內少見由前端到後端完整討論大數據的專書。本文的作者以深入淺出的「起、承、轉、合」,完整地解釋與說明大數據的知識體系。由問題與現象出現的「起」,進行大數據資料蒐集與程式設計的「承」,再到如何將蒐集到的大數據進行意義解讀與分析的「轉」,最後導出如何解決問題的「合」。其中所涉及到的學科能力不只是量化研究、電腦語言的專業知識,還包括對社會科學──從經濟學、政治學到社會學──的知識涵養與積累。 我敬愛的學長──何宗武教授,無疑是擔任此一艱深任務的最佳人選。何教授是我在臺大政治系的學長,畢業後留學美國轉攻經濟學,在Univ. of Utah 取得經濟學博士。學長在臺大政治系時對思考辯證類學科(如政治哲學)的興趣與用功,以及他負笈Univ. of Utah 在該校所受到的電腦科學、計量經濟學的訓練,此一橫跨政治學、經濟學、電腦科學的多學科專業背景,使得他是國內少數,如果不是唯一,能將大數據此一學科,進行技術與知識一系列完整說明之專家。 我受邀為何教授的大作寫序,既感到惶恐,又感到榮幸。惶恐的是在這位大數據大師面前,任何推薦介紹都會顯得不夠專業。感到榮幸是因為何教授是我極為敬佩的學者,多年來幾次與何教授就專業問題的討論,均對我啟發良多。今日有幸為文作序,只怕是野人獻曝、班門弄斧了。 羅至美 臺北大學公共行政暨政策學系教授、歐盟莫內講座教授 2021 年春於台北
Part1 資料敘事的起承轉合 資料敘事的精神就是「起→承→轉→合」,可以表現成「資料→資訊→知識→智慧」,也可以表現成具有統計色彩的「排序→分類→預測→決策」。因應不同的敘事需求和資料的結構特性,可以自己做適當的設計。 資料敘事的目的是說服,因此需要幾項元素: (1) 一個為什麼(A Why):作為敘事核心,也就是你欲傳遞的訊息(message)。 (2) 一個故事(A Story):用來包裝欲傳遞的訊息。 (3) 一些資料(Some data):賦予故事可信度。 (4) 將故事視覺化:可以用隱喻(metaphors)提高說服力,如「學如逆水行舟,不進則退」。 說明上述元素最簡單的方法就是用一張照片。圖 1 是休學一年參與全球暖化運動的瑞典環保小鬥士 Greta Thunberg。Greta 的行動引起了全球廣大注意,也當選 2019 年時代雜誌的年度風雲人物圖 1(A)。當然,酸民無國界,樹大招風,越大樹招來更大的風,反面批評也隨之而來。當年宣揚全球暖化的美國副總統高爾,因為搭乘私人噴射機演講,而遭致批評,Greta 也針對此有了她的敘事元素;我們主要藉由圖 1(B) 的照片說明資料敘事的元素。 圖 1(B) 的敘事目標是「全球暖化刻不容緩」,Greta 搭船表達訴求,它的故事和資料如下: 故事: 高爾先生,您或許已經是生理上的成年人,但是心智上的成熟卻不足以理解生態危機的迫切。如果您懂得生態危機,就不會開著私人噴射機去參與全球暖化會議。您可以用 Skype,或像我一樣的方式(船)來降低碳足跡。您的行為就像大多數小孩子一樣不成熟。 資料: (1) 環境問題就像我身後的海浪,很危險。 (2) 極低碳足跡的交通方式,如船運,可能降低碳足跡。 (3) 因為嚴重且迫切,我的罷課微不足道。 (4) 噴射機旅行生產大量二氧化碳,但是,有替代方案—船。 Greta 持續舉牌表達訴求,最近也參與「撤回共同農業政策(Withdraw Common Agricultural Policy, CAP)」歐盟法案的運動,如圖 1(C)。 資料敘事是一個視覺化設計取向的作法。敘事將知識轉化為智慧,也就是具有高度說服力的作品。視覺化放在第 8 章談。接下來做詳細說明。 01起承轉合 1.1 資料 → 資訊 → 知識 → 智慧 要掌握資料分析,先正確認識「分析(analysis)」這兩個字。「分析」是由大見小的探索活動,好比面對物質(matter),分析物質就是探索構成物質的粒子是什麼。構成物質的粒子是分子(molecule),分子是一種構成物質的粒子,呈電中性且由單個或多個原子組成,原子之間因化學鍵而鍵結。由分子組成的物質叫分子化合物。那構成分子的粒子是原子,儘管原子的英文名稱(atom)本意是不能被進一步分割的最小粒子,但是在現代物理學,原子實際上包含了很多不同的次原子粒子。它們分別是電子、質子和中子。一言以蔽之,分析就是從多到少,大到小的探索與解析過程。因此,從資料到智慧,就是一個步步結晶的思考和敘事過程。 資料 → 資訊 → 知識 → 智慧 這四個過程的解釋如下:我們面對原始「資料」,好比一張 Excel 資料表,用敘述統計量製作的摘要就是「資訊」,此時資訊比資料少了很多,例如:原始 A 欄 1 千個員工的起薪薪資記錄,被平均數和標準差摘出基本資訊,這就是從資料到資訊。 從資訊到知識需要「架構」(framework),架構可以理解成樞紐分析表的樞紐變數,例如:「性別」。將 1 千個員工的薪資性別歸類,再計算兩群性別內員工起薪的平均和標準差,就成為初級型態的「知識」,知識需要詮釋理解和可信度確認。例如:我們發現男女平均薪資差別很大,是否代表公司有性別歧視呢?這就需要用進一步的統計方法確認「薪資的性別差異」隱含「性別歧視」。一旦屬實,代表我們對這種現象已經有所「知」(know),故為知識(knowledge)。我們不從哲學上的知識論(epistemology)使用知識一詞,知識不是真理,也不是理論,就是知道了原本不知道的現象。 從知識到智慧(wisdom)需要敘事(narrative),也就是說故事。敘事基本上就是根據知識發現,論述一個行動的倫理價值,例如:公司對新人的薪資有嚴重的性別差異,為了不讓性別差異惡化為性別歧視,公司將致力於「公平」。 上面這個例子,是不是跟 2020 年 Google 內部的 AI 女性工程師發現的問題類似?資料分析是需要有方向的。不同的資料,有不同的方向。關於敘事,本章第3 節會完整地說明一次。 基本上我們可以從價值稀少性(scarcity)來看資料到智慧的意義提煉過程,如下: 資料 > 資訊 > 知識 > 智慧 原始資料一定最多,經過摘要濃縮後就會少很多,資訊再提煉成知識,需要意義和可靠性。最後就是智慧。智慧就是變聰明,一項(大)數據分析的專案,最後當然要讓組織變聰明(smart),組織更有智慧設計與執行各種行動方案。然而。從知識到智慧並不是技術性的,而是和人的思考緊密關聯。知識往往出現一些彼此衝突的結果或風險狀態,決策者就必須理解將對立融合。 接下來我們練練手。下圖1.1-1 是「資料、資訊、知識和智慧」的對應說明。最底層的資料就是原始資料,好比冰箱的食材;資訊就是食材的分類與意義;知識就是對於食材的各種組合,也就是食譜;智慧就是知道要做什麼來吃對自己健康最好。 從資訊到知識需要一個或多個架構(framework)來濃縮資訊,圖 1.1-2 是資料科學平台 2020 年針對全世界資料科學家數量的調查(https://www.kaggle.com/c/kaggle-survey-2020),從原始數據排序後,我們發現印度遠遠高於其他國家,美國次之。圖 1.1-2 的資訊把所有國家都畫上去,因而呈現資訊過度負載的現象。因此,我們需要找架構來再處理。 這個架構也可以是用 55 個國家就經濟發展的概念將之分群,如圖 1.1-3。同時,計算了 2020 年的區域分布。這樣我們就知道更多的內容,雖然絕對人數是美國和印度最高,但是金磚四國(BRICS)的全球份額是全世界最高,當然,數理掛帥的印度功不可沒。 圖 1.1-2 到圖 1.1-3 就是知識萃取的過程—讓我們知道(know)更多資料隱含的知識(knowledge)。資訊到知識,架構是一個關鍵,架構不必是資料原有欄位,知識的提取需要對資訊問問題,研究者問題問得越好,知識的品質就越高。另外,避免大國的人口效應,用自己國家人口加權(percapita)的排序是一個好方法,可以看出相對比率。 我們可以用各國人口計算資料分析人員的人口密度。如圖 1.1-4,我們發現新加坡才是密度最高的國家,印度則排得很後面。所以,圖 1.1-4 反應了人力資源(資本)的狀況。然後,圖 1.1-4 也標出三個經濟區的平均,這樣就可以檢視哪一個經濟區內差異最大2。檢視差異稱為 Mind the gap,例如,解釋為什麼美國(0.14/10,000 人)遠高於金磚四國(0.03/10,000人)?差距接近 5 倍。 上述兩圖對於相對比重各有基數,要選擇哪一個,和您想要透過資料描述的決策智慧有關。到目前的介紹已經涵蓋了「資料」到「資訊」,和「資訊」到「知識」兩個步驟。最後,我們來看看從「知識」到「智慧」的方法。 「知識」到「智慧」和決策目標有關,簡而言之,知識如何成為決策智慧?因為牽涉決策,我們必須假設情境(situation), 例如: 一位新加坡負責科技創新的政府官員,要如何從這些資料衍生出未來的創新政策?情境認知 (situational awareness)是一個有用的技巧,也就是認識新加坡的世界位置。因為這個決策智慧和創新政策有關,接下來就要看此數據和創新的關係。圖 1.1-5 則是另外找一筆稱為「全球創新指數(Global innovation index)」的各國 2020 年數據作為架構,圖 1.1-5 展現明顯正相關(相關係數 80%),這就意味了對數據分析的重視和對創新的成功有類似的經濟意義。圖 1.1-5 的解讀可以由原點到國家畫一條直線,斜率越高的,資料分析對創新貢獻的效率就比較高,看起來新加坡的創新另有成因,中國致力於大數據社會建設,看起來是最高的。 綜合以上,架構的思考相當宏觀,以對市場和商業必須相當認識為前提,不是空想或亂講可以完事的。一個社會經濟的架構可以發掘很多現象,這是資料敘事的關鍵。 我們繼續看一個公司的例子。檔案 bankWage.xlsx 是某外商銀行的 475 位工作人員的每月薪資資料表。如下圖 1.1-6。 我們想探索起薪高低和哪些因素有關,先以學歷高低來看,繪製如上散布圖。 上圖 1.1-7 透過對原始資料的排序,可以呈現特定資訊類型,例如,以人數而言,學歷 15 年的較為集中,起薪最高的是學歷 19 年。進一步,透過學歷分群,下圖 1.1-8 是透過架構(framework)的樞紐連結表,可以呈現隱含的知識。 圖1.1-8 資訊,請問隱含哪些知識?依教育年數將員工歸類,可以算出不同教育年數的平均起薪,據此看出學歷越高,起薪也越高,兩者正相關;學歷越高,人數則相對較少。學歷最多的是高中畢業,也就是 12 年,有 190 人。 接下來,為了增加對這筆資料的認識(增加起薪的知識),我們可以向右增加欄位,擴增這張表。例如:由圖 1.1-6,我們可以增加性別,看看在不同學歷和起薪,男性女性人數如何分布,進一步,除了平均,還可以計算每一個教育年數的起薪最大值、最小值和標準差等等。這樣可以知道,起薪在各個教育年數中的發散和收斂的狀況。 思考問題 智慧是種結晶—(正反合)的融合敘事(narratives bysynthesis),一言以蔽之,你想做什麼?請你處理看看bankWage.xlsx 這筆資料。
0
1