1.1 資料探勘的意義與過程 資料探勘的緣由 1992年起,英國ISL軟體公司(Integral Solutions Limited)與英國薩塞克斯大學(University of Sussex)的人工智慧研究者合作,進行資料探勘工具的開發。開發者將該軟體命名為Clementine,並於1994年6月9日發布了Clementine的第一個正式版本。該軟體的最初版本執行在Unix平台上,大部分代碼是以Poplog環境中的POP-11語言寫成,一些對速度要求較高的組件(例如神經網路引擎)則由C語言寫成。為了贏得更廣闊的市場空間,ISL隨後通過NutCracker(MKS Toolkit)軟體套裝將Poplog環境移植到了微軟Windows平台,使得該軟體能在Windows上執行。 Clementine是世界上首款採用「圖形化使用者介面」(GUI)的資料探勘工具。在此之前,用戶必須透過編輯程式的方式來進行資料探勘。因此,該軟體一經推出便得到了尚處在發展早期的資料探勘領域的關注。同時,該軟體支援「表達式操作控制語言」(CLEM),專業用戶可以繼續選擇編輯程式的方式來對資料進行建模和分析。 1998年底,SPSS公司看到了該軟體作為商業資料探勘工具的擴充潛力,收購了ISL公司並繼續對其進行開發,收購後的軟體被稱為SPSS Clementine。在2000年初,軟體被重新組織為客戶端-伺服器(C/S)架構,隨後客戶端的前端介面用Java完全重寫,以期能與SPSS旗下的其他資料分析工具,更緊密的結合運用。 2008年,SPSS將該套裝軟體重新命名為SPSS PASW Modeler。翌年,IBM收購了SPSS公司,將該產品命名為IBM SPSS Modeler,這一名稱延續至今。 IBM SPSS Modeler提供擷取自機器學習、人工智慧以及統計資料的各種建模方法。「建模」選用區上提供的方法,可讓你根據資料衍生新資訊,以及開發預測模型。每種方法都具有特定的強度且最適合因應特定類型的問題。 建模方法分為以下幾種: " 監督式 " 關聯 " 分區段 「監督式模型」可協助組織預測已知結果,例如顧客是購買還是離開,或某交易是否符合某種已知詐欺型樣。其建模技術包含機器學習、規則歸納、子群組識別、統計技術和多模型產生。 「關聯模型」在預測多個結果時非常有用,例如購買了產品X的顧客也購買了產品Y和Z。關聯規則演算法相對於更標準的決策樹狀結構演算法(C5.0和C&RT)的優勢,在於關聯可以存在於任何屬性之間。決策樹狀結構演算法建置只有一個結果的規則,而關聯演算法會嘗試尋找許多規則,每個規則可能具有不同的結果。 「分區段模型」將資料劃分為具有類似輸入欄位型樣的記錄區段或集群。分區段模型只對輸入欄位感興趣,沒有輸出或目標欄位的概念。分區段模型的範例為Kohonen網路、K-Means集群、二階集群和異常偵測等。 SPSS Modeler是圖形式的資料科學與預測分析平台,讓使用者可以加強探勘能力。在SPSS軟體系列產品內,SPSS Statistics能支援在資料上進行由上而下的假設檢測方法,而SPSS Modeler則會透過由下而上的假設產生方法,揭露隱藏在資料中的模型。 SPSS Modeler是領先的視覺化資料科學和機器學習解決方案。它可以加快資料科學家的操作作業,有助於企業加速實現價值並達成所需結果。全球領先的企業,都仰賴IBM進行資料準備、探索、預測分析、模型管理和部署以及機器學習,以便從資料資產創造收入。SPSS Modeler讓組織能夠透過現成可用的完整演算法和模型,使能充分利用資料資產和現代應用程式。 SPSS Modeler可協助你: " 充分利用開放程式碼型的創新,包括R或Python。 " 讓所有技能—程式化和視覺化—的資料科學家加強能力。 " 探索混合式方法—內部部署、公有雲或私有雲。 " 小規模起步然後擴充到全企業接受控管方法。 超出過去手法範圍的資料探勘 所謂資料探勘是利用模型認知技術與統計的手法處理大數據,發現有意義的新模型及傾向的過程。大數據的特徵有: " Volume(大量):以過去的技術無法管理的資料量,資料量的單位可從TB(terabyte,一兆位元組)到PB(petabyte,千兆位元組)。 " Variety(多樣性):企業的銷售、庫存資料、網站的使用者動態、客服中心的通話紀錄、社交媒體上的文字影像等,企業資料庫難以儲存的「非結構化資料」。 " Velocity(速度):資料每分每秒都在更新,技術也能做到即時儲存、處理。 本書使用的此定義是重視「發現」此點,不限定於只是假說的檢定。以資料的條件來說,即為資料倉儲或是資料市場等所儲存的大容量資料。又在方法上,除統計的方法外,另加上類神經網路等的模型認知。基於此定義所記錄的大容量資料與技巧,資料探勘超出過去統計分析的範圍。 更大規模的資料量,甚至記錄、欄位數也很多,對能適應困難的條件的分析手法寄予關心。並且,在統計的顯著性檢定方面,雖然對資料分配設定強烈的假設,但資料探勘並不受限於此種假定。對資料探勘的關心在於實用上的結果與改善法。 資料探勘的意義 資料探勘的目的是為了獲得經營策略以達成經營上的目標,或者為了獲得對問題點的解決對策。因此,對顧客資料或商業資料而言,只加深抽象式、理論式的理解可以說是不夠的。請一面觀察圖1.1的收益圖形一面說明。 圖1.1是針對所製造的物體是否為不良品的預測模式評估它的收益圖形。圖形的橫軸是顯示利用資料探勘所得到的不良品,按機率的高低順序重排後觀察值的比例(%),縱軸是將所有不良品的數目當作分母,以實際不良品的個數當作分子所表示的比例(%),參照用的對角線是表示基礎的比例,圖形中的垂線是表示利用資料探勘,將不良品的機率按高低順序排列時,上位35%內包含所有不良品的80%。 在資料探勘中,像這樣製作出從比較小的樣本群,可以檢出高比例的不良品的模式時,透過調查它的模式,可以獲得利用什麼即可判別良、不良的資訊。強烈影響模式之要因如可確認時,控制這些要因,進而降低不良品發生率等,因此可以達成經營的目的。 處理的問題與運用技術 對企業而言,資料探勘的目標,是使一個公司更了解顧客以增進它在行銷、銷售、顧客服務營運上的表現,察覺無法直接從資料上看出來的潛在規則或行為模式。從資料庫中發現知識,將隱含的、先前並不知道的、潛在有用的資訊從資料庫中粹取出來的過程。可以在大量資料中,發掘潛藏有用的資訊,以提供決策人員參考。資料探勘的整個過程包括資料選取、前置處理、轉換、資料分析及解釋與評估。 學者Han &Kamber註又將資料探勘所處理的問題分為以下幾大類: 1. 判別分析(Characterization and Discrimination) 2. 關聯規則(Association Rule) 3. 資料分類(Classification and Prediction) 4. 集群分析(Cluster Analysis) 5. 離群值分析(Outlier Analysis) 6. 系統演化分析(Evolution Analysis) 【註】:Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques, SimonFraser University, Morgan Kaufmann Publishers, 2001) 在資料探勘發展的早期,要如何有效率且正確的從龐大資料庫中汲取有用的資訊是一個很大的挑戰,但發展至今,備受質疑同時也更需要投入研究的是,如何提高獲取資訊的有用性。妥善的運用資料探勘技術,才能產生企業的競爭優勢。 資料探勘定義與內涵 Frawley等人認為資料探勘是從資料庫中挖掘出不明確、前所未知以及潛在有用資訊的過程。因此,資料探勘是找出隱藏在資料中的趨勢、特徵及相關性的過程。透過資料探勘技術,從巨量的資料庫中,找出不同且有用的資訊與知識,支援企業決策分析,將能提升企業的競爭優勢。 資料探勘是為了要發現出有意義的樣型或規則,必須從大量資料之中以自動或是半自動的方式來探索和分析資料(Berry & Linoff, 1997)。故從兩位學者的描述中可以看出,資料探勘是處在知識創造過程中最核心的位置。 如前所述,有些人則將資料探勘視為知識發掘過程中一個必要的步驟,但也有許多人將資料探勘與資料庫知識探索(KDD, Knowledge Discovery in Databases)交換使用。資料庫知識探索是指在大量資料中,發現知識的整個程序與步驟。資料探勘則是資料庫知識探索中,一個能有效率的將資料模式、法則,自資料中找出來的一個程序。 對企業而言,資料探勘的目標是使一個公司更了解顧客,以增進它在行銷、銷售、顧客服務營運上的表現,察覺無法直接從資料上看得出來的潛在規則或行為模式。從資料庫中發現知識,將隱含的、先前並不知道的、潛在有用的資訊從資料庫中粹取出來。可以在大量資料中,發掘潛藏有用的資訊,以提供決策人員參考。資料探勘的整個過程包括資料選取、前置處理、轉換、資料分析及解釋與評估。 資料探勘(Data Mining),又譯為資料採礦、資料挖掘。資料探勘一般是指從大量的資料中,通過演算法搜尋隱藏於其中資訊的過程。資料探勘通常與電腦科學有關,並透過統計、線上分析處理、資訊檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。 資料探勘利用了來自如下一些領域的思想:(1)來自統計學的抽樣、估計和假設檢定,(2)人工智慧、模式識別和機器學習的搜尋演算法、建模技術和學習理論。資料探勘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、資訊理論、訊號處理、視覺化和資訊檢索。其他一些領域也發揮了重要的支撐作用。
|