五南官網-文字探勘基礎：從R語言入門

研究方法、論文寫作-研究方法
財經、商管、統計-統計-統計軟體應用
文字探勘基礎：從R語言入門

作　　者：譚躍
出版社別：五南
書　　系：研究&方法
出版日期：2023/09/20(1版1刷)
ＩＳＢＮ：978-626-366-574-3
E I S B N：9786263665699
書　　號：1H3N
頁　　數：196
開　　數：16K
定　　價：350元
優惠價格：298元

滿額優惠折扣　7/28-8/30 五南BTS全館滿599再9折

⊙沒有資訊工程背景的文科生也能學會程式語言，適合人文社會科學領域之學生、研究人員自學。
⊙理論與實作兼具，深入淺出說明用R語言執行文字探勘的流程及方法，操作步驟清楚易懂。
⊙內容包含資料清理、斷詞和詞頻、情緒分析和字典法、tf-idf計算和應用、主題建模、機器學習、語意網絡的社會網絡分析，以及網站資料的抓取等。

【自學R語言，順利掌握文字探勘】

文字探勘是以文字作為分析的資料，藉由技術識別、擷取有價值的部分，有系統地管理、整合和應用文字所提供的訊息，像社群網站上常見的「文字雲」即是一種。

本書針對中文透過R語言操作基礎的文字探勘，從人文社會科學領域闡述編程的概念，可使自學者更容易掌握文字探勘的技能。內容包含了解R、文字資料的清理、斷詞和詞頻、情緒分析和字典法、tf-idf值的計算和應用、主題建模、機器學習、詞的關係、語意網絡的社會網絡分析，以及網站資料抓取等。

譚躍

現職：國立中山大學管理學院行銷傳播管理研究所副教授
學歷：PhD，2008年畢業於Indiana University Bloomington的新聞學院
經歷：國立中山大學管理學院行銷傳播管理研究所博士後

Chapter 2　　讀入與初步了解R資料

第一節　前言
　　程式碼為電腦能聽懂的語言。學習程式碼，就像學習英文單字一樣，經過日月的積累，就會越來越多，當能記住最基本的100個左右的基本用語，就可以較自由地與電腦對話了。至於較困難的詞，可以查查字典。透過邊用邊學，詞彙就會越來越豐富，表達起來就越來越自由。
　　R自己本身所具有的程式碼，包含最基本的功能，稱為Base R。Base R中所包括的指令，不用安裝任何套件，R就可以讀得懂，並且執行。
　　關於Base R的指令，建議下載RStudio線上免費的Cheat Sheet（https://www.rstudio.com/resources/cheatsheets/），它包含Base R的主要指令，用圖形化的方式給予應用上的講解。

第二節　設定R的工作環境
一、設定工作的編碼系統
　　文字探勘比較特別的地方是以文字作為分析的資料。因為各國的文字不同，編碼系統就不同。即使同樣是中文，也需要統一成一致的編碼系統，才不會出現亂碼。一般來說，研究者會先告訴R，所處的區域是哪裡，它就會自動轉換成那個區域最常見的編碼系統。R的中文系統是uni-code 6。程式碼如下：
設定區域：
sys.setlocale(locale="cht")
　　RStudio有四個窗口。左上角是程式區，左下角是指令區，詳細說明可以參考第一章。視窗的右上角是「物件區」，剛開始會呈現空白。下述會先介紹「檔案區」，再對物件區進一步說明。
二、設定工作資料夾
　　如同一般的電腦操作一樣，當讀取資料的時候，需要告訴電腦在哪裡讀資料，也就是提供資料檔所在資料夾的路徑。比較特別的是，R會在一個固定的資料夾中工作，這個固定的資料夾叫做「工作資料夾」。當你的程式碼沒有特別指定其他資料夾時，R都在工作資料夾中工作，包括讀取舊檔案和儲存成新檔案。因此在讀取資料前，需要先設定工作資料夾。寫程式碼如下：
設定工作資料夾：
setwd(" 路徑名稱")
　　用戶也可以在右下角檔案區Files這個菜單裡，用點選的方式。
　　點選的目的地就是用戶要讀取資料的地方，這個地方還會成為默認的工作資料夾，電腦之後再讀取或儲存資料，都會在這個資料夾裡進行。進入這個資料夾後，就要把它設置成Working Directory。先點More的下拉菜單，然後選取Set As Working Directory，這樣電腦就會記住這裡是工作資料夾，也就是它讀取和存儲檔案的地方了。

法律/政治

財經/商管/觀光

文/史/哲/期刊

理工/醫護

教育/心理/傳播

小五南/中等教育