Chapter 1 R語言下載與設置 第一節 R軟體下載 一、前言 二、R下載教學 第二節 介紹R 一、R介面與設置 第三節 RStudio下載 一、RStudio下載教學 第四節 介紹RStudio 一、RStudio介面與設置
Chapter 2 讀入與初步了解R資料 第一節 前言 第二節 設定R的工作環境 一、設定工作的編碼系統 二、設定工作資料夾 第三節 將資料讀入R 一、將不同形式的檔案讀入R 二、物件命名 三、執行R程式 第四節 了解R資料 一、透過物件區的菜單鳥瞰 二、指代資料中變項和觀察值 三、描述R的資料特徵 四、以圖形呈現變項的特徵 第五節 儲存資料
Chapter 3 資料的初步清理:使用dplyr 第一節 前言 一、安裝套件 第二節 用dplyr整理資料 一、重新排列資料(遞增、遞減) 二、選擇資料 三、刪除資料 四、修改變項 五、概括內容資料(樣本)的特徵 六、分組處理的功能
Chapter 4 資料的進階清理 第一節 前言 第二節 增加變項 一、直接產生並賦值 二、從舊變項產生 三、從文字變項(strings)中提取 第三節 清理文字資料(strings) 一、strings的清理功能介紹 二、查找 三、替換 四、黏貼 第四節 編碼員間編碼信度 一、隨機抽取樣本 二、交叉編碼 三、計算編碼員間信度或電腦與編碼員間效度 第五節 畫資料的時間序列圖 一、介紹 二、計算每天的報導量 三、定義時間變項 四、使用ggplot2畫圖
Chapter 5 斷詞和詞頻 第一節 前言 第二節 斷詞 一、基本概念介紹 二、使用tidytext的unnest_tokens指令斷詞 三、計算詞頻 四、套用停頓詞字典 五、畫圖 六、套用用戶字典 七、使用jiebaR斷詞 第三節 詞頻分析 一、描述一整個文集 二、比較不同文集之間的差異
Chapter 6 情緒分析和字典法 第一節 前言 第二節 情緒分析簡介 第三節 字典法和常用的情緒字典 第四節 情緒詞的詞頻計算 第五節 情緒分析的研究應用 一、套用和驗證字典 二、更精準的情緒測量 三、考察情緒分數與其他變項之間的關係
Chapter 7 tf-idf值的計算和應用 第一節 tf-idf的概念介紹 第二節 tf-idf的計算 第三節 tf-idf的應用 一、比較不同文類的獨特性 二、在機器學習中代表文檔的內容特徵 三、作為過濾關鍵詞的標準 第四節 其他過濾關鍵詞的方法 第五節 文字探勘結果的統計分析
Chapter 8 主題建模 第一節 前言 第二節 LDA的原理和應用步驟 一、第一步:斷詞 二、第二步:詞彙向量化、尺度縮減及製作dtm 三、第三步:決定最佳主題數目 四、第四步:進行主題建模並為主題命名 五、 第五步:考察每個主題和metadata之間的關係 六、第六步:報告主題出現的比例、資料檔合併 第三節 K-means的原理和應用步驟
Chapter 9 有監督式的機器學習 第一節 機器學習在文字探勘的應用 第二節 機器學習的定義和基本步驟 第三節 機器學習的程式碼練習:迴歸模型 一、讀入有標示的資料,並分成訓練集和測試集 二、分別對訓練集和測試集的文字資料建立dfm 三、使用演算法從訓練集中學習,建立一個模型 四、用模型預測測試集中的資料 五、測量表現(measure model performance) 六、用訓練好的模型預測未標示的資料 第四節 機器學習的程式碼練習:分類模型 一、SVM(SUPPORT VECTOR MACHINE) 二、LOGISTIC REGRESSION 三、NAÏVE BAYES 四、WORDSCORES TEXT MODEL
Chapter 10 詞的關係 第一節 前言 第二節 Bigram及其應用 一、Bigram的製作 二、Bigram的詞頻計算 三、Bigram的應用 第三節 共現詞(concordance) 一、詞的關係一:出現在同一篇文章中 二、詞的關係二:出現在一定的距離內
Chapter 11 語意網絡的社會網絡分析 第一節 前言 第二節 社會網絡分析的重要概念介紹 第三節 讀入網絡資料 第四節 網絡資料的形式和轉換 一、網絡資料的基本形式 二、網絡資料不同形式之間的轉換 三、Two-mode data 第五節 語意網絡的描述性分析 一、整體網絡分析 二、節點分析 三、組和次團體的分析(subgroups and communities) 第六節 分析兩個網絡的關係 一、比較兩個網絡的相似程度 二、計算兩個網絡之間的相關程度 三、考察多個網絡之間的關係
Chapter 12 抓取網站資料 第一節 前言 第二節 觀察資料 一、了解資料型態 二、觀察原始碼 第三節 資料抓取 一、套件介紹 二、抓取一篇文章 三、抓取一頁搜尋頁面的所有文章 四、抓取所有搜尋頁面的所有文章
參考文獻
|
投影片((外加)),教學影片((外加))
若要索取未隨書附送(外加)且未於此提供下載的教學資源,請詳洽業務人員(02-27055066#824)(僅提供教師使用)
1H3N 文字探勘基礎R資料檔.ZIP
1H3N 程式碼.ZIP
|