第1章 文本分析簡介 什麼是文本分析? 透過文本洞察力提取數據 結語 文本分析工作流程 原始文本 矩陣表示 分析 準備:練習使用R進行文本分析 步驟1:載入quanteda套件 步驟2:使用print()探索語料庫 步驟3:使用tokens()對語料庫進行字元化處理 步驟4:使用dfm()創建文檔-特徵矩陣 步驟 5:使用textplot_wordcloud()創建文字雲 第1章總結
第2章 探索語料庫的結構 步驟1:載入quanteda 步驟2:檢視語料庫並提取文件變數 步驟3:使用SOTU語料庫重現分析 詞彙字元化 步驟1:載入quanteda 步驟2:對語料庫進行詞彙字元化處理 步驟3:使用kwic()探索字元化的語料庫 在R中創建文檔-特徵矩陣 步驟1:載入quanteda 步驟2:對語料庫進行字元化處理 步驟3:創建文檔-特徵矩陣 步驟4:選擇dfm特徵 第2章總結
第3章 文本數據的視覺化呈現 條形圖 詞彙分布圖 關鍵度繪圖 相關描述性統計 摘要統計 頻率 可讀性 詞彙多樣性 關鍵詞分析 步驟1:載入套件 步驟2:對語料庫進行字元化處理 步驟3:創建文檔-特徵矩陣 步驟4:執行命令獲取摘要統計資料 步驟5:將匯總統計資料轉換為相關的視覺化圖形 第3章總結
第4章 在R中應用聚類技術識別文本相似性 視覺化聚類算法 K-均值聚類 選擇一個K值 手肘法 層次聚類 終止點的確認 樹狀圖 方法比較 計算R中的二元統計量 步驟1:加載套件和語料庫 步驟2:字元化並創建文檔-特徵矩陣 步驟3:使用textstat_simil()進行相似度計算 步驟4:使用textstat_dist()進行距離計算 聚類美國總統演講 步驟1:加載套件和語料庫 步驟2:字元化並創建文檔-特徵矩陣 步驟3:K-均值聚類和層次聚類 繪製距離和K-均值聚類 繪製層次聚類 第4章總結
第5章 情感分析 情感分析工作流程 執行情感分析 步驟1:載入和探索語料庫 步驟2:對資料進行字元化 步驟3:識別極端文本中最常見的單詞 步驟4:應用情感詞典進行情感分析 步驟5:情感分析 步驟6:視覺化 第5章總結
第6章 機器學習 分類的應用案例 單純貝氏分類模型 線性支援向量機(Linear Support Vector Machines) 混淆矩陣(Confusion Matrix) 評估R中的分類模型 步驟1:載入套件和語料庫 步驟2:對資料進行字元化並創建dfm 步驟3:創建訓練集和測試集 步驟4:擬合單純貝氏分類器 步驟5:進行準確性測試 步驟6:進行交叉驗證 第6章總結
第7章 結論與未來研究展望 旅程回顧 實踐之旅 展望未來 第7章總結
第8章 附件:R指令整理 第1章:文本分析簡介 1. 基本操作函數 2. quanteda套件函數 第2章:探索語料庫的結構 1. 語料庫處理 2. 字元化處理 3. 關鍵詞文脈分析(KWIC) 4. 文檔-特徵矩陣(DFM) 5. 其他分析與應用 第3章:文本數據的視覺化呈現 1. 文字雲相關函數 2. 條形圖與相關統計函數 3. 詞彙分布與關鍵度繪圖函數 4. 可視化繪圖函數 第4章:在R中應用聚類技術識別文本相似性 1. 文本預處理相關函數 2. 相似性與距離計算函數 3. K-均值聚類相關函數 4. 層次聚類相關函數 5. 視覺化繪圖相關函數 第5章:情感分析 1. 載入與探索語料庫相關指令 2. 資料字元化相關指令 3. 文檔-特徵矩陣(DFM)操作相關指令 4. 關鍵字和文字雲相關指令 5. 情感詞典相關指令 6. 資料框轉換與操作指令 7. 視覺化相關指令 第6章:機器學習 1. 載入與探索數據相關指令 2. 資料分割與訓練測試集相關指令 3. 單純貝氏分類相關指令 4. 支援向量機(SVM)相關指令 5. 模型性能評估相關指令 6. 交叉驗證相關指令 7. 可視化相關指令
|

投影片((外加))
若要索取未隨書附送(外加)且未於此提供下載的教學資源,請詳洽業務人員(02-27055066#824)(僅提供教師使用)
|