R語言學習筆記:從統計入門到AI應用
作  者╱
林松柏
出版社別╱
五南
出版日期╱
2025/10/01   (1版 1刷)
  
即日起五南舊官網僅提供書籍查詢,如欲購書,請至五南新官網 https://www.wunan.com.tw/
I  S  B  N ╱
978-626-423-710-9
書  號╱
1H1U
頁  數╱
224
開  數╱
20K
定  價╱
550



一本最實用的R語言實務書!
依自己的工作情境與學習需求,找到解題的線索與實作的方法。


AI時代來臨,更要學會靈活運用現有的工具,來解決日常實務的問題。這不只是一本介紹統計與程式語言的工具書,更是一部從問題出發、引導思考、強調實作與應用的實務書。本書每個章節都是從生活情境取材,以生動有趣的小故事帶入主題,讀者不僅可以了解統計與資料分析的實用性,也能學習如何搭配R語言將這些問題具體化、可視化、程式化地解決。

本書精彩內容包含:R語言操作到統計分析、資料視覺化、資料採礦分析、文字探勘以及機器學習的廣度與深度。讀者可以依據自身的需求閱讀相關的章節,或者統合問題,綜合本書各方面的主題進行跨領域的資料處理。一起來發覺問題,培養研究與判斷能力,讓數字說故事!

林松柏
現職:
國立曁南國際大學教育政策與行政學系教授
學歷:
國立曁南國際大學教育政策與行政研究所博士
經歷:
國立曁南國際大學教務處副教務長、教學發展中心主任
國立曁南國際大學校務研究中心分析組組長
國立曁南國際大學學務處生輔組組長、校安中心主任
專長:
教育政策分析、計量研究方法、教育資料採礦


校園情境出場人物簡介

第1 章 統計分析:打開理解資料的第一扇門
1.1 什麼是描述性統計:讓數字說出故事的起點
1.2 相關與迴歸:不是你以為的那種「關係」
1.3 到底差多少才算「有差」:從區間估計到假設檢定
1.4 不只兩組怎麼比:ANOVA 的魔法
1.5 別把分類變項當成數字用:卡方檢定的出場時機
1.6 策略有效嗎:共變數分析的神助手登場

第2 章 統計資料視覺化:讓資料說故事
2.1 類別變數:從長條到比率,讓分類資料更清楚
2.2 連續與混合變數:用圖形掌握變數的分布與關係
2.3 莖葉圖:兼具統計與細節的圖示工具
2.4 雷達圖:一張圖比出學生多面向的輪廓

第3 章 資料視覺化的進階分析
3.1 社會網絡圖:誰和誰最常互動?
3.2 複選題分析圖示:從勾選項目畫出「關聯地圖」
3.3 互動式圖示:點出資料的關鍵視角
3.4 GIS 地圖圖示:地圖上的統計故事
3.5 GIS 進階圖示:搭配地形圖檔案呈現在地學習

第4 章 資料採礦分析:發覺藏在資料裡的祕密
4.1 監督式學習:讓資料幫你做決定
4.2 非監督式:沒有答案的探索也可以有規律
4.3 異常值分析:發現數據裡的特別人物

第5 章 網路爬蟲與文字探勘:從資料抓取到語意洞察
5.1 網路爬蟲:不用手動複製也能大量擷取資料
5.2 文字探勘起手式:讓文字自己說話
5.3 字詞進階整理:讓關鍵詞說話更清楚
5.4 文字探勘的視覺化:讓關鍵詞圖像化
5.5 結構化資料擷取與視覺化:將數字轉譯為故事
5.6 輿情分析:讀懂文字呈現的情緒

第6 章 文本機器學習:讓電腦看懂人類用詞並做出判斷
6.1 監督式學習:主題辨識
6.2 監督式學習:文本評分
6.3 非監督式學習:讓電腦自己發現主題

論文統計分析:
SPSS、Am
os與JASP
的運用
社會科學的文本
分析:R的應用
管理學質性與量
化混合研究方法
概論
如何撰寫文獻回
顧:給社會與行
為科學領域學生
的寫作指南
整合分析軟體C
MA:簡介與操
作實務
Python量
化研究實作:D
eepnote
雲端平台應用




第5章 網路爬蟲與文字探勘:從資料抓取到語意洞察

把「文字」變成「資料」的魔法術
校園情境開場:數字懂了,那文字呢?

又是一個午後,小政坐在辦公室裡,眼神空洞地望著電腦畫面,一動也不動。阿育老師路過,發現這熟悉的場景。

阿育老師:「小政啊,又在研究資料嗎?怎麼這次看起來更沮喪了?」

小政轉過頭,有點無奈地說:「老師,我學了好多統計分析的方法,也跑了好多R語法,但這些都適用在數字資料。現在我在整理教學平台上的留言,有學生的反饋、家長的回應,我很想知道他們在想什麼⋯⋯ 」

小政:「但要打開網頁,一則一則看、一個一個點、滑鼠點到手酸⋯⋯資料量又這麼多,真的好累人⋯⋯ 」

阿育老師聽了,語重心長地點點頭:「這就是當老師的必經之路啊!我也是這樣走過來的,我們要關心學生、理解家長,每一則留言背後都是一段聲音、一個故事。雖然辛苦,但這是我們的責任,是教育專業的基本功。」

阿育老師正要對小政進行教師專業講座的開講時,Doctor S悄然登場。

Doctor S:「如果你們不想再一則一則點留言,不妨試試看文字探勘吧!」

概念導讀:什麼是文字探勘?
文字探勘(Text Mining)是指從非結構化文字資料(如留言、文章、對話紀錄)中,找出規律、關鍵詞、主題等有用資訊的技術。和統計分析處理結構化資料(如Excel表格)不同,文字探勘的挑戰在於:資料沒有欄位與標準格式,以及含有大量口語化內容。常見應用包括:關鍵詞抽取、文字分類、主題建模、情感分析等。現在教育現場的溝通越來越依賴平台系統,留言、問卷開放式回饋、課程評鑑意見等,其實都是一座等待被開採的資料寶庫。

為什麼教育工作者需要文字探勘?
傳統方式:
人工閱讀留言、逐字統計、主觀感受評估、忽略潛在聲音
文字探勘方式:
自動整理常見主題、自動萃取高頻詞、客觀量化語意特徵、發覺隱藏情感與需求

本章將從文字的取得、處理到分析進行全面教學,分為三大部分:
*網路爬蟲:讓R自動幫你蒐集留言或文章,不用再點滑鼠。
*文字探勘:斷詞、去除停用字、計算詞頻、找出重點字詞。
*視覺化呈現:製作詞雲、共現網絡圖、主題分布圖,一眼看出資料重點。

Doctor S的溫馨提醒
Doctor S:「別忘了,生成式AI之所以懂人類語言,正是因為背後進行了大量的文字探勘與語料分析。我們現在用的這些技術,其實就是AI世界的基本語言。」

5.1 網路爬蟲:不用手動複製也能大量擷取資料
校園情境開場:蒐集大家的聲音不能只靠滑鼠

這天早上,阿育老師拿著筆電走進辦公室,一臉認真地對小政說:「小政,最近學校正在進行教學品質提升計畫,我想請你幫忙上網蒐集學生和家長對課程的留言與建議,尤其是那個討論區,上面好多心得和問題,很有參考價值。」

小政一聽立刻點頭:「這個我知道,我可以用網路爬蟲(Web Scraping)來處理,不用一則一則手動複製。不過要先看懂網頁的原始碼,像是用什麼CSS class,才能知道要擷取的內容在哪裡。」

阿育老師聽得一頭霧水,猛點頭後突然問:「你說『爬蟲』?網頁上有蟲?是說有病毒嗎⋯⋯還是你在玩生物入侵的遊戲?」

小政忍不住笑出來,正要解釋時,Doctor S早就準備好登場了。

Doctor S:「老師別擔心,小政說的爬蟲,是一種自動化程式,可以模擬使用者上網行為,把網頁上的文字抓下來。這在教育資料蒐集上非常有用。」

Doctor S:「你們可以用R語言的 rvest 套件來寫,而且如果不會找CSS標籤,可以安裝一個叫做『SelectorGadget』的瀏覽器擴充工具,幫助你一鍵查出元素標籤喔!」

概念導讀:什麼是網路爬蟲(Web Scraping)?
在資訊爆炸的時代,許多有價值的資料存在於網頁中,例如論壇留言、新聞文章、產品評論等。若只靠人工一筆一筆複製,將耗費大量時間與心力。網路爬蟲是一種自動化技術,能快速擷取網站中規則性的內容,常用於新聞摘要、價格比對、留言分析等。在R語言中,可以使用rvest套件,模擬使用者進入網頁,然後擷取所需的文字內容。所有網頁背後都有「原始碼」,這些碼中包含標籤(如 <div>、<p> 等)與 class 名稱(如 .title、.comment),可以視為「要抓哪一塊」的指令。

這一節將介紹如何用R語言對網頁資料進行自動化擷取,這不只是技術應用,更是一種節省時間、擴大觀察範圍的研究手段。搭配文字探勘技術,更可以進一步理解背後的語意與趨勢。本節使用 rvest 套件來示範如何擷取文字資訊,包含:取得單一網頁的指定區塊文字、設計迴圈批次擷取多頁資料,以及累積並儲存所有爬取內容。