五南官網-心理測驗：沿革、原理及用途

心理、諮商與輔導-通論
心理測驗：沿革、原理及用途

Psychological Testing: History, Principles, and Applications

原文作者：Robert J. Gregory
作　　者：羅伯特．喬治
譯　　者：游恒山
出版社別：五南
出版日期：2025/09/17(3版3刷)
ＩＳＢＮ：978-626-366-236-0
書　　號：1BWF
頁　　數：484
開　　數：16K
定　　價：680元
優惠價格：578元

主題書展　7/10-8/31 哈囉！社會——新鮮人書展／單本79折 2本75折起；滿399即贈一本《看漫畫學MBA學》(贈完為止)

　　《心理測驗》的主旨是在教導學生關於心理測驗的特性、目標及廣延的效應。
　　除了各個傳統主題的論述，本書還納入了一些新穎內容，像是神經心理衡鑑和老年評鑑、測驗的誤用及濫用、學習障礙的衡鑑、特殊背景下的測驗，以及智商的種族差異等。
　　針對新近被廣泛使用的一些測驗，作者進行了透徹的描述和評論；考察施測過程衍生的微妙差別；也探索關於測試「智慧」涉及的一些價值議題；而且把特殊領域科學研究主題的最新成果與測驗工具的最新發展及應用進行了巧妙而有機地結合。
　　本書全面闡述了心理測驗的沿革、原理及用途，是心理學界公認的一部重要著作。由於其很強的實務性及應用性，因此，它也適用於政府、企事業、醫療、司法等各行各業相關專業人士作為實踐指導。

Robert J. Gregory
明尼蘇達大學（University of Minnesota）臨床心理學博士，在那裡深深體會到實徵主義在心理測試中的價值。隨後在愛達荷大學（University of Idaho）任教23年，還開發了衡鑑方面的私人業務。在實務中，他專長於智力障礙和認知缺損的評估。他的學術研究集中在一些衡鑑主題上，諸如左撇子的細微認知差異、輕度鉛曝露對智力的影響、各種認知測驗和人格測驗的心理計量特性，以及後設分析（meta-analysis）。Robert J. Gregory已講授「心理衡鑑」達40年之久，曾在伊利諾州惠頓學院（Wheaton College）擔任心理學教授17年。他目前居住在西雅圖地區，仍然對心理測驗和臨床心理學保持著積極的興趣。他是惠頓學院（IL）的名譽教授。

游恒山
臺灣大學心理學系畢業，現為專職譯者。心理學方面譯作約30本，包括原文翻譯《心理學》、《50個非知不可的心理學概念》、《憂鬱的陰影：關於沮喪、自殺念頭最真實的告白》、《臨床心理學》、《健康心理學》、《變態心理學》等；並有《圖解變態心理學》、《圖解心理學》等著作。

第一章　心理測驗的用途與影響
主題1A：心理測驗的本質與使用
一、測驗的影響
二、測驗的定義
三、測驗的進一步區分
四、測驗的類型
五、測驗的用途
六、影響測驗健全性的一些因素
七、測驗施行的標準化程序
八、測驗施行的適宜程序
九、施測者的影響力
十、受試者的背景及動機
假使你問一般民眾「你對心理測驗知道些什麼？」他們可能提到一些事情，像是關於智力測驗、墨漬測驗，以及廣為熟悉的MMPI這類「真－偽量表」等。大部分情況，他們對測驗的理解將是集中在「量化智力」和「偵測人格問題」上，因為這是關於測驗在我們社會中如何被使用的一般觀點。當然，測驗所涵括的不只這少許事實，人格和智力的測量依然是心理測驗不可或缺的台柱。然而，現代測驗編製者已針對多元化而富有想像力的目的開發許多種類的測驗，有些甚至是測驗的早期開拓者所預期不到的。這一章的目的是討論心理測驗的多樣化用途，也審視這個行業的倫理議題和社會影響。
一、測驗的影響
從出生到老年，我們在生活的幾乎每一個轉捩點都會遇到測驗。嬰兒在出生後不久接受的第一份測驗是「Apgar測驗」，它是對心跳、呼吸、肌肉張力、反射感應性及膚色等施行快捷而多變項的衡鑑（Clarke-Stewart & Friedman, 1987）。整體Apgar分數（從0到10）有助於決定是否需要任何立即的醫療關注。稍後，先前在Apgar測驗上拿到低分的幼兒可能需要接受發育障礙的衡鑑。學前兒童可能接受「就學預備性」測驗。一旦學業生涯展開，每位學生在畢業之前需要承受數以百計（或許千計）的學術測驗，更不用提關於學習障礙、資賦優異、職業興趣及大學入學等可能測驗。畢業之後，成年人可能面對工作應徵、駕駛執照、安全許可、人格功能、夫妻相處、發展失調及大腦機能障礙等測驗──幾乎無止境的一份名單。有些人甚至在晚年面對自己脆弱的一項無禮對待，即透過測驗決定他們管理財務的行為能力。
測驗在全世界的幾乎每一個國家被派上用場，像是諮詢、甄選及安置（placement）等用途。測驗發生在各式各樣的環境中，像是學校、行政機關、公司企業、醫療診所及諮商中心等。心理測驗結果以一些深切方式改變個人的命運。個人是否能夠申請進入一流大學？是否被提供特定工作或職任？是否被診斷為憂鬱症病人？所有這樣決定至少部分地取決於測驗結果的意義──隨著位居能行使權力之地位的人們所進行的解讀。簡而言之，心理測驗結果改變了生活。基於這個原因，慎重的做法是（事實上，幾乎是強制性的），施測人員應該認識心理測驗的當用途和偶爾濫用。在個案提示1-1中，它透過幾個真實的個案史說明心理測驗改變生活的餘波。
個案提示1-1　測驗的真實生活肖像
心理測驗的重要性最好用實例加以說明。考慮這些簡明的人物肖像
‧一位害羞、退縮的7歲小女孩，接受學校心理師施行的IQ測驗。她的分數出類拔萃，遠高於教師的預期。她於是被安排接受對資賦優異學生的教學方案。她最終盛開為一位自信而愛社交的學者。
‧某一家庭的三個小孩住在鄰近鉛冶煉廠的地方，他們暴露於鉛塵的毒性效應，蒙受神經方面的傷害。部分地基於心理測驗結果，這些小孩被發現智力受損，注意廣度也減縮。這個家庭後來獲得擁有該冶煉廠的公司8百萬美元的安家補償費。
‧一位人選角逐警察的職位，作為甄選過程的一部分，他接受人格量表的施測。這份測驗指出，該人選傾向於率性而為，而且抗拒權威人物的監督。即使他擁有優良的訓練，留給訪談者深刻的印象，他仍被排拒在該工作之外。
‧一位學生不確定應該追求什麼行業，她接受職業興量表的施測。這份測驗指出，她應該會喜歡藥劑師的工作。她選修了藥劑預科的課程，但是發現那些課程不但困難，也令人厭煩。經過3年後，她放棄藥劑學，改為主修舞蹈。但令她沮喪的是，她將需要面對另3年的大學生涯才能拿到學位。
‧一位大學生申請臨床心理學的研究所，他接受「明尼蘇達多相人格量表」（MMPI）的施測。他的推薦信和學業平均成績極為優異；然而，他必須澄清MMPI提出的最後障礙。他的測驗結果相當正常，但稍微防衛。在死裡逃生的投票中，入學委員會把他加入候補名單中。反諷的是，這是唯一收留他的研究所，另外19個研究所拒他於門外。他遞補為正式名單，而且著迷於心理衡鑑的研究。許多年後，他寫了你正在閱讀的這本書。
測驗的概念因此是我們文化的一個普遍元素，我們視為理所當然的一項特色。然而，一般人關於測驗的觀念不必然符合心理計量學家所持較嚴格的觀點。心理計量學家（psychometrician）是心理學或教育學上的一種專家，他們編製及評鑑各種心理測驗。
二、測驗的定義
測驗（test）是摘取行為樣本的一套標準化程序，然後以類別或分數描述該行為。此外，大部分測驗擁有常模或標準，以便測驗結果可被用來預測另一些更重要的行為。我們在接下來的篇幅將詳盡闡述這些特性。
測驗在格式和用途上有很大變動範圍。儘管如此，大部分測驗擁有這些界定的特性：
‧標準化的程序
‧行為樣本
‧分數或類別
‧常模或標準
‧對非測驗行為的預測
我們打算檢視的這些特性將特別是針對常模參照測驗（norm-referenced tests），這樣測驗使用良好界定的個人母群作為解讀架構。然而，對於標準參照測驗（criterion-referenced tests）的特殊案例而言，它們的界定特性稍微不同。這樣測驗測量的是個人能夠做些什麼，而不是拿測驗結果跟他人的表現水準進行比較。基於這個原因，我們對標準參照測驗提供個別的討論。
標準化程序（standardized procedure）是任何心理測驗的基本特性。當一份測驗的施行程序在不同施測者間和在不同環境間都始終如一時，這份測驗才被認為是「標準化」的。當然，標準化在某種程度上取決於施測者的勝任能力。即使是最優異的測驗，也可能因為施測者的疏忽大意、不良訓練或認識不足而變得一無是處。然而，大部分施測者有良好勝任能力。因此，標準化大致上取決於「使用指南」的實施──這些指示典型地會編寫在隨測驗附上的指導手冊中。
指示的明確陳述是測驗標準化的一個基本步驟。為了保證統一的施測程序，測驗編製者必須對所有受試者提供可資比較的刺激材料、具體說明針對每分測驗或題目的指示語，以及建議施測者如何處理來自受試者廣泛範圍的詢問。
測驗編製者甚至可能進一步推薦施測者適宜的舉止態度，諸如當記錄受試者的反應時保持中性的臉部表情。這些似乎微妙的作用力可能重大影響施測程序的一致性。例如，施測者當登記答案時沾沾自喜地笑，這可能引致受試者焦慮起來，而在容易的作業上失誤。
心理測驗也是一種有限的行為樣本。不論受試者或施測者都沒有充足時間從事真正包羅廣泛的測驗，即使當該測驗是對準良好界定而明確的行為領域。因此，實際限制指明一份測驗只是行為的樣本。雖說如此，只要該行為樣本容許施測者推斷整個領域的相關行為，它就是我們感覺興趣的。
另一個引人興趣的要點是，測驗題目不需要類似測驗所打算預測的行為。良好測驗的基本特徵是，它容許主試者預測另一些行為，儘管所測量行為完全不類似想要預測的行為。假使對於「我喝大量的水」這個問題答「是」的話，剛好有助於預測憂鬱，那麼這個似乎無關的問題就是憂鬱的有效指標。當然，大部分測驗是從它們希望預測的行為領域中直接抽樣（sampling）。
心理測驗也必須容許分數或類別的衍生。桑戴克（Thorndike, 1918）在他著名的主張中表達了測驗的基本原理，「無論是怎樣的存在，就必然以某種數量存在。」McCall（1939）更進一步聲明，「任何以數量存在的東西就可以被測量。」測驗致力於作為一種測量，就類似於物理科學中的程序，其中的數值代表一些抽象維度，諸如重量或溫度。每項測驗提供一種或多種分數，或提供證據，以說明當事人歸屬於哪個類別。簡言之，心理測驗以數值或分類總結當事人的表現。
心理計量觀點的隱含假設是，測驗是在測量個體在特質或特性上的差異。在大部分情況中，所有人們被認為擁有所打算測量的特質或特性，雖然所擁有的數量不一樣。測驗的目的就是估計某一個體所擁有該特質或特性的數量。
在這個背景中，有兩個注意事項值得一提。首先，每個測驗分數將總是反映某種程度的測量誤差。測驗的不準確性完全無法避免：測驗必須依賴外在的行為樣本，以便估計不可觀察及推斷的個人特性。心理計量學家通常以下列方程式表達這個基本觀點：
X=T+e
X是代表所觀察的分數，T是真正分數，e則是正值或負值的誤差成分。測驗編製者應該設法使得e值趨於最低。e值從來無法被完全排除，它在個別案例上的實際影響也無從得知。我們將在主題3B《信度的概念》中討論測量誤差的概念。
第二個注意事項是，測驗消費者必須提醒自己不要把所測量的特性具體化。測驗結果並不代表具有物理實體的某一「事物」（thing）。典型地，它們描繪某一抽象觀念，該抽象觀念已被顯示在預測非測驗行為上具有用處。例如，在討論個人IQ方面，心理學家所指稱的抽象觀念不具有直接、實質的存在，但儘管如此，它在預測學業成就和另一些表現上具有用處。
心理測驗也必須擁有常模或標準。在解讀受試者的測驗分數方面，我們通常是拿它跟另一些人在同一測驗上取得的分數進行比較。為了這個目的，測驗編製者通常會提供常模。所謂常模（norms）是針對一大群具有代表性受試者的測驗結果進行摘要（Petersen, Kolen & Hoover, 1989）。常模組群被指稱為標準化樣本。
關於測驗的有效性，關鍵因素是標準化樣本（standardization sample）的挑選及測試。這個組群必須在該測驗將來適用對象的總體中具有代表性，否則我們將無法決定某一受試者的相對位置。在極端的情形中，當常模未被提供時，測驗結果幾乎毫無用處。這個觀點的一個例外發生在標準參照測驗的情況中，我們稍後將會討論。
常模不僅建立起平均表現，而且也被用來指出各種高低分數被取得的頻率。因此，常模容許施測者決定某一分數偏離預期的程度。這樣訊息可能在預測受試者的非測驗行為上非常重要。常模在測驗解讀上如此重要，我們稍後將會以個別章節作詳細的闡述。
最後，測驗不以自身為唯一目的。一般而言，測驗的最終目的是預測另一些行為，即那些不是該測驗直接抽樣的行為。因此，施測者可能較感興趣的是該測驗所預測的非測驗行為，而不是測驗反應本身。
三、測驗的進一步區分
先前所述測驗的主要特徵特別適用於常模參照測驗，它們構成了絕大多數通行的測驗。在常模參照測驗中，每個受試者的表現是參考相關的標準化樣本加以解讀。然而，這些特徵在標準參照測驗的特殊案例上就較不具關聯，因為這些工具不強調「拿個別受試者與某一參照團體進行比較」。在標準參照測驗中，它的目的是決定受試者於非常嚴格界定的教育目標所站立的位置（Berk, 1984）。例如，一份針對10歲學童的算術測驗可能測量他們的二位數運算的準確程度。在不計時的20個這樣題目的一份測驗中，準確度應該幾近完美才對。對這類測驗而言，它實際上並不關心個別受試者相較於同一年齡其他人的情形。它關心的是受試者是否符合某一特有、預訂的標準──例如，95%的準確率。因為沒有跟他人的常態表現進行比較，這類測量工具被妥切地命名為標準參照測驗。這裡的重要差別是，不像常模參照測驗，標準參照測驗可以被有意義地解讀，不用訴諸常模。
另一個重要區分是關於測驗與衡鑑之間的差別，雖然這二者經常被視為同義。然而，它們實際指涉不完全一樣的事情。衡鑑（assessment，或稱評鑑）是一個較為涵義廣闊的用語，指稱的是「收集關於當事人的訊息，然後利用它推斷當事人的特性以及預測當事人行為」的整個過程。「衡鑑」可以被界定為鑑定或評估當事人身上一種或多種屬性的強度。人類特性的衡鑑涉及觀察、訪談、檢核表、問卷、量表、投射技術及另一些心理測驗。總言之，測驗所代表的只是衡鑑過程中使用的一種訊息來源。在衡鑑中，主試者必須對照及整合得自不同來源的資料。這是一種本質上主觀的歷程，需要主試者整頓有所抵觸的訊息，然後根據錯綜的整體資料從事預測。
四、測驗的類型
測驗可被概略劃分為兩個陣營：團體測驗vs.個別測驗。團體測驗（group tests）大致上是屬於紙筆測量方式，適合於同一時間施測一大群人們。個別測驗（individual tests）這種工具在設計和目的上必然是一對一施加的。個別測驗的重大優勢之一是施測者可以評估受試者的動機水平，以及評定其他因素（例如，衝動性或焦慮）跟測驗結果的關聯性。
為了方便起見，我們將把測驗劃分為如表1-1所描述的八個分類。每個分類包含了常模參照測驗、標準參照測驗、個別測驗及團體測驗。讀者需要注意，任何測驗的類型論（typology）完全是武斷的決定。
就狹義需言，我們擁有數以百計（或許千計）不同性質的測驗，每種測量當事人稍微不同的層面。例如，即使是兩份智力測驗，它們可以被論證是不同類型的測量。一份測驗可能揭露的假設是「智力是一種生物構念，最好透過腦波加以測量」，至於另一份可能植根於傳統觀點，即「智力是在學習社會化技巧的能力上展現出來，諸如詞彙能力」。假使你把這二種測量混合在「智力測驗」的分類下，這肯定是過度簡化的觀點，但仍然是有益的起點。
表1-1　心理測驗的主要類型
1.智力測驗：測量個人在相對上總括領域上的能力，諸如語文理解、知覺組織或推理等，因此有助於決定個人在學業或若干職業上的潛力。
2.性向測驗：測量個人在相對上特定作業或特定類型技巧上的能力；基本上，性向測驗是一種狹窄形式的能力測驗。
3.成就測驗：測量個人在某一學科或作業上的學習程度、成績或成就。
4.創造力測驗：評估個人從事新奇、原創的思考的能力，以及個人找出不尋常或意想不到的解決方法的能力，特別是針對模糊界定的問題。
5.人格測驗：測量一些特質、特性或行為，以決定當事人的個性；這的測驗包括檢核表、量表及投射技術。
6.興趣量表：測量個人對若干活動或主題的偏好，因此有助於決定職業選擇。
7.行為程序：客觀上描述及計算某一行為的頻率；檢定該行為的前因後果。
8.神經心理測驗：測量個人的認知、感覺、知覺及運動表現，以決定腦傷的範圍、位置及行為後果。
智力測驗（intelligence tests）原先是設計來抽取各式各樣技能的樣本，以便評估當事人的綜合智力水準。例如，比西量表（Binet-Simon scales）之所以頗具成效，部分地是因為它們納入異質的（heterogeneous）作業，包括詞彙定義、圖案記憶、理解問題及空間－視覺作業等。
現代智力測驗也效法這個歷史上建立的模式，它們設法從我們文化視為重要的廣泛各種技能中抽取樣本。一般而言，「智力測驗」的術語指稱的是「一份測驗根據得自某一異質題目樣本的結果而產生一個總括分數」。當然，這樣的測驗也可能提供分測驗（subtest）分數的側面圖（profile），但通常是總分數最引起大家的關注。
性向測驗（aptitude）測量一種或多種清楚界定且相對上同質的（homogeneous）的能力。這樣測驗演化為兩種變化形式：單一性向測驗和成套多重性向測驗。單一性向測驗很明顯只評價一種能力，至於成套多重性向測驗則針對若干性向提供分數的剖析圖。
性向測驗經常被用來預測個人在職業、訓練課程或教育努力上的成敗。例如，「Seashore音樂天份測驗」（Seashore, 1938）涉及一系列測試，包含音高、響度、韻律、節拍、音質及聲調記憶等，它可被用來鑑定在音樂上擁有潛在天份的兒童。各種專門化的性向測驗也已被開發出來，以供評估文書技巧、機械能力、腕手靈巧度及藝術能力等。
最普遍使用的性向測驗是被用來決定大學入學。目前在美國已有90%的大學或獨立學院採用SAT（Scholastic Assessment Test－學術評估測驗；原先稱為Scholastic Aptitude Test－學術性向測驗）甄選學生，每年有數以百萬計高中生接受該測驗。SAT多年來已成為美國甄選大學生及預大學成績的主要工具。
成就測驗（achievement tests）測量個人在某一學科或作業上的學習程度、成績或成就。大部分成就測驗的暗含假設是，學校已直接教導該學科的內容。因此，該測驗的目的是決定該學科的題材已被吸收或掌握多少。成就測驗通常具有幾個分測驗，諸如閱讀、數學、語言、科學及社會研究等。
性向測驗與成就測驗之間的劃分較是用途方面的事情，而不是內容（Gregory, 1994a）。事實上，只要是有助於預測未來表現，任何測驗可以是性向測驗。同樣的，只要是反映了受試者已學得多少，任何測驗可以是成就測驗。因此，實際上，這兩種工具之間的區別是由它們各自的用途所決定。有時候，一種工具可以供給兩種目的，即充當性向測驗以預測未來表現，也可充當成就測驗以評估過去學習。
創造力測驗（creativity tests）評估受試者提出新的觀念、見識或藝術創作的能力，但它們必須被視為具有社會、審美或科學的價值。因此，創造力測驗強調在解決曖昧不明問題上的新奇性和獨創性（創意），或強調藝術作品的創作。
創造力測驗具有富於變化的歷史。在1960年代，它們被視為智力測驗的另一種替代方案而大加吹捧，廣泛在美國學校體系中被派上用場。特別使人銘記於心的是，教育學者指出，創造力測驗需要發散思維（divergent thinking），即對於複雜或模糊的問題提出多樣化的答案。對照之下，收歛思維（convergent thinking，或稱輻合思維）是指對定義良好問題找出單一的正確解答。然而，有些心理計量學家表示懷疑，他們認為「創造力」僅是實用智力的另一個標籤（如，McNemar, 1964）。

法律/政治

財經/商管/觀光

文/史/哲/期刊

理工/醫護

教育/心理/傳播

小五南/中等教育