第6章讓一切置於控制之下——聰明漢斯的故事_對「偽心理學」說不_基思·斯坦諾維奇

第6章讓一切置於控制之下——聰明漢斯的故事

隨機分配的效果如何，取決於實驗中被試的數量。也許你會認為被試越多越好，也就是說，分配到實驗組和控制組的被試的數量越多，兩組間除了自變數以外的其他所有變數就越接近。但幸運的是，對於研究者來說，其實每組只需要一個相當少的人數（例如15-20人），隨機分配就可以起到很好的效果。

使用隨機分配能有效避免由於分組方式所導致的系統誤差。這兩組被試在所有變數上均得到匹配，但即使存在一定程度的不匹配，隨機分配也消除了實驗組或控制組之間的偏差。如果我們了解一下「重複」這個概念，對於隨機分配如何去除系統誤差這個問題就比較好理解了，所謂的重複是指在各種環境下重複一個實驗，看還能否得到同樣的實驗結果。

自閉症是一種嚴重的發展性障礙，其表現是社交缺陷、語言發展的滯后及異常，以及活動和興趣範圍狹窄等等（Frith, 2003）。許多自閉症患外表看起來都很正常，只是極度缺乏與人的交流，這讓家長們很難接受。因此20世紀80年代末期和90年代初期，在澳大利亞有人發明了一種技術，能讓自閉的孩子從不說話到自由交流，很難想象這些自閉症患兒的家長們聽到這個消息時該是多麼激動。這種能讓自閉症患者與人交流的技術被稱為「輔助溝通療法」，被一些很有知名度的媒體如《60分鐘》、《大觀》雜誌和《華盛頓郵報》等拿來大肆宣揚（見Dillon, 1993; Jacobson, Muiick, & Schwartz, 1995, 1996; Mulick, Jacobson, & Kobe, 1993; Twachtman Cullenf 1997），據此技術的發明者稱，自閉症患者以及其他因發展不良導致言語缺失的兒童，只要把手和胳膊放在這台善解人意的「輔助器」上，就可以在其輔助下，在鍵盤上敲出相當有文採的句子來。自閉的孩子從之前有限的語言行為到能夠交流表達，這種驚人的表現無疑給沮喪的家長們帶來了無限希望。這個發明者還宣稱，這種技術對於那些有嚴重智力障礙的失語兒童也同樣有效。

表格中的數字代表每種情況的人數。具體來說，200人在接受了治療后表現出病情好轉，75人接受治療但沒有任何好轉，50人沒有接受治療但仍有好轉，15人沒有接受治療也沒有任何好轉。研究者讓看過這一矩陣的被試指出治療是否有效，很多被試認為測試中的治療方法是有效的，相當多的被試甚至認為治療是很有效的。這是因為他們首先關注的是200個接受了治療且好轉的那一組，其次，他們關注這樣一個事實，即接受治療且好轉的人數（200）要遠遠多於沒有好轉的人數（75）。

首先，你需要一張紙。想象如下場景：一個人拿著一根細繩在他的頭頂上繞圈，繩子的另一端系著一個球。畫一個圓來代表從上方俯瞰這個球的運動軌跡。在這個圈的一處畫一個點，然後用一條線把這個點和此圓的圓心連接起來。這條線就代表那根細繩，那個點就代表特定時刻的球。想象在某一旋轉瞬間，細繩斷了。你的第一項任務是用筆畫出這個球飛出后的運行軌跡。

設想一下，一個發展心理學家想要做一個關於早期豐富體驗對學前兒童的影響的實驗，在日托期間，隨機分配到實驗組的兒童每天接觸心理學家設計的大量豐富活動，隨機分配到控制組的兒童在同樣的時間里只是參加一些比較傳統的遊戲活動。因變數是兒童上學一年後的期末成績，通過成績考察實驗組兒童的表現是否優於控制組兒童。

人類關於行為的直覺理論是有缺陷的，這就說明了為什麼我們的心理學研究需要實驗控制。只有這樣，我們才能把我們關於人類行為的粗淺概念上升為準確的科學概念和體系。

許多有控制的研究報告稱，他們通過適當的實驗控制檢驗了這種輔助溝通療法。每項研究都明確地說明了同樣一件事：自閉症患兒的表現依賴於輔助器發出的不易被覺察的提示（Burgess，Kirsch, Shane, Niederauer, Graham, & Bacon, 1998; Cummins & Prior, 1992; Hudson, Melita, & Arnold, 1993; Jacobsonet al 1995，1996; Jacobson, Foxx, & Muiick, 2004; Mostertf, 2001; Shane, 1993; Spitz, 1997; Wegner, Fuller, & Sparrow, 2003）。在這些研究中使用的控制方法與聰明漢斯的經典案例是相似的。研究人員設置了一種實驗情境，給孩子和輔助器各自呈現一個物體的圖案，但是他們彼此看不到呈現給對方的圖案是什麼。當孩子和輔助器看到的是相同圖案的時候，孩子能正確地打出圖案的名字，但是當孩子和輔助器看到的圖案不同時，孩子打出的是輔助器看到的圖案的名字，而不是孩子自己看到的那個圖案。因此，答案是由輔助器而不是孩子決定的。實驗結論是，輔助溝通療法只不過是一種「聰明漢斯」現象，絕非治療方法上的重大突破，也沒有給研究人員帶來任何欣喜。心理學家羅伯特·康明斯（Robert Cummins）與馬戈特·普萊爾（Margot Prior）總結道，「這證明了一些助理人員通過利用觸覺/視覺線索或是自身的動作姿態等來操縱客戶的反應。目前研究證據所給我們的結論是令人不快的，也是不可逆轉的」（p.240）。

這裏可以同第3章中討論過的節省原則聯繫起來，所謂的節省原則就是說，當兩種理論擁有同樣的解釋效力時，我們傾向於選擇那個比較簡單的理論（涉及較少的概念和概念之間的關係）。此處有兩種理論，一種認為這匹馬具有數學能力，另一種則認為這匹馬是在辨別行為線索，這兩種理論在節省原則上的差異是很大的。後者不需要對先前任何心理學和大腦方面的理論做出大幅度調整，它只需要我們將「馬對行為線索具有敏感性」的看法稍加調整即可（現在已經廣為人知）。而前一種認為馬真的能學習算術的理論，則需要我們修改進化論、認知科學、比較心理學和腦科學中的很多概念。這可是相當麻煩的，因為它與其他這些科學缺乏一致性，因此如果它是真的，就需要我們更改這些科學中的很多概念才行（我們將會在第8章討論所謂的關聯原則）。

心理學家採取的也是同樣的方法：通過操縱和控制來分離變數。例如，認知心理學家們對閱讀的過程很感興趣，他們對促進或阻礙文字識別的因素進行了研究。毫無疑問，他們發現較長的單詞比較短的單詞更難識別。乍一看，我們會認為單詞長度的影響是很容易測量的：簡單地設置兩組單詞，一組長的，一組短的，然後測量兩組讀者識別速度的差異。不幸的是，事情遠沒有那麼簡單。長度較長的詞，其使用頻率可能也較低，而使用頻率本身也會影響識別。因此，長詞與短詞之間的任何差別都可能是由於長度、使用頻率或兩個因素共同作用而造成的。為了明確到底詞的長度能否獨立地對詞的識別造成影響，研究者必須創造一些特殊的詞，它們的長度與使用頻率不是同時變化的。

如果沒有對輔助溝通療法的大力宣傳，我們可能就會把更多的人力和金錢用於發展基於更有實證基礎的、更可行的長遠策略，來解決困擾兒童的這一問題。輔助溝通療法的支持者為研究和專業文獻所帶來的理論上的混亂，對能力缺陷及其成因方面知識的積累造成了極大的損害。將輔助溝通療法與其他成功治愈殘疾人的非語言交流系統混為一談，會使真正有效的方法也失去公眾的支持……根據我們的經驗，殘疾人能夠成為他們家庭和社區里有價值的成員，他們無需求助於神奇的治療方法。他們可以尋求現有的有效幫助，這種幫助是有科學意義的。受過科學訓練且富有同情心的專業人員的努力勝過所有流行的治療方法，而且始終如此。治療的進步和對於治療的理解是建立在嚴格的訓練、精確的科學標準以及對各種治療理論的客觀證明之上的。（pp.278-279）九-九-藏-書

儘管市面上關於科學方法論的書已經汗牛充棟，但是對於從未做過實驗的外行人士來說，這些書可能都如同浮雲一般，因為外行人只想知道一個大概，並不想搞清楚實驗設計的所有複雜細節。科學思維最重要的特點很容易掌握，那就是科學思維所基於的理念是比較、控制和操縱。要想獲得對一個現象更為深入的了解，科學家就要比較世界上存在的各種情況。沒有這種比較，我們所觀察到的都是一些孤立的事件，並且對這些孤立的觀察結果也解釋不清，就像我們第4章所討論的見證敘述和個案研究一樣。

隨機分配是一種將被試分配到實驗組和控制組的方法，以保證每個被試有同樣的幾率被分到其中一個組。擲硬幣就是一種決定某一被試分到哪一組的手段。實際實驗中往往採用電腦生成的隨機數字表。通過使用隨機分配，研究者在研究之前就試圖平衡兩組的所有行為變數和生理變數，甚至是那些研究者沒有進行專門測量或考慮到的變數。

實驗方法的核心就是操縱與控制。在相關研究中，研究者僅僅觀察兩個變數的自然變動是否顯示某種聯繫，而在真實驗中，研究者要對被假設為原因的變數進行操縱，通過實驗控制和隨機分配來保持其他所有變數不變，然後來看這個假設變數是否會產生影響。這種方法排除了相關研究中出現的第三變數的問題。第三變數出現的原因是，在自然倩境下，很多不同的事物都是相互聯繫的。實驗方法就是用來分開考察這些自然存在的關聯。它之所以能實現這一目的，是因為它以操縱一個變數（被假設是原因的變數）的方式分離出該變數，並保持其他所有變數不變。但是，為了區分這些自然的關聯，科學家們經常要創設自然世界里不會出現的特殊條件。

同樣，在檢驗「輔助溝通療法」的療效時，研究者也必須設計一些特殊的條件。呈現給輔助器和兒童的刺|激必須分離，這樣任何一方都不知道呈現給對方的刺|激是什麼。為了測試某種現象的不同假設，這類不同尋常的條件是很必要的。

聰明漢斯——神馬的故事

再多的個人經驗也不足以阻止人們產生關於物理運動的錯誤概念。飛行員威廉·蘭格威斯基在闡述關於飛行中轉彎角度這一知識的發展史的時候指出，他發現飛行員在20世紀早期的時候拒絕使用陀螺儀這類裝置，因為他們相信「平衡本能」。但是，這些「直覺」不能使飛行員在雲中感覺出飛機旋轉的角度。一些墜機事件和險些墜機的事件發生之後，飛行員終於清醒地認識到：沒有什麼直覺能夠代替真實的飛行物理學知識（Langewiesche, 1993）。

許多人對於聰明漢斯的表現都感到驚訝和迷惑。難道這匹馬真的證明人們低估了這個物種的實際能力嗎？人們無疑會有這樣的疑問。對漢斯特殊能力的有力見證被德國媒體廣泛報道。柏林的一家報社記者寫道：「這匹會思考的馬將會使科學家對很多問題做很長時間的思考」（Fernald, 1984, p.30），這個預言後來被證明是正確的——儘管與記者所期望的有所不同。一組「專家」對漢斯進行了觀察，並且證明了它的能力。因此每個人對此都感到很困惑。這個困惑一直困擾人們，因為這個現象總是被孤立地觀察到，也沒有進行任何的控制。但這個謎團很快被一位叫奧斯卡·芬斯特（Oskar Pfungst）的心理學家解開了，他對漢斯的能力進行了系統的研究（Spitz, 1997）。

簡而言之，科學家們用創設特殊條件的方法來驗證某種現象的假設是十分必要的。僅觀察自然情境還遠遠不夠，人們對下落的和移動的物體觀察了幾個世紀，卻沒有人得出關於運動和重力的正確原理和規律。直到伽利略和其他科學家們通過創設人工的條件來觀察物體的運動之後，才得到了正確的運動規律。在伽利略的時代，幾乎沒有人看到過光滑的銅球從光滑的斜面上滾下來。世界上有很多運動發生，但這種運動卻非常罕見。這是一種非常規的情境，和其他類似情境一樣，使我們第一次得出運動和重力的定律。說到運動定律，在本章最開始的時候，你不是做過一個小測驗嗎？

斯諾幸運地找到了一種自然情境，這種情境使得他能夠排除其他的可能性。這種在自然情況下產生的「比較」條件並不多見。讓科學家坐在那裡等待這類情況發生是十分荒謬的。事實上正相反，很多科學家都試圖以一種區分各種不同假設的方式來重構世界。為實現這一目的，他們必須操縱被認為是誘因的變數（在斯諾的實驗里是被污染的供水系統），然後在保持其他所有相關變數不變的情況下，觀察是否會有不同的結果（霍亂的發病率）。被|操縱的變數稱為自變數，隨著自變數變化而變化的變數稱為因變數。

在前一章我們講到，約瑟夫·戈德伯格對糙皮病的研究，一定程度上是受「糙皮病是不會傳染的」這種預感的指引。但是比戈德伯格早70年，約翰·斯諾（John Snow）在對霍亂起因的研究過程中，則將病因放在相反的猜想上，但同樣獲得了成功（Goldstein & Goldstein, 1987; Tufte, 1977）。早在19世紀50年代的倫敦，人們對不斷暴發的霍亂提出了許多理論，並且彼此爭論不休。很多醫生認為霍亂病人呼出的氣體會將此疾病傳染給別人，此理論被稱為「穢氣理論」。但是，斯諾卻提出，該疾病是通過被病人排泄物污染的供水系統傳播出去的。

上述這個例子再次證明，僅僅相信見證敘述或者認為流行的治療方法和偽科學無害，最終會帶來危害（見第4章）。由此我們還能發現，當我們想要正確解釋某種行為的時候，實驗控制和操縱是不可替代的。這裏需要再次強調一下節省原則。自閉症兒童嚴重的語言障礙居然能夠通過一種「神奇子彈」式（見第9章）的干預方法得到治愈，而這種干預方法推翻了幾十年來關於自閉症兒童的認知、神經心理和腦特徵的研究成果（Baron-Cohen，2005; Frith, 2003; Leslie, 2000; Sigman & Ruskin, 1999; Wellman，Cross, & Watson, 2001）。這需要我們修改很多關於認知和神經科學方面已取得的知識。輔助溝通療法的現狀表明，它與其他科學研究成果沒有關聯性和一致性（見第8章）。

科學家通過比較在不同條件下得ｒｅaｄ•99csw•coｍ到的結果，可以排除一些錯誤的解釋，並證實正確的解釋。通過比較，科學家可以排除許多先前被當作既定答案的理論。也就是說，他們試圖在一個實驗設計中儘可能多地排除錯誤解釋。他們這麼做的途徑無外乎兩種：要麼是在實驗條件下直接進行控制；要麼在自然情境下觀察，以便比較各種可能的解釋。

最後，想象你正拿著一把來複槍從肩膀高度開火，假設沒有空氣阻力，且步槍與地面是平行的。如果子彈從與槍相同的高度落地需要1.5秒鐘的時間，那麼假設你現在由槍管中射出一發子彈，初速度是每秒2000英尺，那麼子彈落地需要多長時間？

約瑟夫·戈德伯格就是直接操縱變數，他假設這個變數就是引起某種特別現象的原因。戈德伯格不僅對與糙皮病相關的變數進行觀察和記錄，他還在一系列研究中直接操縱了其他兩個變數。回想一下，他安排了低蛋白飲食的囚犯組來誘發糙皮病，同時安排吞食糙皮病患者排泄物的志願者，其中還包括他妻子和他自己。因此，戈德伯格不僅觀察了自然發生的情境，還創設了特殊條件組，從而排除一系列其他可能性並獲得實驗結果，這種推論要比斯諾的方法更具說服力。這也正是為什麼科學家要試圖操縱一個變數並保持其他所有的變數不變的原因：為了排除其他的可能性。

戈德伯格與糙皮病的例子給我們上了重要的一課，對於我們澄清有關科學進步的一些錯誤概念有很大的幫助，尤其是當其運用到心理學中的時候。世界上發生的任何事情通常都與其他許多因素有關聯。為了對許多同時發生的事件所造成的因果影響分別進行考察，我們必須創設一些通常情況下不會出現的條件。科學實驗將世界上原有的相關分割開來，以此來使單一變數的影響顯現出來。

當我們審視有關人類行為理論的文獻時，會發現丘奇蘭德的思考是對的。在第1章，我們證明了有關人類行為的許多常識是錯誤的，這不過是個小的例證而已。例如，沒有證據顯示有宗教信仰的人比沒有宗教信仰的人更無私（Paloutzian, 1983; Smith, Wheeler, & Diener, 1975）。許多研究顯示，篤信宗教的程度與參加慈善活動、幫助貧困的人或是不欺騙其他人這些行為之間沒有直接關係。並且，在很多研究文獻中，沒有證據證明很虔誠的人比那些自認為是無神論者的人更慈善，或是更願意幫助別人。

斯諾與霍亂

本章開頭出現的三個問題實際上是引自約翰·霍普金斯大學的心理學家邁克爾·麥克科勞斯基（Michael Mc Closkey）的一本書。麥克科勞斯基研究的主題被他自己稱之為「直覺物理學」。所謂直覺物理學就是普通人對物體運動的觀念。有趣的是，這些觀念通常與物體運動的實際情況恰恰相反（Catrambone, Jones, Jonides, & Seifert, 1995; Riener, Proffitt, & Salthouse, 2005）。

由於這些研究結果，專家的意見終於穿透媒體的喧鬧浮出水面。重要的是，大家越發認識到，這些缺乏實證基礎的療法並非無害（「哦，它有作用，那麼它要是沒有作用呢？」），將未經證實的療法投入使用是要付出代價的。波士頓兒童醫院的溝通促進中心的負責人霍華德·施恩（Howard Shane, 1993）直截了當地指出：

我們最初關於運動的世俗理論是相當混亂的，而且最終將會被更成熟的理論完全取代。早期我們關於宇宙結構和活動的世俗理論也十分離譜，它們之所以依然存留下來，只不過是作為一些歷史教訓，提醒我們自己可以荒謬到什麼程度。我們關於火的本質、生命本質的世俗理論也都是十分荒唐的。由於我們大部分的世俗理論都被推翻了，所以你可以一直列舉下去……但是與剛才列出的內容相比，人類的心智活動是一種更複雜和難以理解的現象。目前為止才算有了一些準確的認識，而當我們在其他方面都犯了錯誤的時候，想要在一開始就能正確地認識心理學知識，簡直就是天方夜譚（p.46）。

◎	好轉	沒有好轉
接受治療	200	75
未接受治療	50	15

俄亥俄州立大學兒科及心理學教授詹姆斯·姆里克（見Mulick，Jacobson, & Kobe, 1993）更是一針見血地指出了這種教育手段風行一時所付出的代價：

儘管家長們的激動心情是可以理解的，但專業人員的輕信盲從就讓人不能原諒了。更為糟糕的是，在沒有進行控制實驗的研究之前，這些媒體節目就開始向抱有無限期望的家長們大肆宣揚這種輔助溝通療法多麼有效。要是這些專業人員在實驗控制原則方面受過哪怕一丁點兒訓練，他們就能立刻看出這不過是「聰明漢斯」事件的翻版。那些輔助器可以說是一個永遠關注孩子成功的、富有同情心的「人」，在輔助過程中有許多機會有意或無意地指導孩子觸碰鍵盤上的按鍵。另外一項觀察發現，孩子們有時即使不看鍵盤也能打出複雜的信息，這說明輔助器給了孩子某種暗示。甚至連沒學過字母的孩子也能用英語創作出優美的散文。

假如列出所有錯誤的世俗觀念，那麼這個清單會很長。例如，很多人認為「月亮盈虧會影響人的行為」，其實並非如此（見Byrnes & Kelly, 1992; Culver, Rotton, & Kelly, 1988; Rotton & Kelly, 1985）。—些人認為「性格互補的人相互吸引」，他們也錯了（見Buss, 1985; Buss & Barnes, 1986）。一些人認為「親生厭，熟生蔑」，實際沒有這回事（見Bomstein，1989）。一些人認為盲人幸運地擁有超靈敏的聽覺，但事實上他們沒有（見Niemeyer & Starlinger, 1981; Stankov Spilsbury, 1978）。類似這樣的例子還有很多很多。

因此，隨機分配程序有兩個優點。一個是在任何實驗中，樣本的數量越大，隨機分配越能平衡兩組所有其他的無關變數。而即使在一些匹配得不是特別好的實驗里，由於隨機分配克服了系統誤差，仍然可以讓我們得出令人信服的結論——只要研究可以被重複。所以，儘管隨機分配不能保證被試在任何實驗中都保持完全的匹配，但它仍然是能夠用來確保達到某種平衡的最好方法。

類似斯諾這樣的實驗設計就無法排除那些更為微妙的虛假相關，這類虛假相關不像其他與社會經濟地位有關的相關那樣容易被看出來。這就是科學家傾向於直接操縱他們感興趣的變數的原因。當操縱變數與一種叫做隨機分配的程序（在隨機分配中被試不能決定自己進入哪種實驗條件，而是被隨機九_九_藏_書分配到某一個實驗組）相結合時，科學家們就能夠排除那些可以歸因為被試本身特徵的解釋了。隨機分配確保被試在對比實驗條件下的所有變數基本保持一致，隨著樣本數量的增加，它還能平衡掉一些偶然因素。這是因為被試的分配是由不帶偏見的隨機方法實施的，而不是由某個人的選擇決定的。請注意這裏的隨機分配與隨機樣本不是一回事，這兩者的區別我們將會在第7章進行討論。

生物學家E.O.威爾遜（E.O.Wason, 1998）道出了丘奇蘭德的推測為什麼可能是正確的，原因在於：「大腦這部機器構造出來是用於生存的，而不是用來理解它自己的。因為這兩個目的完全不同，大腦在沒有接受科學知識時觀看這個世界是零散的，它必須把注意力放在它所必須知道的世界的一隅，以便於能夠生存下去。這也就是為什麼甚至到今天人類了解汽車遠勝於了解他們自己的大腦。」（pp.96-97）。

事實上，這個實驗所檢測的療法是完全無效的。為了理解為什麼這個療法是無效的，有必要關注一下表示沒有接受治療的控制組（沒有接受特殊療法的組）的兩格數據。我們可以看出，控制組的65人中有50個人，即76.9%的人即使沒有接受特殊治療還是有所好轉。這與275中200人（72.7%）接受治療且有所好轉形成了對比。因此，控制組中病情好轉者的比例實際上更大，這說明這種療法是完全沒有效果的。只關注實驗組的結果而忽視控制組的結果，會誘使許多人認為這種療法有效。簡而言之，它很容易讓人們忽略這一事實，即當我們對治療效果進行解釋時，控制組的結果是背景信息中極為關鍵的一環。

麥克科勞斯基的工作很好地說明，理解科學家這一做法有多麼重要。儘管人們有大量關於物體運動和下落的經驗，但對於運動的直覺理論都是相當不靠譜的。我們需要明白的是，外行人觀念的不準確是因為他的觀察是「自然的」，而不是像科學家那樣進行實驗控制。因此，如果你在本章開頭的測驗中錯了一道題，不要覺得是自己無知或知識匱乏。要知道幾個世紀以前，這個世界上一些偉大人物觀察下落的物體后得出的有關運動的物理知識不比現代的高中二年級的學生準確到哪去。在《科學美國人》（Scientific American）雜誌上的一篇文章中，麥克科勞斯基指出，他觀察過的被試中很多人都對物體運動持有一種錯誤的觀念，並且這些錯誤的觀念與在牛頓之前三個世紀的理念不謀而合。麥克科勞斯基的當代被試和中世紀哲學家有共通之處：兩組人在現實世界里都有很多有關物體運動的經驗，但是沒有人特意創設一種條件，進行科學的操縱、控制和比較。

創設特殊條件來驗證是否存在真正的因果關係，這種方法可以防止錯誤觀念像病毒一樣侵襲我們（Dawkin, 1993; Distin, 2005; Stanovich, 2004）。讓我們看一下關於治療性觸摸的案例，治療性觸摸是在20世紀90年代北美地區十分流行的一種護理方式。使用治療性觸摸法的醫生按摩的不是病人的身體，而是病人身上所謂的「能量區」。也就是說，醫生的手在病人身體上方游移，但不做真正的按摩。醫生說這是在「感覺」病人的能量區。你會發現，這種感應能量區的能力可以通過創設類似於「聰明漢斯」和「輔助溝通療法」中的特殊條件來進行驗證。也就是說，測試這些醫生在看不見的情況下，是否還能感覺出他們的手正接近人的身體。研究結果與聰明漢斯和輔助溝通療法的案例一樣，當視線被擋住之後，這種對距離的感覺能力和隨機水平差不多。

控制組的重要性

芬斯特繼承了實驗設計的優良傳統，系統地對動物表演的環境進行操縱，創設了一種「人為」情境（見第7章），這種情境可以用來檢驗關於馬的表現的各種不同說法。在一系列小心謹慎的測試之後，芬斯特發現，這匹馬的確具有一種特殊能力，但不是計算能力。事實上，這匹馬更像是一位行為科學家，而不是數學家。你看，漢斯是一個非常細心的人類行為的觀察者，當它正在敲出答案的時候，它會觀察訓練員或者出題者的頭部。當漢斯接近答案的時候，訓練員會下意識地稍微歪一下他的頭，然後漢斯就會停下來。芬斯特發現這匹馬對視覺線索極其敏感，它能察覺頭部的細微動作。於是芬斯特想出了另外一個方法來測試馬的能力：就是讓不知道答案的提問者向這匹馬提問，或者讓提問者在馬的視線範圍以外呈現問題，而在這些情況下，漢斯就失去了它的「數學能力」。

科學研究中不乏由於缺乏真實驗的完全控制而得出錯誤結論的例子。羅斯和尼斯貝特（Ross & Nisbett, 1991）提到一個發生在20世紀60年代中期的案例：門腔靜脈分流術一度是一種非常流行的治療肝硬化的方法。1966年人們開始對此療法進行大量研究，並且發現了一種令人感興趣的現象。在96.9%的不包含控制組的研究中，醫生判斷這種治療方法的效果至少在中等程度以上。在有控制組但沒有使用隨機分配的研究中（因此不屬於真實驗設計），86.7%的研究顯示同樣的結論。但是，在有隨機分配的控制組的研究中，只有25%的研究顯示同樣的結論。因此在今天，這種特殊治療方法被認為是無效的，但在當時，由於沒有進行完全的實驗控制，治療效果被誇大了。羅斯和尼斯貝特（1991）指出，「沒有使用較為正式的實驗程序所獲得的積極效果，要麼是『安慰劑效應』的產物，要麼是由於沒有使用隨機分配而產生的偏差」（p.207）。羅斯和尼斯貝特還繼續探討了「當沒有使用隨機分配的時候，選擇性偏差是如何產生虛假相關的」這一問題。例如，如果一些病人被選作某種治療方法的研究被試，他們可能會努力做一名好的參与者，或者他們擁有家庭的支持、積極的態度或者他們的家人對其病情更為關心，這些都可能影響實驗組與控制組的差別，而這與治療方法的效果沒有任何關係。

答案——對了，還有答案這檔子事兒。答案會在本章的後面揭曉。但在此之前，為了便於理解掌握這些運動方面的知識與心理學有什麼關係，我們需要先探入地探討實驗邏輯的本質，這些實驗邏輯經常被科學家們所使用。在本章，我們將要討論實驗控制和操縱的一些原理。

因此，一個好的實驗設計應該是這樣的：科學家能夠操縱他感興趣的變數，並對其他可能影響實驗的無關變數進行控制。需要注意的是，斯諾並沒有這麼做。他不可能操縱供水系統的污染程度，但是他找到了這樣一種條件，即供水系統受污染的程度是不同的，並且與社會經濟水平有關的其他變數僥倖得到了控制。可是這種自然發生的情境不僅很少見，而且也不如直接的實驗操縱那麼有說服力。

用實驗控制來排除某種現象的各種不同解釋，這麼做是極為必要的。這種必要性可以通過行為科學中一個非常著名的故事來說明。故事的主人公叫聰明漢斯（Clever Hans）——一匹會算術的馬。80多年前，一名德國教師向大家展示了一匹馬，它的名字叫聰明漢斯，它好像知道如何算術。訓練員無論給漢斯出加法、減法還是乘法題，漢斯都能用它的蹄子敲出答案，並且它九_九_藏_書的回答完全正確。

心理學上的很多經典實驗都需要將現實世界的自然關係分開考察，通過這樣一種邏輯，就能看出哪個變數是決定因素。心理學家哈里·哈洛（HarryHarlow）的著名實驗（Anderson & Anderson，1996; Harlow, 1958）就是個很好的例子。哈洛想要測試一種關於親子依戀的假設：依戀的產生是由於母親為嬰兒提供食物。然而，問題是母親提供的不僅僅是食物（還有舒適、溫曖、愛撫以及刺|激等）。哈洛創設了一種條件，在這種條件下只有一個變數與依戀有關——他讓剛出生的短尾猴只能在「人造的」母親之間選擇，並測查了小猴子在這種條件下的行為。例如，他發現，小猴子喜歡厚絨布做成的「母親」所提供的接觸舒適感，甚於喜歡鐵絲網做成的「母親」。出生兩周之後，小猴子更喜歡冰冷的厚絨布「母親」，而不是溫曖的鐵絲「母親」，這說明接觸上的舒適感比溫曖更吸引小猴子（Harlow & Suomi, 1970）。最後，哈洛還發現，即使當食物僅來自於鐵絲「母親」的時候，小猴子仍然更喜歡厚絨布母親。因此，「依戀僅是由於母親提供食物」的這種假設是錯誤的。正是因為哈洛能夠對現實世界里同時發生的變數分開進行考察，才會有這樣的發現。

后一種情形在霍亂這個例子中得到了很好的詮釋。斯諾並不是簡單地隨意選擇兩家自來水公司，他清楚自來水公司可能給不同地區供水，並且這些地區的社會經濟水平會有很大差異，這種社會經濟水平的差異很有可能會影晌人們的健康水平。僅僅觀察不同地區霍亂的發病率，難以避免「同時存在許多不同解釋」的問題。斯諾清楚地知道，科學的不斷發展需要盡量減少對一個問題的各種不同解釋（請回想一下第2章所討論的可證偽性），因此他不斷尋找並且最終找到一種比較方式，此方式可以排除一大堆解釋，這類解釋都是與健康有關的社會經濟地位方面的因素。

所有科學證據都表明，輔助溝通療法是沒有用的……由於這種方法存在潛在的傷害性，所以不應被繼續使用下去了。譬如，輔助溝通會導致錯誤的性|虐待指控、人們對教育資源配置的不當要求，並且大量的訓練和研究經費被投入到無用的技術里。（p.11）

在這一章我們要討論的是，斯諾和戈德伯格的故事是如何體現科學思維的邏輯性的。如果不能理解這種邏輯性，科學家們的所作所為看上去就會顯得很神秘、怪異或是荒唐透頂。

直覺心理學

聰明漢斯的故事只是一個歷史案例，很多年來，在研究方法課上，這個例子都被用來說明實驗控制的必要性。沒有人認為聰明漢斯的事情會再次發生，但卻真的發生了。在20世紀90年代初，全世界的研究者們都在驚恐中觀望，就像用慢鏡頭的方式觀察一場車禍一樣，眼看著現代版的聰明漢斯的悲劇又一次展現在他們眼前（Gardner, 2001; Hines, 2003; Twachtman-Cullen, 1997）。

隨機分配與操縱共同定義了真實驗

小結

哲學家保羅·丘奇蘭德（Churchland, 1988）曾指出，如果我們關於物體運動的直覺（或世俗）理論都是不準確的，因此，也很難相信我們在人類行為這類更為複雜領域中的世俗理論會是正確的：

斯諾開始著手驗證他的理論。幸運的是，當時倫敦有許多不同的供水源，每個供水源給不同的地區供水，所以不同供水系統受感染的程度不同，霍亂的發生率應該因供水源受污染程度的不同而存在差別。但是斯諾發現，這種比較會出現嚴重的選擇性偏差（請回想一下第5章的討論）。在倫敦，不同地區的貧富差距非常大，因此，供水系統和各地區患病率之間的任何相關都會受到其他能夠影響健康的、與該地區的經濟發展水平相關的變數的影響，如飲食、壓力、工作危機或生活質量。簡而言之，獲得虛假相關的可能性很大，這和第5章所討論的糙皮病和污水的關係類似。但是斯諾非常機敏地注意到了一種已經出現過的特殊條件，並利用這一點解決了問題。

與之類似，戈德伯格之所以能夠做出強有力的原因推斷，是由於他設置了一組非自然發生的特殊條件（想一下他的一個實驗操縱是要被試吃下人體的排泄物，這是何等的「不自然」啊！）。回想一下奧斯卡.芬斯特設置的一些測試「聰明漢斯」的實驗條件，其中包括一些提問者也不知道答案。那些僅僅觀察馬在自然條件下（提問者知道答案）回答問題的人，非但永遠不可能發現那匹馬是如何做到這一切的，反而會得出錯誤的結論，認為那匹馬真的具有數學知識。

對變數分開考察：特殊條件

在倫敦的一個市區，碰巧有兩家自來水公司對同一個社區供水，但從供水布局上來說是雜亂無章、毫無規劃的。在某條街道上，一部分住宅是由其中一家自來水公司供水，一部分是由另外一家自來水公司負責供水，這種情況發生的原因是由於最初兩家公司存在競爭。甚至有這樣的情況，一棟房子由一家公司供水，而與它毗鄰的房子卻是由另一家公司供水。因此斯諾找到了幾個由兩家公司分別供水的家庭，並且這些家庭的社會經濟地位基本相同，或至少是非常接近的。如果兩家自來水公司都受到污染，那麼這種選擇仍舊是沒有任何意義的，因為這樣斯諾就不能發現水污染與霍亂的發病率有什麼關係了。所幸的是，這種情況並沒有發生，這兩家公司的水並未同時受到污染。

你可以算一下自己在這個小測驗中的成績如何。如果最近你沒有學習物理課的話，那麼你很有可能至少會錯一道題。「物理課！」你可能會提出抗議，「我最近當然沒上過物理課，這個測驗不公平！」但是請等一下，你為什麼需要上物理課才知道這些題目的答案呢？從小到大，你肯定無數次地見過下落的物體。你看到過它們在自然情境中下落的過程。每天你都能看見運動的物體，你看到的是它們「自然發生」的狀態。你當然不能說你對於物體運動毫無經驗。當然，你沒見過類似子彈的這種運動。但是我們中的大多數人都見過孩子放開旋轉的物體，並且多數人也都見過物體從飛機上落下來。此外，很難說你沒見過這些真實的情境。既然你有這麼多年關於物體運動和下落的經驗，當和真實情境略有不同的時候，為什麼你不能準確地預測會發生什麼呢？

在下結論之前必須獲得「比較信息」，這種思維傾向並不是與生俱來的，這就是為什麼所有科學研究都要經過訓練。這些訓練包括強調控制組的重要性的研究方法課程。控制組和實驗組很像，只不過缺少一種重要因素的影響。控制組的這種「非鮮明性」很難讓人發現它的重要性，心理學家們做了大量的研究來說明人們為什麼忽視重要的比較（控制組）信息。例如，在一個研究範式中（Fiedler & Freytag, 2004; Novick & Cheng, 2004; Stanovich & West, 1998），我們給被試呈現一個2X2的實驗數據矩陣：

第二個問題，假設你是一個轟炸機的飛行員，現在正以每小時500英里的速度在20000英尺的高空飛向目標，為了簡單起見，假設沒有空氣阻力。問題是：什麼地方是投擲炸彈的最佳位置，是在到達目標地點之前，還是目標的正上方，或者是在你經過目標之後？無論你選擇的是目標之前、目標正上方，還是飛越了目標之後，都請你指出投放點與目標的具體距離。九九藏書

但悲劇後面緊跟著更大的悲劇。在一些治療中心，有當事人在接受輔助器幫助的溝通過程中，講出過去他們曾受到父親或母親的性|虐待（Dillon，1993; Sdigmann & Chideya, 1992; Spitz, 1997; Twachtman-Cullen, 1997）。於是這些孩子們被迫從家裡搬出來，直到這場指控被證明是毫無根據之後，孩子們才被接回來：「許多法院的訴訟案件，皆因接受輔助溝通療法所引起，其中最引人注目的是關於控告虐待罪名的案例。法院下令的查證都證實是輔助器不適當地影響了交流，這些指控就都被撤銷了（Smith & Belcher，1993, p.176）。」哈德森（Hudson, 1993）等人報告了一個實驗測試：一個和父母住在一起的29歲女子被認為有嚴重的智力障礙。在接受輔助治療期間，這個女子報告說曾經受到生活中重要人物的性侵犯。在進入法律程序時，哈德森等人通過使用芬斯特在聰明漢斯案例中用到的邏輯方法，在接受輔助療法治療時對這個女人的交流能力進行了測試。通過兩個不同的耳機，分別對這個女人和輔助器進行提問。當兩者被問到相同問題的時候，這個女人每次都能回答正確，當問到不同問題的時候，這個女人的答案都是錯的，有40%的答案是在回答輔助器被問到的問題。

我們這裏並不是說斯諾的方法毫無可取之處。但科學家們的確願意更為直接地操縱實驗變數，因為直接操縱變數能夠產生更具說服力的推論。細想斯諾的兩組被試：一組由蘭姆博斯公司供水，另一組由南沃克-沃克斯霍爾公司供水。由於處在同一個地區，可能保證了兩組被試的社會地位幾乎相同。但是類似斯諾這類實驗設計的缺陷是：它是由被試決定自己屬於哪一個組的。因為他們早在幾年前已與兩家自來水公司簽訂了供水合同。我們還必須考慮為什麼一些人與這家公司簽約，而另外一些人與那家公司簽約。是不是一家公司比另外一家公司的口碑好？是由於這家的價錢比較便宜，還是廣告說這家的水有很好的藥用價值？我們不得而知。關鍵的問題是：這些人選擇其中一家公司是不是因為該公司做廣告說他們的產品質量優於另外一家，特別是對人的健康有益處？而或許這些因素才是低發病率的真正原因。這是有可能的。

直覺物理學

例如，第一個問題里，當細繩被剪斷後，小球會向與細繩垂直的方向直著飛出去（即圓的切線）。麥克科勞斯基發現三分之一的大學生都回答錯了，他們認為小球會沿拋物線飛出去。當麥克科勞斯基的被試被問到類似於轟炸機飛行員的那個問題時，有大約一半的人認為應在目標的正上方投擲炸彈，這就表現出他們不理解物體的初始運動決定其後來的運動軌跡，實際上應該在飛機到達目標之前五英里的地方投彈。被試的錯誤不是因為問題的抽象性質所導致的。當要求被試從房間的一頭走到另一頭，在走的時候把一個高爾夫球丟在地板上的一個位置時，超過—半人的表現說明，他們不知道高爾夫球下落的時候還會繼續向前運動。最後一道題，許多人不知道從步槍射出的子彈落地的時間與子彈垂直落到地面的時間是相同的。

在一波霍亂流行過後，蘭姆博斯（Lambeth）公司為了避免水污染，將公司遷到泰晤士河的上游，而南沃克-沃克斯霍爾（SouthwarkScVauxhall）公司卻仍然固守在下游。因此，蘭姆博斯公司的水系統受污染的可能性比南沃克-沃克斯霍爾公司要小得多。斯諾通過化學檢驗也證明了這一點。剩下的工作就是統計由兩家不同公司供水的家庭的霍亂髮病率：蘭姆博斯公司供水的每10000個家庭里有37人死亡，南沃克-沃克斯霍爾公司供水的每10000個家庭里有315人死亡。

這一章開始前，咱們先來做一個小測驗。噢，別擔心，不是考你前幾章所學的內容。問題其實很簡單，是有關現實世界中常見的物體運動方面的知識，問題只有三個。

比較、控制和操縱

在芬斯特涉足此事之前，那些見過這匹馬的專家們都犯了一個根本性的錯誤：他們沒有想到，對於馬的表現還可能存在其他的解釋。這些專家認為，只要證明訓練員沒有撒謊，並且這匹馬真的能敲出正確答案，就能夠推論出這匹馬具有數學能力。然而芬斯特想得更科學一些，他意識到這隻不過是眾多可能性中的一種，有必要設立控制條件來區分這些可能性。於是芬斯特設計了一個情境，讓訓練員站在隔板的後面把問題呈現給這匹馬，通過這種方式，芬斯特就可以對兩種可能性進行區分：是這匹馬真的具有數學能力，還是它能對視覺線索做出反應？如果這匹馬真的具有數學能力，讓訓練員站在隔板後面就不會對馬的表現產生任何影響。而如果這匹馬是對視覺線索做出反應，那麼就會影響馬的表現。當後者出現的時候，芬斯特就能夠排除「這匹馬具有數學能力」這種錯誤的解釋（Splkz, 1997）。

像這樣的實驗就會用到隨機分配，以確保兩組在實驗之初，所有能夠影響因變數的無關變數都基本保持一致。這些無關變數有時被稱為干擾變數。這個實驗中的干擾變數可能會是兒童的智力測驗成績和他們的家庭環境。隨機分配將會在大體上使兩組間在這些變數上保持平衡。但也有例外，尤其當被試人數很少時，兩組仍然有可能存在差異。例如，如果隨機分配之後，實驗組兒童的智力測驗的成績是105.6，控制組的是101.9（儘管恰當地使用了隨機分配，這種差異還是有可能發生），我們就會擔心實驗組的學業成就的任何變化緣於該組兒童的智力測驗成績高，而不是由於他們經受了豐富的體驗。這裏就能看出重複驗證的重要性了。後續研究進行隨機分配之後，兩組仍然可能存在智商差異，但是隨機分配程序避免了系統誤差，這就能夠保證這種差異不會總是出現在實驗組。事實上，無系統誤差這一點所確保的是，在一定數量的類似研究中，智商差異出現在實驗組和出現在控制組的概率是相等的。在第8章我們將會討論如何使用這種多重的實驗來提高結論的聚合效度。

20世紀90年代的聰明漢斯

漢斯的例子很好地揭示了仔細區分「對現象的描述」和「對現象的解釋」是何等重要。這匹馬能夠正確敲出訓練員呈現給它的數學問題的答案，這是毋庸置疑的，訓練員也沒有撒謊，而且許多觀察者也都證明了這匹馬能夠做到這一點。問題出現在下一步：即推論這匹馬能敲出正確答案是因為它具有數學能力。推斷馬具有數學能力只是這一現象的一種「假設的解釋」。從「馬能敲出正確答案」就得出「馬具有數學能力」的結論是不符合邏輯的。別忘了，馬具有數學能力只是針對馬的表現的諸多解釋中的一種，而這種解釋是可以通過實證方法來檢驗的。當放在這樣一種實驗情境下，這個解釋就被證偽了。