You are currently viewing 讀書筆記 — 雜訊:人類判斷的缺陷

讀書筆記 — 雜訊:人類判斷的缺陷

雜訊:人類判斷的缺陷 — 丹尼爾.康納曼, 奧利維.席波尼, 凱斯.桑思汀

雜訊:人類判斷的缺陷

《雜訊》是諾貝爾經濟學獎得主丹尼爾.康納曼在《快思慢想》之後和其他行為學家的鉅作,作者指出只要有判斷,就會有「雜訊」。而且在日常生活中,雜訊比你以為的還要多。在經營管理、醫學、法律、經濟預測、法醫鑑識、保釋、兒童保護、策略、績效評估、個人選擇等領域,都看得到雜訊,但是一般人和組織都沒有意識到這個問題,結果是付出高昂的代價。作者從各領域的實例中拆解雜訊出現的原因,並提供幾項決策保健策略,幫助讀者預防決策雜訊。


雜訊》 讀書心得

《雜訊》中點出幾項他們對雜訊研究的結論,首先,世界很複雜、充滿不確定性,因此判斷很困難。第二,這些差異遠超過我們的預期。系統雜訊可能會造成許多不公平的現象及很多種錯誤,也會付出很高的經濟代價。第三,雜訊是可以減少的。第四,減少雜訊的做法常會引發反對和重重阻力。

只要有判斷,就會有「雜訊」,而且在日常生活中,雜訊比你以為的還要多。法官對同一個案件卻有截然不同的判決、不同醫師對同一個病人的診斷有很大的差異、不同面試官對於是否錄取求職者意見大不相同,同一個員工的績效考核有不同的結果,甚至就連同一個法官、醫師與面試官在不同的時間也會做出不同的判斷。

作者將人類判斷的誤差分解成下列的公式,並解釋偏誤和雜訊的不同:

總體誤差(均方差) = 偏誤2 + 系統雜訊2
系統雜訊2 = 水準雜訊2 + 型態雜訊2
型態雜訊2 = 穩定型態雜訊2 + 場合雜訊2

總體的誤差包含了偏誤系統雜訊。只要是以準確為目標,在計算整體誤差時,偏誤和雜訊會扮演相同的角色。本書主要是在討論「雜訊」。

偏誤是我們可以經常看到、甚至解釋的錯誤。像是在《快思慢想》裡提到的那些心理的認知偏誤,譬如錨定效應、捷徑替代、月暈效應偏誤、稟賦效應偏誤等。

系統雜訊又包含了水準雜訊型態雜訊

水準雜訊:是不同法官判斷平均水準的變異。有些法官比一般法官來得寬容。有些預測者對市占率的預測比他人來得樂觀。

型態雜訊又分為穩定型態雜訊場合雜訊

穩定型態雜訊:是法官對特定案件反應的變異。法官對各案件的交互作用,意思是「逐案判斷」。例如,一位法官一般來說可能比較嚴厲,但對白領罪犯會比較寬容。

場合雜訊:短暫性影響引起的變異,例如,法官的女兒那天發生值得恭喜的事,使法官心情愉悅,量刑時就會比較寬容。型態雜訊必然包含一些場合雜訊,可以把場合雜訊當作隨機誤差。

我們經知道雜訊會對我們的判斷造成影響,但我覺得有些預測性判斷本來就難以判斷準確,像是公司在人員招募時,要去預測個這候選人在將來是否能如預期中表現出色。你在評估的時候自己覺得已經掌握了很多應該知道的資訊,但是未來充滿不確定性,員工未來的表現也和是否有會提拔他的上司,遇到的客戶、是否有遇到展現長才的機會等等而異。這其實也是書中所提到的客觀的無知(objective ignorance),棘手的不確定性(不可能得知的事情)與訊息的不完整(事情可以得知但沒得到的事情)會使完美的預測變得不可能。

書中提出決策保健的方法來減少雜訊,就像是洗手時,你不一定知道究竟在避免哪一種細菌,你只知道,洗手是預防多種細菌的好方法。

作者觀察到所謂團體中的”超級預測者”他們擅長採取外部觀點,而且他們十分注重基本率,並且有高度的「主動開放心態」來努力進行研究、縝密的思慮和自我批判、蒐集與整合其他觀點、細緻的判斷和不懈怠的更新。

“超級預測者”凸顯兩項決策保健策略的價值:挑選(超級預測者就是超級厲害),以及總合(預測者在團隊合作時的表現較好)。但要注意無論多元化程度多高,總合法只有在判斷真正彼此獨立時才能減少雜訊。想要借用多元組織的力量,必須接納團隊成員各自獨立做判斷時會出現的歧見。徵詢並總合獨立而多元的判斷,通常是最容易、成本最低廉、應用也最廣泛的決策保健策略。

書中針對法官量型、醫師診斷、績效評鑑制度及人員招募等作出減少雜訊的研究及建議,我對人員招募比較有感觸。作者提到可透過結構化流程提升人事篩選品質,把複雜判斷結構化。一個結構化複雜判斷要符合三個原則:分解、獨立性,以及延遲做出整體判斷。

像是Google把人事決策分解成四項中介評估:一般認知能力、領導力、文化契合度(Google精神),以及與職務相關的知識。

獨立性,也就是各項評估資訊的蒐集必須獨立進行。結構化行為面試(structured behavioral interviews):面試官的角色不是決定他們在整體上是否喜歡一名求職者;而是為評估架構裡的每項評估蒐集資料,並在各項評估為求職者評分。

延遲做出整體判斷:不要排除直覺,但是要延遲運用直覺的時間。

這樣的流程跟我之前在外商科技公司來說大同小異,我之前的公司有很嚴謹的招募流程,由不同的面試官針對公司不同的領導力準則來對候選人做結構化行為面試,面試完後不互相溝通,面試官對自己面試候選人是否達到特定準則來評分,最後面試官在一個會議中決定是否聘雇該候選人,而且會議是由不同部門的資深員工來主持,確保公平的判斷。我在前公司擔任過多次面試官,這麼嚴謹的面試流程,確實能多面向的評估招募的人員,減少雜訊,且較公平,但實運作起來擔任面試官的我有時還是滿難從短短一小時評判候選人是否能達準及以預其他日後的表現,就像是上面所說的客觀的無知。最後真的還是要做出直覺判斷。

減少雜訊的第一步必然是承認雜訊有可能存在。移除雜訊或許成本高昂,但是這個成本通常值得花。雜訊可能極其不公平。如果減少雜訊的措施過於粗糙、如果我們得到的指引或規則僵固到無法接受,或是會在無意間產生偏誤,我們不應該就此放棄。


《雜訊》 摘錄自書中的筆記:

  • 只要是判斷,就會有雜訊,而且雜訊要比你想像的還多。
  • 首先,世界很複雜、充滿不確定性,因此判斷很困難。第二,這些差異遠超過我們的預期。系統雜訊可能會造成許多不公平的現象及很多種錯誤,也會付出很高的經濟代價。第三,雜訊是可以減少的。第四,減少雜訊的做法常會引發反對和重重阻力。
  • 實驗顯示,不同法官對相同案件的建議判決有很大的差異。這樣的差異是不公平的。被告被判處的刑罰不該取決於剛好皮分配給那位法官來處理。
  • 刑罰輕重的影響因素不該包括審理法官的心情,或是室外的氣溫。
  • 量刑基準是解決這個問題的一個做法。
  • 系統雜訊比想的大上五倍,或者大到無法忍受。如果沒有雜訊審查,就永遠不知道個這問題。雜訊審查會戳破意見一致的錯覺。
  • 單一決策就像是只發生一次的重複決策。不管你的決策只做一次,或是做一百次,都該以減少偏誤和雜訊為目標。
  • 判斷不是思維的同義詞,做出準確的判斷,不等於擁有良好的判斷力。
  • 有些判斷是預測性的,包括可以驗證(某種藥物效果)及不可驗證(長期預測及回答虛構問題)。有些則是評估性的,如法官量刑。
  • 只要是以準確為目標,在計算整體誤差時,偏誤和雜訊會扮演相同的角色。
  • 總體誤差(均方差) = 偏誤2 + 雜訊2
  • 最好的方法就是減少雜訊,也減少偏誤。如果決定減少雜訊,而事實上雜訊的減少的使偏誤變得更明顯,讓人無法視而不閱,這說不定反而是件好事。
  • 如果偏誤要比雜訊大得多,還是得優先處理偏誤的問題。
  • 系統雜訊2 = 水準雜訊2 + 型態雜訊2
  • 水準雜訊:是不同法官判斷平均水準的變異。有些法官比一般法官來得寬容。有些預測者對市占率的預測比他人來得樂觀。
  • 型態雜訊:是法官對特定案件反應的變異。法官 X 各案件的交互作用,意思是「逐案判斷」。例如,一位法官一般來說可能比較嚴厲,但對白領罪犯會比較寬容。
  • 場合雜訊:短暫性影響引起的變異,例如,法官的女兒那天發生值得恭喜的事,使法官心情愉悅,量刑時就會比較寬容。
  • 水準雜訊與型態雜訊的數量大致相等。然而,我們認為型態雜訊必然包含一些場合雜訊,可以把場合雜訊當作隨機誤差。
  • 群體的智慧:如果你拿一個問題去問一大群人,平均答案有可能最接近目標。總合的判斷可能是減少雜訊、進而減少誤差的絕佳方法。
  • 資訊瀑布 (information cascade):我們會參考別人的意見,如果最先發言的人似乎喜歡某件事或想做某件事,其他人可能會贊同。至少,如果其他人沒有理由不相信他們,或是沒有充分理由認定他們的意見有錯,就會出現這樣的結果。
  • 群體極化 (group polarization):在經過討論後,群體最後的決定往往要比他們個人原本的傾向要來得極端。
  • 你對自己的判斷感到滿意只是一種錯覺:也就是效度錯覺(illusion of validity)。只要進行預測性判斷,就會出現效度錯覺。因為我們常常無法區分預測任務的兩個階萬:根據已有的證據來評估個案,以及預測實際結果。你在評估的時候已經掌握了很多應該知道的資訊,但是未來充滿不確定性。
  • 臨床醫師也不能從效度錯覺中免疫。米爾發現,最簡單的公式,只要持續運用,就能勝過臨床判斷。
  • 簡單的模型打敗了人類。
  • 人們認為自己在做判斷時,展現出思考的複雜性,並增添細微的考量。但這種複雜性和微妙性只會弄巧成拙,不會提高簡單模型的準確性。
  • 判斷的雜訊太多,因此沒有雜訊的判斷者模型會比人類判斷者的預測更準確。
  • 如果有很多數據 機器學習演算法的表現就會比人類好,也比簡單模型來得好。不過,即使是最簡單的規則和演算法也比人類判斷的優勢更大:沒有雜訊,不會用複雜得莫名其妙、常常落得徒勞無功的觀點來看預測的因子。
  • 內在訊號是一種自己給予的獎勵,在判斷完成時要努力(有時不用太努力)去實現的目標。這是一種令人滿足的情感經驗、一種讓人愉悅的一致性感受,認為考量的證據與達成的判斷是正確的。內在訊號扮演重要的角色,而且會誤導我們,因為這個訊號是以信念來理解,而非以感覺來理解。
  • 客觀的無知(objective ignorance):棘手的不確定性(不可能得知的事情)與訊息的不完整(事情可以得知但沒得到的事情)會使完美的預測變得不可能。這些未知數不是偏誤的問題,也不是判斷中的雜訊問題,而是任務的客觀特徵。客觀上對重要未知事件的無知,會大幅限制可以達到的準確性。
  • 相信自己有能力達到不可能達成的高預測準確率,這樣的人不只是過度自信,不只是否認自己的判斷中有雜訊和偏誤,也不只是認為自己要比其他人來得優秀,他們相信那些不可能預測的事件是可以預測的,也就是否認不確定性的現實,這種態度相當於否認自己的無知
  • 我們都知道我們有心理偏誤,但是我們應該克制衝動,不要把每個錯誤都歸咎於不明確的「失誤」。
  • 當我們用一個比較簡單的問題替代應該要回答的問題,勢必會發生錯誤。例如,當我們用相似度來判斷機率,就會忽略基本率。
  • 未審先判與其他結論偏誤會導致我們扭曲證據,藉此支持我們原先的立場。
  • 我們會迅速形成印象,並堅守這些印象,即使矛盾的資訊出現也一樣。這種傾向就是過度追求連貫性。
  • 許多判斷工作都是用個別案例與量表進行配對(例如,7分的同意度量表),或是用一組有順序的形容詞(例如,評鑑事件機率時所用的「不可能」或「非常不可能」)。這類配對因為粗糙,所以有雜訊。即使每個人對於判斷的本質有一致的立場,每個人對於標籤的解讀也可能不同。因此,一個能強迫進行明確的比較型判斷程序,有可能減少雜訊。
  • 型態雜訊2 = 穩定型態雜訊2 + 場合雜訊2
  • 穩定型態雜訊 :一位平常寬容的法官,在審判某類被告時(比方說違反交通規則的人)異常嚴厲。
  • 場合(暫時)雜訊:法官當下心情不錯。
總體誤差(均方差) = 偏誤2 + 系統雜訊2
系統雜訊2 = 水準雜訊2 + 型態雜訊2
型態雜訊2 = 穩定型態雜訊2 + 場合雜訊2
  • 榮譽專家:我們對於這些專家的判斷所抱持的信心,完全是基於他們的同儕對他的尊崇。
  • 榮譽專家的另一個特質是,他們除了具備做判斷的能力,也能很有自信的解釋他們的判斷。我們往往會更信任對自己有信心的人,而不是流露疑慮的人。這種信心捷思法(confidence heuristic)可以說明,在一個群體中,自信的人為什麼比其他人說話更有分量,即使他們的自信沒有根據。
  • 我們建議,搜尋偏誤的實行時機點,既不是在決策之前,也不是在決策之後,而是即時進行。
  • 人們在受到偏誤所誤導時,很少會意識到自身的偏誤,缺乏知覺本身就是一種偏誤,稱為偏誤盲點(bias blind spot)。我們通常比較容易辨識別人的偏誤,而不是發覺自己的偏誤。
  • 想像有一名決策觀察者,在一旁觀察這個決策小組,並運用一張檢核表,診斷是否有任可偏誤牽引著小組偏離可能的最隹判斷。
  • 偏誤是我們可以經常看到、甚至解釋的錯誤。它具有方向性,那就是為什麼透過推力(boosting)可以限制偏誤的有害效應,也是為什麼強化判斷力的做法可以克服某些偏誤。偏誤也通常具體可見:那就是為什麼一個觀察者可望在做成決策的過程裡即時診斷偏誤。
  • 雜訊是無法預測的錯誤,我們無法輕易的看到或解釋。那就是為什麼我們這麼經常忽略它,即使在它造成嚴重損害時也是一樣。
  • 減少雜訊的策略之於去偏誤,有如預防保健措施之於醫療:兩者的目標都是在錯誤發生之前,防治範圍不明確的潛在錯誤。我們稱這種減少雜訊的方法為決策保健。洗手時,你不一定知道究竟在避免哪一種細菌,你只知道,洗手是預防多種細菌的好方法。
  • 減少雜訊的第一步必然是承認雜訊有可能存在。
  • 利用資訊的順序來限制言之過早的直覺形成,在任何判斷裡,有些資訊與判斷相關滿有些資訊則不相關。愈多資訊不一定愈好,尤其是資訊可能導致致判斷者形成言之過早的直覺,而讓判斷出現偏誤。
  • 如果出具第二意見的人知道第一意見為何,第二意見就不具獨立性。至於第三意見的獨立性更低,其中可能出現一連串的偏誤。
  • 超級預測者能輕易從分析和機率角度思考事情。他們並非對一個地理政治上的大問題做整體判斷,而是把它分解成各個部分。他們擅長採取外部觀點,而且他們十分注重基本率。
  • 超級預測者有高度的「主動開放心態」。主動開放思維的測試:包括諸如「人們應該考慮到有違他們信念的證據」或「關注意見與你不同的人,比關注意見與你相同的人更有用」。
  • 泰特洛克發現:「能否躋身超級預測者之列,最強勁的預測指標就是永遠的測試版,也就是一個人致力於更新信念和自我提升的程度」。努力進行研究、縝密的思慮和自我批判、蒐集與整合其他觀點、細緻的判斷和不懈怠的更新。他們喜歡一種特定的循環思考:「嘗試、失敗、分析、調整、再次嘗試」。
  • 超級預測者計畫的成功凸顯兩項決策保健策略的價值:挑選(超級預測者就是超級厲害),以及總合(預測者在團隊合作時的表現較好)。
  • 無論多元化程度多高,總合法只有在判斷真正彼此獨立時才能減少雜訊。想要借用多元組織的力量,必須接納團隊成員各自獨立做判斷時會出現的歧見。徵詢並總合獨立而多元的判斷,通常是最容易、成本最低廉、應用也最廣泛的決策保健策略。
  • 醫師之間的雜訊水準可能遠高於我我的猜測。醫療指引能讓醫師比較不會因為犯錯而損及病人的利益。這類指引也能幫助整個醫療業,因為它們能減少變異。
  • 績效評鑑制度可能只有四分之一反映績效,四分之三都是系統雜訊。
  • 360度回饋制度可能有評分膨脹的問題,強制排序法雖能解決這個問題,但它可能適得其反。
  • 如果有這麼多水準雜訊,這是因為不同的評鑑者對於什麼是「良好」或「優異」有完全不同的想法。只有我們給他們具體的案例作為評分量表上的定錨點,他們的解讀才會一致。
  • 人員招募:透過結構化流程提升人事篩選品質。
  • 結構化:把複雜判斷結構化。一個結構化複雜判斷要符合三個原則:分解、獨立性,以及延遲做出整體判斷。
  • 分解,或稱為中介評估(mediating assessments):Google人事決策可以分解成四項中介評估:一般認知能力、領導力、文化契合度(Google精神),以及與職務相關的知識。
  • 獨立性,也就是各項評估資訊的蒐集必須獨立進行。結構化行為面試(structured behavioral interviews):面試官的角色不是決定他們在整體上是否喜歡一名求職者;而是為評估架構裡的每項評估蒐集資料,並在各項評估為求職者評分。
  • 延遲做出整體判斷:不要排除直覺,但是要延遲運用直覺的時間。
  • 中介評估法的主要步驟
    1. 在流程一開始,把決策建構成中介評估。
    2. 盡可能確保中介評估採用外部觀點。
    3. 在分析階段,盡可能讓評估保持彼此獨立。
    4. 在決策會上,各項評估分開檢視。
    5. 每一項評估都要確保參與者個自做判斷:然後運用「估計–討論–估計法」流程。
    6. 要做最後決策時,延遲直覺的運用時間,但不要禁用直覺。
  • 移除雜訊或許成本高昂,但是這個成本通常值得花。雜訊可能極其不公平。如果減少雜訊的措施過於粗糙、如果我們得到的指引或規則僵固到無法接受,或是會在無意間產生偏誤,我們不應該就此放棄。我們必須再試一下。
  • 規定會使生活簡化,而且減少雜訊。但是準則讓人可以視處境的情節而調整。
  • 規定意在消除採納者的裁量空間;準則則是賦予這種裁量權。只要是有規定,雜訊應該會大幅減少。準則完全是另外一回事。

延伸閱讀:

Perry Lin

Perry Lin 有十幾年科技業工作經驗,包含網通、晶片及雲端技術領域,喜愛旅遊及打羽球,曾經在巴西首都巴西利亞實習,去阿拉斯加看極光、南美巴拉圭、非洲坦尚尼亞等地旅遊。

發佈留言