Subjektiva bedömningar överskattade
I denna bok visar de tre författarna hur godtyckliga och inkonsekventa beslut är vid till exempel anställningsintervjuer, betygsättning och domslut. Deras slutsats är att vi i större utsträckning borde använda oss av beslutsalgoritmer för att få mer konsistenta beslut. Det är en bok som kan rekommenderas till alla som behöver minimera godtyckligheten.

Det första jag hörde om denna bok var att någon funnit ett sakfel. På sidan 159 står det: ”Även om en korrelation inte säger något om orsakssamband så innebär ett orsakssamband däremot en korrelation: föreligger orsakssamband föreligger också korrelation.” Att det är inkorrekt illustrerade felfinnaren med en bil som gasar i uppförsbacke – gasar man så att hastigheten håller sig konstant, trots uppförsbacken, finns ingen korrelation mellan hur mycket man gasar och bilens hastighet, trots att det föreligger ett orsakssamband. Det är inget litet sakfel, särskilt i en bok som handlar just om hur vi ska undvika att göra fel.
Det har blivit en sport bland vissa forskare att hitta sakfel i Daniel Kahnemans böcker, något som kan bli aningen tjatigt. Vill vi minimera fel måste vi först förstå dem. Att öka förståelsen för hur vi fattar fel beslut har varit psykologen Kahnemans självpåtagna uppgift genom hela karriären, forskning som han sammanfattat först i den storsäljande boken Tänka, snabbt och långsamt, och nu i den nyutkomna Brus – Det osynliga felet som stör våra bedömningar – och vad du kan göra åt det, som han skrivit tillsammans med beteendeforskaren Olivier Sibony och juristen Cass R. Sunstein.
I den första boken beaktade Kahneman systematiska fel – när vi människor gör fel åt samma håll, som till exempel att vi alla har en större benägenhet att försöka undvika förluster än att försöka skaffa oss vinster. I Brus uppmärksammar de tre författarna i stället osystematiska fel – fel utan särskild riktning. Systematiska och osystematiska fel är oberoende källor till fel, så om vi förstår den ena felkällan hjälper det oss inte att förstå den andra. Därför behövde Kahneman skriva två böcker.
Författarna illustrerar skillnaden mellan systematiska och osystematiska fel med träffbilder på pricktavlor från fyra olika lag som tävlar i prickskytte. 1) Det första laget får en samlad träffbild mitt i pricktavlan, något som varken indikerar systematiska eller osystematiska fel. 2) Det andra laget får också en samlad träffbild, men vid ena kanten på pricktavlan. Det indikerar ett systematiskt fel, kanske att siktet på lagets gevär är felinställt. 3) Tredje laget får en spridd träffbild centrerad runt mitten, något som indikerar förekomsten av osystematiskt brus, kanske för att skyttarna i laget inte är något vidare. 4) Det sista lagets träffbild är både spridd och vid kanten på pricktavlan, något som visar att båda felkällorna förekommer.
En spridd träffbild kan förklaras på två sätt. Kanske finns det en bra skytt i laget, någon annan som alltid skjuter högt, en tredje som alltid skjuter under och till vänster, och så vidare. Bruset kan uppkomma för att personer är olika, helt enkelt. Detta kallar författarna för nivåbrus. Men en del brus uppkommer för att individer inte utför samma handling likadant hela tiden. Ett skott går litet lägre än man tänkts sig, nästa litet för långt till höger och så vidare. Denna sorts brus som enskilda individer orsakar kallar de för mönsterbrus.
Det har blivit en sport bland vissa forskare att hitta sakfel i Daniel Kahnemans böcker, något som kan bli aningen tjatigt. Vill vi minimera fel måste vi först förstå dem.
Ett exempel på hur brus medför problem hämtar de från rättssystemet i USA. Även om ett specifikt brott ska innebära till exempel fem års fängelse så döms inte alla brottslingar till det. Vissa får en sträng domare och döms i stället till sju år. Andra får en mindre sträng domare och döms till tre. I snitt dömer domarna enligt lagstiftarnas intention, men det finns en variation i domsluten som beror på att domare är olika individer med olika personlighet.
Domare dömer också olika vid olika tillfällen. Kanske är någon domare på dåligt humör före lunch – strängare straff brukar utdömas före lunch än efter. Eller så kanske hen inte gillar svarta människor, som råkar vara med i ett fall men inte i andra. Individer är inte konsekventa, beroende på tillfälligheter, egenheter och form.
En ofta citerad amerikansk studie från 1981 visade på de här effekterna. Man lät 208 aktiva federala domare bedöma 16 fiktiva mål. Informationen om målen fick domarna skriftligen. Med denna uppställning såg man till att alla domare hade exakt samma information att utgå ifrån, och bara den informationen. I den bästa av världar borde därför domarna döma exakt lika långa straff. Det genomsnittliga utdömda straffet för de 16 hypotetiska brotten blev 7 år. Men den genomsnittliga avvikelsen inom varje brott blev 3,8 år. Det är en i sammanhanget enorm avvikelse. Till viss del kan man tycka att detta borde bero på försöksuppställningen, att domarna hade mindre information än vanligt. Dessutom var de påhittade rättsfallen mer kortfattat beskrivna än vad som normalt är fallet, så viss precision gick förlorad. Vad mer är, i en verklig situation baserar domarna sina utlåtanden även på information de får vid det personliga mötet i rättssalen. Men detta är faktorer som skulle göra det svårare för domarna och därför öka spridningen ännu mer.
Av bruset på 3,8 år kunde forskarna hänföra 2,4 år till skillnader mellan de individuella domarna. Detta nivåbrus berodde på domarnas skilda personligheter och hade alltså inget alls med brottet att göra – det som egentligen borde avgöra straffet. Det fanns också ett stort mönsterbrus. Av någon anledning tolkade individuella domare vissa fall strängare och andra fall mindre strängt, än deras personlighet indikerade.
Kahneman och hans kollegor visar på förekomsten av nivåbrus och mönsterbrus i allt från doktorers beslut om vem som ska läggas in, domstolssystemet, beslut om nya tv-program, till investeringar och framtidsprognoser. Men framför allt påpekar de att brus förstås inte är önskvärt. Domar i rättsfall ska bara bero på brottet och inte alls på domarnas personlighet eller på vädret. Investeringsbeslut ska inte alls handla om att beslutet råkar fattas precis innan lunch. Så hur minimerar man brus?
Det visar sig inte vara så enkelt. Skulle det hjälpa om flera personer fattade beslutet tillsammans? Men nej, att få personer att fatta beslut tillsammans för med sig helt egna problem. Till exempel spelar det roll för gruppbeslutet vem som presenterar sin åsikt först. Efter att första förslaget presenterats måste alla förhålla sig till det, i stället för att bara utgå ifrån ursprungsinformationen. Gruppbeslut är subjektiva beslut, men en nivå upp: olika grupper fattar olika beslut, precis som olika individer fattar olika beslut.
Författarna landar i slutsatsen att vi i större utsträckning borde använda oss av beslutsalgoritmer. De vill inte förkasta människor som beslutsfattare, utan pekar på forskning som visar att en väldefinierad process – en beslutsalgoritm – leder till mer konsistenta resultat. Även människor med lång och gedigen erfarenhet är icke-konsistenta i sina beslut. Fastare kriterier stramar upp bedömningen och minskar spridningen mellan tidpunkter, individer och grupper. För organisationer rekommenderar de noise audits – regelbundna analyser av brus. Finner organisationen då för stora problem bör de leta upp källorna. Detta är dock lättare sagt än gjort. Det finns oftast inget entydigt facit på vilka bedömningar och prognoser som är riktiga, så man famlar litet i mörkret.
Det finns dock fall där det är mycket tydligt att man bör minska bruset. Ett välstuderat sådant är anställningsintervjuer. Här visar det sig att IQ- och personlighetstester, tillsammans med uppstyrda och strukturerade intervjuer med fasta bedömningskriterier och ritualer för att väga ihop bedömningar, ger långt bättre beslutsunderlag än informella intervjuer. Resultatet kan till och med bli sämre om subjektiva bedömningar från intervjuer tas med i bedömningen. Detta har visat sig svårt att få gehör för, eftersom många tror sig ”veta” värdet av sina egna bedömningar.
En annan situation som behöver åtgärdas är bedömningar av elevers prestationer och kunskaper i skolan. Här är det inte så värst viktigt vilken nivå som exakt motsvarar ett A. Det är däremot oerhört viktigt att nivån är densamma mellan lärare, skolor och olika tidpunkter. Just nu finns det mätbara skillnader mellan friskolor och kommunala skolor. Tydliga kriterier – betygsalgoritmer – vore en välsignelse för elever, lärare, skola och samhälle.
Denna gång verkar forskningen vara bättre underbyggd (ett påstående jag kan komma att få äta upp).
En brasklapp bara. Socialpsykologin befinner sig just nu i något som kallas replikeringskrisen; många resultat som förut betraktats som säkra har visat sig inte hålla för granskning. Det är därför det har blivit sport att leta fel i Kahnemans böcker. Tänka, snabbt och långsamt hade sannolikt inte haft samma innehåll om den getts ut i dag. I den boken gick Kahneman igenom forskning som han och hans kollega Amos Tversky utfört och inspirerat till, forskning som Kahneman fått Sveriges Riksbanks pris i ekonomisk vetenskap till Alfred Nobels minne för (Tversky hann tyvärr avlida innan priset blev aktuellt). Mycket av den forskning som refereras till i boken gjordes i en tid när de statistiska kraven på vetenskapliga studier var mindre rigorösa.
De som gått tillbaka och tittat på äldre socialpsykologisk forskning har konstaterat att många av de resultat som Kahneman baserade sina slutsatser på i förra boken inte håller. Det handlar om hela kapitel. Kahneman har själv medgivit att en stor mängd av studierna han refererade till hade ett för litet statistiskt urval, men menar att det inte är skäl att kasta ut alla slutsatser. Det mesta som står i Tänka, snabbt och långsamt är fortfarande trovärdigt, om man frågar Kahneman. Inte alls, om man frågar andra.
Denna situation gör att även Brus kommer att granskas med lupp. Jag har dock ännu inte sett någon granskning som skjuter omkull huvudpåståendena i boken. Denna gång verkar forskningen vara bättre underbyggd (ett påstående jag kan komma att få äta upp). Jag vill därför försiktigt rekommendera er att läsa Brus, framför allt om ni behöver minimera godtyckligheten vid situationer som arbetsintervjuer, betygssättning, domslut och framtidsprognoser.
Subjektiva bedömningar som man kommit fram till utan tydlig bedömningsalgoritm är överskattade. (Vilket förstås även gäller denna recension.)
Publicerad i Respons 2021-6



