Santesson – Reformpolitikens strategier (Atlantis, 2012)

Alldeles utmärkt – beskriver bra förutsättningarna för politisk reformverksamhet.” Lars Tobisson, moderat nestor

Jätterolig läsning … Riktigt intressant … Boken flyttar fram kopplingen mellan statsvetenskapens resultat och det politiskt användbara.” Ursula Berge, Samhällspolitisk chef, Akademikerförbundet SSR

Pressröster om boken
Dagens Industri
Svenska Dagbladet
Svensk Tidskrift

utgående

The end comes when we no longer talk with ourselves. It is the end of genuine thinking and the beginning of the final loneliness. The remarkable thing is that the cessation of the inner dialogue marks also the end of our concern with the world around us. It is as if we noted the world and think about it only when we have to report it to ourselves.

Eric Hoffer 

Sök på inslag.se:

  Vänta…
twitter
politik
popsociologi
fler inslag
torsdag
feb122009

Michael Jackson och Bayes’ teorem

Det har blivit svårt att att känna igen Michael Jackson efter alla operationer. Låt oss säga att jag har löst problemet genom att bygga en elektronisk Michael Jackson-detektor, monterad i en batteridriven liten låda som jag bär med mig. När jag screenar en person som inte är Michael Jackson med detektorn lyser en röd lampa. Om jag däremot skulle screena Michael Jackson himself lyser en grön lampa. Som alla apparater är detektorn inte felfri. Men nästintill. Sannolikheten för att lampan falskeligen ska lysa grönt när jag screenar någon som inte är Michael Jackson är blott en på tiotusen. (Det är bra träffsäkerhet, det!) Sannolikheten för att lampan falskeligen ska lysa rött när jag screenar Michael Jackson är lite högre, en på tusen (han är trots allt svår att känna igen och lätt att missa).

En dag är jag ute och screenar med min Michael Jackson-detektor. Jag screenar en helt slumpmässigt utvald människa på planeten Jorden (det är allt jag vet om personen) och detektorn lyser grönt! Hur stor är sannolikheten att jag har stött på Michael Jackson?

Ingen blir förvånad över att sannolikheten är extremt liten eftersom det är väldigt ont om Michael Jackson. Utan att kunna något om Bayes’ teorem, som ligger till grund för beräkningen, inser man intuitivt att det är så ohyggligt liten sannolikhet att en slumpmässigt utvald människa skulle vara Michael Jackson, att det alltid kommer att vara långt mer sannolikt att detektorn givit fel utslag – nästan hur säker detektorn än är. Sannolikheten för att vi verkligen stött på Michael Jackson är i det här fallet 0,0002 % (baserat på något föråldrade befolkningsdata). Förvånad? Nä, det tror jag inte.

Det märkliga är att i samma stund som vi byter ut Michael Jackson och Michael Jackson-detektorn mot mer vardagliga fenomen, upplöses vår statistiska intuition i tomma intet. Följande statistiska problem har exakt samma logiska form, men är ett riktigt, angeläget problem som läkare ställs inför:

  • Varje år diagnosticeras knappt 500 fall av livmoderhalscancer i Sverige. Säg att vi skattar antalet kvinnor i det åldersfönster där livmoderhalscancer uppträder till 2 179 000 st (det är en halvfärsk siffra på antalet kvinnor mellan 23 och 59 år, det spann där svenska kvinnor screenas för livmoderhalscancer).
  • Antag att vi tar in en slumpmässigt utvald kvinna mellan 23 och 59 år till denna screening.
  • Antag att det test vi använder för att diagnosticera livmoderhalscancer ger positivt utfall med 99 % sannolikhet om kvinnan har cancer och negativt utfall med 99 % sannolikhet om kvinnan är frisk. (Siffran är bara ett räkneexempel, jag vet inte vad de verkliga testerna presterar.)
  • Aj aj, provet ger positivt utfall. Hur stor är sannolikheten att damen i fråga verkligen har livmoderhalscancer?

När läkare (och annat löst folk) får ge sina intuitiva svar på detta slags frågor brukar de överskatta sannolikheten något alldeles enormt (detta är belagt i mängder av undersökningar, ett par refereras här). Hur stor tror du att den är? Gissa innan du kollar svaret längst ned i detta inlägg.

Vår statistiska intuition är ofta allvarligt felkalibrerad när det handlar om att bedöma detta slags problem. Spelar det någon roll? Ja, det spelar mycket stor roll. Det vimlar av bayesianska sannolikhetsbedömningar i många svåra beslut vi ställs inför:

  • Ett vittne är tvärsäkert på att ha sett Mr. Anderson på brottsplatsen. Vad är sannolikheten för att Mr. Anderson verkligen var där, inte bara någon som är lik honom?
  • Föreläsaren på den nya kursen håller två dåliga föreläsningar på rad. Men även en bra föreläsare kan ha ett par dåliga dagar. Vad är sannolikheten för att övriga tjugo föreläsningar kommer att vara värdelösa? Bör man hoppa av kursen redan nu?
  • Och som i exemplet ovan: vi har tagit fram ett mycket billigt och träffsäkert test på en ovanlig sjukdom. Bör vi börja screena stora befolkningsgrupper? Om inte kommer Janne Josefsson att börja bråka...

Jag tror att okunskapen i Bayes’ teorem, som används för att lösa detta slags sannolikhetsproblem, är ett allvarligt samhällsproblem. Vår statistiska intuition leder oss så fel att vi fattar riktigt dåliga beslut. Vi överskattar som regel informationsvärdet i den nya informationen (vittnesmålet, testet osv.) och blir därför alltför tvärsäkra: oskyldigt dömda, uppskrämda men friska patienter etc.

En bok som borde skrivas och förskrivas som tvångsläsning (nåja) för alla med ansvarsfulla arbetsuppgifter är Elementär statistik och logik för beslutsfattare och andra viktiga personer. Om ingen annan skriver den kommer jag nog att göra det själv en dag. Tyvärr tror jag att den skulle bli en flopp.

För den som inte är bekant med Bayes’ teorem sedan tidigare får jag för skams skull ge en liten snabbkurs här. Alltihopa bygger på en riktigt enkel liten formel:

P (A | X) × P (X)
P (X | A) = ————————————————————
P (A | X) × P (X) + P (A | X’) × P (X’)

Jaha, och vad tusan betyder det då? Vi vill ta reda på P (X | A), som innebär sannolikheten för X givet att A har inträffat (sannolikheten för cancer givet ett positivt provsvar, sannolikheten för Michael Jackson givet grön lampa).

För att räkna ut det behöver vi veta P (A | X), dvs. sannolikheten för A givet att X föreligger, t.ex. sannolikheten för positivt svar givet att det finns cancer, sannolikheten för en grön lampa givet att vi träffat Michael Jackson. Dessutom måste vi veta P (X), den intitiala sannolikheten för att det ska vara cancer, Michael Jackson eller vad vi nu letar efter.

Det intressanta med Bayes’ teorem, fiffigheten där intuitionen snubblar fel, hittar vi i nämnaren i formeln: vi modifierar sannolikhetsbedömningen genom att ta hänsyn till allt annat som kan göra att A uppträder (det positiva provsvaret, den gröna lampan osv.). Visst kan Michael Jackson få lampan att lysa grönt, men var tiotusende Svensson kommer också att få lampan att lysa grönt av ren slump. P (A | X’) betyder här sannolikheten för A givet att något annat än X inträffar och P (X’) står för sannolikheten att detta andra än X inträffar. I alla exempel ovan är X och X’ dikotoma tillstånd (frisk/sjuk osv.), men X’ kan förstås också utgöra en hel serie alternativa utfall, och då får man sätta sig och addera rubbet.

Kanske kan figuren nedan illustrera vikten av att ta hänsyn till allt det där andra som kan ge upphov till den information vi värderar (vittnesmålet, det positiva provsvaret osv.): (Klicka för förstoring)

När beslutsfattaren bedömer sannolikheten för att fallet i fråga ligger i fält A missar han att väga in sannolikheten för fält B. 87,5 % av något ovanligt är mindre än 12,5 % av något vanligt, för att uttrycka det på Magnus och Brasse-svenska. Sannolikheten för att vi befinner oss i A efter ett positivt provsvar är 25,7 % i figuren.

Vart vill jag komma med allt detta? Jag vill förmedla att Bayes’ teorem är roligt, viktigt och att alla borde intressera sig för det. Själv har jag formeln inlagd i en handdator för att snabbt kunna göra beräkningar i vardagssituationer. Exemplet med dålig föreläsare och dålig kurs är självupplevt. Även med välvilliga siffror kom jag fram till att tre dåliga föreläsningar på rad är en högst säker indikation på att övriga tjugo föreläsningar kommer att vara dåliga. Jag hoppade av kursen.

En trevlig introduktion, författad av en Bayes-junkie, hittar man här.

---

Sannolikheten för cancer i räkneexemplet ovan är 2,2 %.

Reader Comments (17)

Kallas väl "false positive paradox" detta. Diskuteras livligt när det gäller data mining.
http://en.wikipedia.org/wiki/False_positive_paradox

12 februari 2009 | Unregistered Commentereldh

används också inom it-säkerhet, med false positive och negative för autentisering av digitala identiteter.

13 februari 2009 | Unregistered Commenterjens

Mycket utmärkt inlägg, nu har jag lärt mig något viktigt i dag också!

Satt härom dagen och tänkte på falska positiva inom beroendevården; när man använder stickor för urinprover är risken för falska positiva svar ca 1 på 25, alltså 4 % (fast det förnekas givetvis av stickornas tiilverkare). Det finns program för läkemedelsassisterad behandling som enbart förlitar sig på stickor och inte gör lab-test, och som dessutom skriver ut patienter efter två positiva test. Om man visste antalet patienter i ett sådant program och dessutom urinprovtagandets frekvens borde man kunna räkna ut hur lång tid det tar att förlora alla patienterna på falska positiva (givet det något orealistiska antagandet att alla patienterna är missbruksfria).

Vill man konplicera ytterligare kan man föra in antaganden om hur många patienter som är sanna positiva, resp. hur många som är falska negativa, och sen räkna ut hur stor andel av patienterna som skrivs ut trots att de är missbruksfria. Och vill man sen göra det riktigt besvärligt får man lägga in den specialregel som finns i många program, nämligen att positiva prover skrivs av efter ett år.

13 februari 2009 | Unregistered CommenterStardust

Peter: Jag tror att SVT kanske har kommit en bit på folkupplysningens stig! Det KAN visserligen vara en lycklig slump (antagligen det mest sannolika, sett med bayesianska ögon) men det skulle också kunna vara en medveten satsning för att förbättra svenskarnas statistiska kunskaper. I dramaserien "Andra Avenyn" fick en av karaktärerna reda på att han hade HIV för ett tag sedan. I senaste avsnittet testade han dock negativt på B-provet! Man kan bli lycklig för mindre!

Stardust: Fantastiskt bra exempel! Får jag använda det till min uppsats i statistik?

13 februari 2009 | Unregistered CommenterKulturliberal

Du är en sann pedagog. Jag har tipsat min gode vän läkaren om inlägget.

(Dock undrar jag om apostrof används efter "Bayes" på svenska?)

13 februari 2009 | Unregistered CommenterNiclas Berggren

Ja det var en mkt pedagogisk förklaring. När postmodernister krånglar till det enkla, så gör PSW det krångliga enkelt!

13 februari 2009 | Unregistered CommenterMarcus

Jag hörde en diskussion på radio om att ungdomar inte lär sig tillräckligt om mediakritik i skolan. Helt sant tycker jag, och i denna mediakritik bör grundläggande statistik ingå. Att banka in i folks huvuden lagen om stora tal, att samvariation och kausalitet inte är det samma och att 99% inte är 100% känns viktigare än en hel del av det som görs i grundutbildningen idag.

För några dagar sen efter en föreläsning om kvantitativa metoder i statskunskapen och multivariata analyser i allmänhet frågade en kurskamrat som inte läst statistik förut uppgivet: "Vad ska detta vara bra för? Det här är inte sånt jag ska göra!"

Det är ju tyvärr så att det är precis det hon kommer att göra om hon blir utredare eller forskare och inte helt ska uppehålla sig inom den politiska teorin men hennes intresse är internationell politik.

Låt oss hoppas att hon inte blir en del av nästa internationella demokratiundersökning.

13 februari 2009 | Unregistered CommenterJ H Mills

Tack, Peter! Lysande infotainment som alltid!

Men vad säger du om att testa fler gånger? Får vi grön lampa så screenar vi personen igen. Grönt? Screena en tredje gång. Om jag räknar rätt i hastigheten (och om jag fattat teoremet) så räcker det med tre gröna lampor för att vi med 99 procents säkerhet har självaste Michael framför oss. (Räknat på 6 miljarder människor i världen.)

Det är väl så dopingtester inom idrotten funkar, t ex? Ett positivt testsvar är en indikation, två positiva testsvar betraktas som visshet och medför diskning. På motsvarande sätt måste man väl kunna hantera exemplet med det träffsäkra testet på en ovanlig sjukdom (givet att vi anser det värt pengarna att testa och återtesta stora befolkningsgrupper)?

13 februari 2009 | Unregistered CommenterFredrik I

Fredrik, det där funkar bara om testutfallen är oberoende av varandra. Om Michael Jackson-detektorn mäter en viss uppstättning egenskaper hos den scannade och visar grönt när egenskaperna tillräckligt mycket liknar de som Michael Jackson anses ha, så kommer den antingen alltid visa grönt för en viss person eller alltid visa rött. Då ger det inget att testa igen när den visar grönt.

13 februari 2009 | Unregistered CommenterDavid Bergkvist

"På motsvarande sätt måste man väl kunna hantera exemplet med det träffsäkra testet på en ovanlig sjukdom (givet att vi anser det värt pengarna att testa och återtesta stora befolkningsgrupper)?"

Om varje testresultat är oberoende fungerar det. Hurvida de verkligene är det vet jag inte. Om man testar för förekomsten av faktor X , som oftast men inte alltid hänger samman med sjukdomen, kan ju ett upprepat test ge bara samma svar.

Och Niclas, det är alldeles riktigt med apostrof efter Bayes. Man vill ju inte gärna lägga till ytterligare ett s som genitivmarkör och då använder man apostrof istället.

13 februari 2009 | Unregistered CommenterJohan Richter

Logiskt. Tack, David och Johan!

13 februari 2009 | Unregistered CommenterFredrik I

Kulturliberal: självklart, go ahead!

13 februari 2009 | Unregistered CommenterStardust

Bra inlägg - som vanligt av Peter!
Statistik är svårt. Tänkte på exemplet med krona och klave. Låt oss säga att vi fått krona fem gånger i rad. Hur stor är sannolikheten för krona vid nästa slantsingling? De flesta skulle svara klave...

13 februari 2009 | Unregistered CommenterUffe P

Uffe: Jag minns att jag sett kvällstidningsstatistik på vilka siffror som inte kommit upp på länge i Lottoraden. Som om det vore dags för de siffrorna nu...

Stardust: sannolikheten att en ickenarkoman inte ska åka på en falsk anklagelse/falsk positive är med dina siffror P(true negative)=0,96^n, där n är antal gånger man testats. Detta diagram visar gruppstorleken på icke-narkomaner som aldrig testats positivt, som en funktion av antalet gånger de tagit testet. Vid det sjuttonde testet har minst hälften av alla icke-narkomaner testats positivt en gång.

13 februari 2009 | Registered CommenterPeter Santesson

Om genitiv-s och apostrof. Mina vaga minnen från forntida svenskaundervisning sa nej nej, ingen genitivapostrof här inte. Wikipedia, denna ofelbara källa, säger:

"I engelska används apostrof ( ' ) före eller efter -s (beroende på singular eller plural). Detta bruk kan man ibland även se i svenska texter, även om det inte rekommenderas. Om det svenska ordet i sin grundform slutar med s, x eller z kan dock apostrof användas för att markera genitiv, särskilt om det behövs av tydlighetsskäl. Något extra s läggs aldrig till dessa slut. Apostrofen i "Andreas' säng" hjälper oss att se att sängen tillhör Andreas, inte Andrea."

Så visst, rådde det osäkerhet om ifall teoremet härstammade från Baye eller från Bayes, då vore apostrofen berättigag, möjligen. Men egentligen är det nog bara PSW som inte stått pall för trycket västerifrån. Eller så har han oväntat blivit progressiv.

13 februari 2009 | Unregistered CommenterMarcus

Blivit progressiv?! Det var det oförskämdaste! Här sätter man calvadosen i vrångstrupen i pur förfäran. Jag försöker avvärja denna fräcka dolkstöd med hjälp av Svenska skrivregler, 2 uppl., sid. 174: "Vid egennamn kan man använda apostrof, om man anser att sammanhanget inte tydligt nog visar att genitiv avses". En man som anser, ja det är ju jag det. Stämmer perfekt.

Å andra sidan var detta som sagt den gamla upplagan av Svenska skrivregler. I senaste upplagan har anarkismen brett ut sig, t.ex. i form av de ökända versalerna i partinamn - så vem vet vad de skriver om apostrofer vid genitiv?

13 februari 2009 | Registered CommenterPeter Santesson

Marcus: Jag tillåter mig, så väl vänligt som försynt, påpeka att det är ett stenformat hål i ditt glashus, och att glassplittret ligger på utsidan.

Det ska, oavsett hur forntida den är, inte vara något "a" i "svenskundervisning".

Att stava detta ord fel är för övrigt en smula bekymmersamt, i det att det visar på ett behov av just sådan undervisning, men hur efterfråga den utan att veta vad den heter? Därvidlag hoppas jag nu ha hjälpt dig till självhjälp.

Två frågor har jag också: Varför har Andreas en apostrof i sängen, och saknar jag ett stycke allmängods bland mina kunskaper, när det inte är uppenbart för mig hur en sådan sängkamrat kan hjälpa mig att identifiera sängens ägare?

15 februari 2009 | Unregistered CommenterFaster Sven

PostPost a New Comment

Enter your information below to add a new comment.

My response is on my own website »
Author Email (optional):
Author URL (optional):
Post:
 
Some HTML allowed: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>