En modell för ebolautbrottet

För några dagar sedan nådde det västafrikanska utbrottet av ebolavirus Nigerias och Afrikas största stad Lagos. Epidemin hade redan sedan tidigare drabbat miljonstäderna Conakry och Monrovia, men att EBOV skulle få fäste i en stad med över 20 miljoner invånare skulle vara en helt annan femma.

Ebolavirusets två mest iögonenfallande egenskaper är dess höga dödlighet och hur lite vi vet om det. Den stam av viruset som ligger bakom det nuvarande utbrottet har historiskt sett haft en dödlighet på i genomsnitt 83%. Det nuvarande utbrottet har dock en betydligt lägre dödlighet i storleksordningen 50-60%, beroende på källa och hur man räknat. Detta är fortfarande väldigt högt för en sjukdom med så snabbt förlopp, men en ganska avsevärd skillnad från den bild av mer eller mindre garanterad död som målas upp i tidningar och sociala medier. Myterna om ebola är så starka att experter kan göra bedömningen att ett spritt utbrott är omöjligt p.g.a. sjukdomens höga dödlighet trots att utbrottet redan är ett fullbordat faktum. Antropologen Wendy Orents teori att zoonotiska sjukdomar, dvs. sjukdomar som smittar mellan djur och människor, blir mindre dödliga när människan blir dess främsta byte har föreslagits som förklaring till att EBOV minskat i dödlighet. Denna uppfattning saknar nästan helt anhängare bland biologer och medicinare som påpekat att teorin gör en del orimliga antaganden om sjukdomars virulens, samt att optimalitet inte utvecklas på så kort tid, om alls.

Nej, hörni. Ska vi spekulera om ebola så ska vi göra det ordentligt.

Det sedvanliga sättet att spekulera om framtiden är att skapa en modell, och när det gäller smittsamma sjukdomar är alla epidemiologers weapon of choice den s.k. SIR-modellen. I sitt enklaste utförande är den indelad i tre fack betecknade S (susceptible, där den population av personer som kan tänkas smittas hamnar), I (infectious, dvs. den grupp individer som sprider smittan) och R (recovered, smittade som tillfrisknat och som antas vara immuna mot smittan).



Vän av ordning frågar sig kanske vad vi ska med en modell till, eller för den delen vad det är, till att börja med. En modell är en tillämpning av en vetenskaplig teori för att göra någon slags användbar förutsägelse om framtiden. Med hjälp av Newtonsk mekanik kan man t.ex. göra rätt skapliga modeller av hur äpplen faller, om man är lagd åt det hållet. I princip begränsas kvaliteten på förutsägelserna bara av hur väl teorin stämmer överens med verkligheten och hur bra mätningar av de variabler som ska in i teorin man sitter på. Newtons lagar beskriver fallande äpplen ganska väl, men Merkurius omloppsbana sämre än allmän relativitet gör. I bägge fallen (bu-dum-tisch!) kan vi ta reda på variablerna vi behöver (föremålens massa och hastighet, gravitationsfältens styrka, etc.) ganska lätt. Andra versioner av samma grundläggande problem inom mekaniken är svåra eller omöjliga att modellera tillfredsställande pga. bristen på kända variabler eller att mängden interaktioner inom modellen är oöverskådliga. 

SIR är en tilltalande modell, för den baseras på ganska enkla teorier (Hur mikroorganismer smittar; hur immunitet uppstår; etc.) och i den rudimentära form som illustreras ovan innehåller den inte mer än tre fack mellan vilka strömmarna av människor kan beskrivas med enkla differentialekvationer. Allt man behöver veta är hur smittsam en infektion är, hur många personer en genomsnittlig smittad person kommer smitta samt hur länge en smittad kommer vara smittsam så kan man göra prognoser som denna:




I exemplet ser vi hur en tidigare osmittad population (betecknad av en blå linje) krymper till ungefär 10% av sin ursprungliga storlek i takt med att infekterade (röd linje) ökar för att sedan sjunka igen. Notera att vi lämnar frågan om hur många som avlider därhän, men det är egentligen bara en funktion av hur många som blir smittade. I exemplet har jag räknat med en sjukdomstid på 14 dagar (vilket råkar vara så länge man i genomsnitt är sjuk i EBOV) och att smittade kommer att smitta 3 personer. Båda dessa variabler påverkar hur snabbt smittan sprider sig genom en population, men det är den senare som avgör hur stor andel av populationen den drabbar. Här börjar vi ana modellens stora brist: Det är enormt svårt att uppskatta hur många personer en smittad kommer att vara i kontakt med. Om man halverar antalet personer en insjuknad smittar (vilket, grovt räknat, liknar ebolas smittsamhet) i exemplet ovan får man istället följande resultat:



Denna svårighet att uppskatta antalet personer en smittad person kommer i kontakt med hänger ihop med anledningen till att modellen inte längre används i denna enkla form: Den gör antagandet att individer i populationen kommer i kontakt med varandra på ett helt slumpartat sätt. Detta är förstås ett egentligen alldeles hutlöst antagande: Av alla svenskar jag kan tänkas stöta på är det långt mer sannolikt att jag råkar på en Malmöit än en Stockholmare, trots att de senare är fler, eftersom jag bor i Malmö. Det är också mer sannolikt att jag kommer i kontakt med någon från Möllan än någon från Limhamn, och om smittan jag ska sprida kräver nära kontakt (som t.ex. TBC) är det långt mer sannolikt att jag smittar min familj än någon annan på Möllan. För extremt smittsamma sjukdomar spelar detta inte så stor roll. Mässling kommer sprida sig i stort sett slumpartat i en population som inte är immun, eftersom det är betydligt mer slumpartat vem man möter på gatan än vem man delar sovrum med. För mindre smittsamma sjukdomar, som ebola, kommer detta antagande ställa till problem. Det mest ökända exemplet på detta är det amerikanska utbrottet av svininfluensa 1976, där en mycket stor andel av den exponerade populationen blev infekterad och relativt allvarligt sjuk, vilket ledde till en påkostad vaccineringskampanj efter det att SIR-modellen pekat ut smittan som ett enormt hot mot USA. Problemet var att den exponerade populationen var soldater som delat logement, vilket helt stjälpte antagandet om slumpmässighet. Ingen utanför förläggningen smittades och kampanjen blev ett fiasko. 



För att komma runt detta kan man skapa SIR-modeller (eller, som ovan, lägga till lite bokstäver och få SEIHFR-modeller, eller vad det nu blir) som inordnar populationer i kluster av mindre populationer som kommunicerar med varandra i olika grad. I en viss stad kan finnas ett fängelse och en skola inom vilka sjukdomar kan spridas ganska fritt, men mellan dem är spridningen väldigt begränsad. (Men inte nödvändigtvis obefintlig. Fångvaktare kan också skjutsa barn till skolan.) Man kan också skapa modeller som tar hänsyn till att människor träffar varandra olika ofta, inom de olika klustren. Dessa modeller blir snabbt väldigt datakrävande och är beroende av detaljerad information om de populationer man vill modellera. Mig veterligen finns ingen sådan modell för Lagos eller Västafrika publicerad ännu, men man det finns lärdomar att dra av några av de rätt sofistikerade ebolamodeller som ändå finns. 




I exemplet ovan har man simulerat spridningen av ebola i en fiktiv population. X-axlarna visar olika grad av smittsamhet för ebola, som man låter variera mellan 1.2 och 4 (de flesta källor anger den till 1.3-1-5) och Y-axlarna anger antalet kontakter mellan var och en av de personer en smittad kan tänkas komma i kontakt med. Tanken är att även en sjukdom som är så svår att den begränsar hur många olika personer en smittad kommer i kontakt med kan leda till många kontakter med vissa individer, som t.ex. en anhörig eller sjukhuspersonal. De fyra olika graferna skiljer sig åt i det att i den första är den studerade befolkningen extremt uppdelad i små celler med liten kommunikation (CC = 0) för att successivt öka i de följande graferna. I den sista grafen d) är kommunikationen mellan kluster i den fiktiva populationen hög (CC = 0.6) vilket leder till incidens i 70-90%-intervallen. (Färgerna anger insidens, där svart är 100%.) En av de stora frågorna är alltså vilket antagande som bäst beskriver Lagos (eller för den delen: Nigeria, Conakry eller Västafrika): Hur isolerade är familjer, skolor, kvarter, etc. från varandra?

En annan variabel som kan (och bör) inkluderas i modellen är vilka försök som görs för att bekämpa epidemin. Hittills har utbrottet drabbat ett illa förberett område där huvuddelen av insatsen för att begränsa smittan verkar ha bestått av Läkare utan gränsers och WHOs sjukvårdspersonal samt personal de utbildat på plats, i storleksordningen hundratal. I jämförelse sitter Lagos och Nigeria på flera stora sjukhus och egen kompetens, även om det är lätt att hitta personer som påstår annat. 2008 klassades Nigeria som bättre rustat att klara en pandemi än samtliga de nu drabbade länderna i Västafrika och landets smittskydd har utvecklats avsevärt av att hantera bl.a. återkommande kolera- och meningokockutbrott. Det finns med andra ord anledning att tro att Nigeriansk vård kan hantera ett eventuellt utbrott bättre än t.ex. Sierra Leones. 

En studie från 2013 använde en modifierad SIR-modell för att simulera hur stor effekt olika insatser hade på ett ebolautbrott i en fiktiv halvmiljonstad av europeiskt mått (i resursbemärkelse):


Genom att laborera med karantänregler, vilket datum olika insatser sattes in, etc. kom gruppen fram till ett troligt scenario där 2313 personer smittades (varav 1504 avled) givet att man kunde isolera nästan 20 000 misstänkta fall i sammanlagt 233 000 person-dagar (detta lite konstiga mått är alltså summan av alla dagar de 20 000 misstänkta fallen satt isolerade). I simuleringen kunde också resurserna ökas, men behandlingen för drabbade påverkar inte i någon större utsträckning mortaliteten. Det enda som kunde påverka antalet döda märkbart var antalet tillgängliga isoleringsplatser för misstänkta fall. Detta stämmer väl överens med tidigare utbrott, där det enda som visat ge nämnvärd effekt är förmågan att få drabbade till sjukhus snabbt. Nigerianska myndigheter verkar ha reagerat snabbt på det hittills enda fallet i landet, men att de som kan ha exponerats håller sig undan myndigheterna är i ljus av detta rätt illa. Frågan är också om nigerianska myndigheter kan uppbåda de tiotusentals arbetare som skulle krävas för att bekämpa smittan på det sätt som man räknat med i simuleringarna. Resurserna har inte alls varit jämförbara i de tidigare drabbade områdena (och där har man också tappat kontroll över smittan) och 20 miljoner potentiella virusvärdar är många att hålla reda på. Även om man antar att problemet växer linjärt med befolkningen (vilket det helt säkert inte gör) så kan man fråga sig var i Lagos man kan isolera 400 000 människor i allt som allt nästan 10 000 000 dagar. Och då förutsätter man som sagt att åtminstone de flesta av dessa 400 000 personer inte håller sig gömda. Annars får man återgå till uppskattningar där spridningen begränsas främst av hur stort utbytet är mellan olika grupper (eller kluster, om man så vill) av människor, där förutsättningarna finns för extremt stor spridning inom vissa grupper.

Men där är vi inte ännu. Hittills finns bara ett indexfall i Nigeria. Det är fullt möjligt att han inte smittat någon eller att de han kan ha smittat kommer hittas i tid. I så fall återstår ändå en okontrollerad smitta som hotar miljoner människors liv, men det är en annan historia. 

Nu ska jag försöka läsa ikapp om varför alla grälar om tårtor i mitt twitterflöde.

Uppdatering 1/8:


Det tog mindre än två dagar så publicerade Svenska Dagbladet en krönika av Ingrid Atterstam där hon kommenterar spridningen av ebola med att viruset är för dödligt för att kunna spridas. Jag har också fått ett par kommentarer på twitter som utlovat detta, trots att teorin rimligtvis borde minska i värde i takt med att motsatsen blir uppenbar. Istället för att spekulera kan det vara dags att hålla sig till det vi vet.

Atterstam konstaterar att ebolautbrottet "borde vara över nu" eftersom det "tämligen snabbt bränner ut sig själv" och därför inte kan smitta så många. Hur många många är kan man förstås diskutera: Sedan 1976 har ebola smittat färre än antalet som drabbades av den senaste meningokockepidemin i Nigeria och kolera, influensa och leishmaniasis (för att nämna ett par exempel) dödar varje år mångdubbelt fler människor än ebola hittills gjort. Det finns infektionssjukdomar som gjort mycket större skada. Frågan är hur stor skada ebola kan komma att göra. Det nuvarande utbrottet ser ut så här:


Detta är det vi vet. I slutet av denna graf står Atterstam m.fl. och påstår att epidemin borde vara över nu. Sjukdomen är nämligen så dödlig att den inte riskerar att spridas, även om den i och för sig redan gjort det. Detta är en myt som förtjänar att begravas vid det här laget. En fall där en smittad person klivit på och av en internationell flygning är redan bekräftad. Det finns goda skäl att tro att det hanterades så snabbt att just den incidenten inte kommer leda till någon ytterligare spridning, men påståendet att smittan inte kan spridas så långt verkar ha passerat sitt bäst före-datum.

Atterstam sällar sig också till gruppen tyckare som utan vidare förklarar att ebola är en fattigdomssjukdom som bara kan drabba afrikaner. Detta är helt enkelt inte sant. Det stämmer i och för sig att de länder som drabbats är fattiga, samt att dödssiffrorna i utbrotten i framför allt Uganda nog blåsts upp av att det pågått krig där vid tillfällena, men socioekonomisk status är inte en riskfaktor för smittan. Den huvudsakliga spridningsvägen är exponering mot virusreservoarer bland olika djur som råkar leva på samma ställen som fattiga människor. Spridningen över kontinenten beror på precis det Atterstam raljant avfärdar: lokala ekostystem där djur smittar varandra och där tillfälliga kontakter med människor leder till utbrott.

Detta är förstås en helt annan femma än den spridning mellan människor som sker under ett utbrott, som nu. Atterstam slår självsäkert fast att "alla är eniga om att välmående länder kan skydda sig mot ebola." Man kan ha alla möjliga slags åsikter om det självgoda i förhoppningen att bara fattiga länder kommer drabbas, men själv undrar jag vilka dessa alla är. Som jag skrivit ovan skulle ett ebolautbrott i en stad av rätt vanligt europeiskt snitt snabbt kunna bli väldigt allvarligt enligt flera forskargrupper. Tron på modern medicin är, enkelt uttryckt, kraftigt överdriven i fallet med just EBOV. Att Malmö eller Frankfurt har bättre förutsättningar än Conakry att isolera misstänkta fall, den enda riktigt effektiva insatsen, tvivlar nog ingen på. Ett utbrott här skulle säkert bli mindre allvarligt än i Lagos. Men även försiktiga prognoser lämnar utrymme för en epidemi som tar tusentals liv, utifall att ebola skulle få fäste i ett aldrig så rikt land. Inkubationstiden är inte kortare än att man i viss mån får förlita sig på tur för att det inte ska hända. Kliver någon av ett flygplan dödssjuk och säger "Jag tror jag har ebola" (vilket var precis vad som hände i Lagos) kan vår sjukvård absolut hantera det, precis som Atterstam skriver. Det verkar i och för sig afrikanska länder klara rätt bra de med, våra uppfattningar om de primitiva infödingarnas inkompetens till trots. Som Bachinksy och Nizolenko visat så växer dock bördan på sjukvården väldigt snabbt. Kan Malmö isolera 20 000 misstänkta fall vid ett utbrott? Utsikterna är självklart bättre än i Sierra Leone eller Uganda, men det är nog många som skulle sova dåligt om vi blev tvungna att ta reda på det.

En sak till. I en fråga är jag och Inger Atterstam helt eniga:

Okunnigheten är enorm, rykten sprids, misstron mot myndigheter och sjukvård ökar vilket i sin tur bidrar till att spridningen fortsätter.

VSB.

Paracetamolets farlighet och ADHD

Flera har frågat mig vad jag tycker om en debattartikel i Aftonbladet där ett par barnläkare går emot Läkemedelsverket och uppmanar föräldrar att sluta ge sina barn läkemedel med paracetamol. Deras invändningar mot paracetamol är två som är bekanta för de flesta med ett ytligt medicinskt intresse: att paracetamol är skadligt för levern om man överdoserar och en omtalad studie från i våras som visade att användning av paracetamol under graviditet kan öka risken för ADHD för barnet.

Att paracetamol är levertoxiskt är, som barnläkarna skriver, välkänt sedan länge. En välvillig läsning av deras text är att de bara ger det självklara rådet: Använd inte läkemedel i onödan. Mot detta finns inget att invända. Barn kan gott ha lite feber eller värk utan att det skadar dem. Men något som brukar "glömmas" bort i upprörda artiklar om paracetamols farlighet: Det är inte så att det finns ett effektivt alternativ utan biverkningar att ta till. Ibuprofen, acetylcalicylsyra och andra NSAID har sina biverkningar de med, och de brukar oftast bedömmas som allvarligare. Alla läkemedel har biverkningar, men den samlade bedömningen lutar ofta åt att paracetamol är det säkraste alternativet, även om skillnaden mellan paracetamol och ibuprofen försvinner för just de lättare symptom som författarna verkar vilja förbjuda all behandling av. Men det råder ingen tvekan om att de föräldrar som kan stå ut med några extra sömnlösa nätter lite då och då kan minska den relativa risken för leverskador genom att undvika Alvedon. Hur stor denna risk är är svårt att säga. Den amerikanska motsvarigheten till Läkemedelsverket, FDA, uppskattar att 458 avlidit av paracetamolförgiftning mellan 1990-1998, varav just under en tredjedel skulle vara olyckshändelser, enligt samma dataset. Av dessa är dock sannolikt de flesta äldre, kroniska konsumenter av paracetamol, men något barn kan mycket väl ha avlidit och flera har säkert tagit allvarlig skada av att ha råkat överdosera. Som författarna till artikeln i Aftonbladet påpekar förgiftas dock varje år mycket fler barn än så av paracetamol, men då handlar det i väldigt stor utsträckning om självmordsförsök. De förgiftningar som sker av ren olyckshändelse beror på att paracetamol har ett relativt smalt säkert dosintervall. I FDA:s rapport framgår att mediandosen bland paracetamolförgiftade bara är 25-50% över den rekommenderade maxdosen per dag. Inom äldreomsorg och för patienter med kroniska smärttillstånd är detta ett stort problem och det är inte svårt att tänka sig hur lätt ett par stressade föräldrar skulle kunna råka ge några extra doser en skrikig natt. Icke desto mindre så utgör oavsiktliga överdoseringar en minoritet av de ca 14% av akuta leversvikter bland barn som orsakas av paracetamol. Att den absoluta riskökningen är minimal, i synnerhet om man är noga med att inte överstiga maxdosen, är rätt uppenbart. I jämförelse så har konkurrenterna i NSAID-klassen (t.ex. Ipren) en obehaglig tendens att orsaka allvarliga förgiftningar även när de doserats korrekt, vilket är en av anledningarna till att paracetamol är förstahandsvalet inom vården.

När det gäller den möjliga kopplingen mellan paracetamolanvändning, som författarna lägger mycket stor vikt vid, så går det helt enkelt inte att säga något säkert. Studien är prospektiv och letar ser en relativ riskökning på ca. 30% för hyperaktivitet, även efter att man tittat på flera confounders. Det är i och för sig bara enkätsvar, vilket är vanskligt, men på det stora hela är nog de flesta överens om att det är en välgjord studie. Antalet barn i den är tillräckligt stort för att kunna hitta en ganska liten ökning av en relativt ovanlig åkomma. I absoluta tal uppgavs att 34 av 1000 barn vars mödrar någon gång använt paracetamol hade ADHD, mot 25 av 1000 i kontrollgruppen, med en hazard ratio på 1.29. Den ansvarige författaren bakom studien tolkar resultaten så här:

It's reasonable to say that there's no reason to use these drugs during pregnancy unless there is a clear medical indication.

De flesta instämmer nog med det förståndiga i detta, men författarna till artikeln i Aftonbladet går ett antal steg längre och spekulerar kring den eventuella faran för relativt stora barn, trots att inget framkommit som antyder att paracetamol skulle vara en risk för den gruppen. Att hjärnan kan påverkas av paracetamol under fosterstadiet finns det inte bara vetenskapligt stöd för, om än svagt: Det är rimligt att en tänkt miljöfaktor för ADHD ska verka under eller just efter fostertiden, i likhet med de andra välkända miljöfaktorer såsom rökning, infektioner, prematur födsel, etc. Att, baserat på en enskild studie på paracetamol under fostertiden, föreslå att det skulle föreligga en liknande risk för 10-19-åringar är våghalsigt, för att inte säga hutlöst. Om detta räcker för att göra de bägge författarna "ytterst oroade" torde de behöva något stärkande så fort de läser vetenskapsnyheter, eller för den delen kvällstidningsrubriker. Hur de reagerar på studier om smärtstillande medel (och då främst NSAID) under graviditeten vågar jag inte spekulera i, men det är rena skräckläsningen i jämförelse. Det finns flera kända risker med att ta smärtstillande läkemedel under graviditeten, långt allvarligare än ett möjligt samband mellan paracetamol och ADHD. Frågan är om de båda barnläkarna är beredda att gå så långt som att receptbelägga samtliga smärtstillande medel, eller kanske bara förbjuda just gravida kvinnor att använda dem? Att ta bort det minst giftiga alternativet verkar inte så genomtänkt och att lägga så stor tyngd vid ett så osäkert och relativt lindrigt tillstånd som ADHD framstår som ytterst tveksamt. Nu är det ju inte helt ovanligt att gravida kvinnors smärta och övriga medicinska besvär anses vara onödiga att behandla, men varför denna rädsla för just ADHD om man nu ska oroa sig för möjliga faror med receptfria smärtstillande läkemedel? How about acetylsalicylsyra? Om vi hindrar kvinnor från att köpa smärtstillande läkemedel under graviditeten så kommer ändå de två största riskfaktorerna för ADHD och hyperaktivitet finnas kvar, helt lagligt: alkohol och rökning. Ibland måste man helt enkelt lita på folks omdöme, hur vanskligt det än kan te sig.

Jag vill inte ens tänka på hur många paracetamolförgiftningar två erfarna barnläkare säkert sett genom åren, av vilka många säkert gått väldigt illa. Det är inte så svårt att se den goda avsikten bakom debattartikeln. Men att många försöker begå självmord är ett problem i sig, inte en bieffekt av paracetamol. Författarna blandar också ihop risk med osäkerhet. Alla tillgängliga smärtstillande läkemedel har risker som i stor utsträckning är kända. Osäkerheten kring ett eventuellt samband med ADHD är något annat. Där är det bristen på kunskap som skrämmer, snarare än den faktiska risk det verkar innebära. Slutligen ska man komma ihåg att smärtstillande och febernedsättande läkemedel faktiskt gör nytta också. Det är lätt att säga åt andra att undvika ett effektivt läkemedel som trots allt är ganska säkert om det används korrekt, men därifrån är det ett långt steg till ett förbud.

Per spår fotbolls-VM med Excel

Det är fotbolls-VM och när det gäller sport så innebär korrelation alltid kausation. Det är också ett välkommet ämne att uttala sig kategoriskt om mest för att man Bara Vet Att Det Är Så. I år har en reklamkampanj från Unibet bidragit med pärlan "Italien är bäst när det gäller" samt påståendet att USA föredrar att spela som underdogs. Engelska fans besvikelse över att deras lag underpresterar är också en klassiker i truismträsket, samt den relaterade sanningen att fotboll är ett spel där 22 spelare jagar en boll i 90 minuter följt av att Tyskland vinner på straffar.

Det här kan man ju förstås räkna på.

FIFA håller sig med en världsranking över alla landslag i fotboll, där lag rangordnas efter en slags ELO-ranking. Hur användbar är den i ett VM, egentligen? Är USA verkligen bra som underdogs? Spelar England sämre än man kan förvänta sig av dem? Vinner Tyskland orättvist? Är Italien egentligen bäst när det gäller? Genom att ta resultaten från de senaste fyra världsmästerskapen, inklusive detta, och korrelera dem med rankingen för sex lag som deltagit vid samtliga mästerskap (Brasilien, Tyskland, England, Italien, USA, Frankrike) tänker jag försöka svara på dessa frågor. 

Landslagens rankingar omedelbart före de fyra turneringarna kommer användas. För varje match som spelats (n = 108) kommer skillnaden i ELO-ranking (ELO) och världsranking (rank) mellan de spelande lagen att korreleras med målskillnaden lagen emellan i den matchen, samt om matchen slutade med vinst, oavgjort eller förlust (resultat) för det analyserade laget (en match kan sluta med noll i målskillnad utan att vara oavgjord om den avgörs med straffsparkar). Som positiv kontroll kommer målskillnad korreleras med matchresultat, eftersom konventionen säger att man vinner fotbollsmatcher genom att föra fler mål än motståndaren.

Eftersom det råder rätt kraftig inflation på ELO-poäng (Är detta förresten generellt för ELO-skalor? Det verkar som om det alltid råder inflation på toppen. Se schack, t.ex.) har jag normaliserat de olika åren mot varandra genom att ta kvoten mellan de 20 högst rankade lagen varje år för att justera för inflation. Både faktiska och normaliserade ELO-poäng har använts i separata analyser. För var och en av dessa jämförelser har Pearsons korrelationskoefficient räknats ut. Denna är ett värde mellan 1 och -1, där ett värde på 1 betyder att all variation i en variabel förklarar variationen i den andra. 0 betyder att de två variablerna inte korrelerar alls och -1 betyder att korrelationen är inverterad. (Återigen: korrelation är kausation. Detta är sport.) Resultatet ser ut som följer:

ELO - MÅLSKILLNAD NORMALISERAD ELO - MÅL RANK - MÅL MÅLSKILLNAD - RESULTAT RANK - RESULTAT
BRASILIEN 0,076584 0,151587 0,47 0,73 0,42
TYSKLAND 0,192384 0,154734 0,3 0,69 0,29
ENGLAND 0,478 0,385266 0,61 0,85 0,79
ITALIEN -0,3549494 -0,295912 -0,01 0,85 -0,12
USA 0,407791 0,402172 0,39 0,91 0,48
FRANKRIKE -0,416933 -0,453763 -0,32 0,9 -0,41
TOTAL 0,145085 0,146862 0,21 0,8 0,18

De två mest iögonenfallande landslagen är Italien och Frankrike. Precis som för alla andra lag gäller att positiv målskillnad korrelerar väldigt starkt (ca. 0.9) med vinst, men deras FIFA-rankingar korrelerar inte bara dåligt med resultat i VM-slutspel, utan rentav negativt! Ju bättre rankade, oavsett hur man mäter, dessa lag är innan turneringen, desto sämre presterar de i slutspelsmatcher. Detta förklaras av att dessa lag förlorat när de varit högt rankade, i flera fall mot väldigt lågt rankade lag. Även topplagen Brasilien och Tyskland har rätt svaga korrelationer mellan sin FIFA-poäng och resultat, även om de åtminstone är postitiva. Samtliga dessa lag har tagit sig till final någon gång under mätperioden, men de två senare har vunnit och förlorat ungefär som sina ELO-poäng antytt. Tyskland står ut bland de fyra genom att ha spelat relativt många matcher mot högre poängsatta lag, som de ofta ha vunnit. Detta har dragit ner korrelationerna mellan ELO och resultat. Brasiliens låga korrelationer hör samman med att de är det lag som konsekvent legat högst i rankingen, vilket inneburit att de behövt ösa in mål för att målskillnad och ELO ska korrelera någorlunda. Slutligen så står Englands och USA:s ELO-jämförelser ut, i bemärkelsen att korrelationen mellan dem och lagens resultat och målskillnad är förvånansvärt starka, i trakterna kring 0.4-0.5. Dessa lag vinner med andra ord sannolikt mot sämre lag och förlorar mot bättre, tvärt emot vad lagens supportrar verkar tro.

Med undantag för de båda flopplagen Italien och Frankrike är positionen på FIFA:s världsranking rätt skapligt korrelerade med lagens matchresultat och målskillnad. Extremen är England, med en korrelation mellan rank och  målskillnad på 0.61 och mellan rank och matchresultat på 0.79! Gary Lineker och engelska supportrar kan med andra ord hålla tyst och nöja sig med att deras lag spelar som förväntat mot lag som helt enkelt är bättre. Om man får tro FIFA. Tyskland däremot har en aning högre korrelation mellan ranking och målskillnad än genomsnittet, så det är inte helt sant att de bara vinner hela tiden. Mot högre rankade lag förlorar de också plikttroget, så deras framgångsrecept är att undvika bättre lag. Klassens värsting är USA som kanske gillar att vara underdog, men som i själva verket företrädesvis spelar bra mot sämre och dåligt mot bättre lag. Korrelationen mellan rank och resultat är 0.91! Den som håller på dem när de slår från underläge blir besviken ofta.

Inför USA:s match mot Belgien om ett par timmar kan det vara på plats att försöka tippa utgången, baserat på dessa data. Med hjälp av ekvationen 
Equation
kan man beräkna det förväntade värdet på framtida variabler, givet att man har serier av data liknande de som beskrivits ovan. Baserat på detta förväntar vi oss därför följande utfall:

MÅL RESULTAT
USA - BEL -0,42105 -0,172291785

How do you like them cherry picked apples? Det lutar åt en förlust för USA (-0.17! Det är... en skitdålig förutsägelse. Whatevs, girlfriend.) med, öhhh, 0.42 måls marginal. 

Heja Belgien!