Per spår fotbolls-VM med Excel

Det är fotbolls-VM och när det gäller sport så innebär korrelation alltid kausation. Det är också ett välkommet ämne att uttala sig kategoriskt om mest för att man Bara Vet Att Det Är Så. I år har en reklamkampanj från Unibet bidragit med pärlan "Italien är bäst när det gäller" samt påståendet att USA föredrar att spela som underdogs. Engelska fans besvikelse över att deras lag underpresterar är också en klassiker i truismträsket, samt den relaterade sanningen att fotboll är ett spel där 22 spelare jagar en boll i 90 minuter följt av att Tyskland vinner på straffar.

Det här kan man ju förstås räkna på.

FIFA håller sig med en världsranking över alla landslag i fotboll, där lag rangordnas efter en slags ELO-ranking. Hur användbar är den i ett VM, egentligen? Är USA verkligen bra som underdogs? Spelar England sämre än man kan förvänta sig av dem? Vinner Tyskland orättvist? Är Italien egentligen bäst när det gäller? Genom att ta resultaten från de senaste fyra världsmästerskapen, inklusive detta, och korrelera dem med rankingen för sex lag som deltagit vid samtliga mästerskap (Brasilien, Tyskland, England, Italien, USA, Frankrike) tänker jag försöka svara på dessa frågor. 

Landslagens rankingar omedelbart före de fyra turneringarna kommer användas. För varje match som spelats (n = 108) kommer skillnaden i ELO-ranking (ELO) och världsranking (rank) mellan de spelande lagen att korreleras med målskillnaden lagen emellan i den matchen, samt om matchen slutade med vinst, oavgjort eller förlust (resultat) för det analyserade laget (en match kan sluta med noll i målskillnad utan att vara oavgjord om den avgörs med straffsparkar). Som positiv kontroll kommer målskillnad korreleras med matchresultat, eftersom konventionen säger att man vinner fotbollsmatcher genom att föra fler mål än motståndaren.

Eftersom det råder rätt kraftig inflation på ELO-poäng (Är detta förresten generellt för ELO-skalor? Det verkar som om det alltid råder inflation på toppen. Se schack, t.ex.) har jag normaliserat de olika åren mot varandra genom att ta kvoten mellan de 20 högst rankade lagen varje år för att justera för inflation. Både faktiska och normaliserade ELO-poäng har använts i separata analyser. För var och en av dessa jämförelser har Pearsons korrelationskoefficient räknats ut. Denna är ett värde mellan 1 och -1, där ett värde på 1 betyder att all variation i en variabel förklarar variationen i den andra. 0 betyder att de två variablerna inte korrelerar alls och -1 betyder att korrelationen är inverterad. (Återigen: korrelation är kausation. Detta är sport.) Resultatet ser ut som följer:

ELO - MÅLSKILLNAD NORMALISERAD ELO - MÅL RANK - MÅL MÅLSKILLNAD - RESULTAT RANK - RESULTAT
BRASILIEN 0,076584 0,151587 0,47 0,73 0,42
TYSKLAND 0,192384 0,154734 0,3 0,69 0,29
ENGLAND 0,478 0,385266 0,61 0,85 0,79
ITALIEN -0,3549494 -0,295912 -0,01 0,85 -0,12
USA 0,407791 0,402172 0,39 0,91 0,48
FRANKRIKE -0,416933 -0,453763 -0,32 0,9 -0,41
TOTAL 0,145085 0,146862 0,21 0,8 0,18

De två mest iögonenfallande landslagen är Italien och Frankrike. Precis som för alla andra lag gäller att positiv målskillnad korrelerar väldigt starkt (ca. 0.9) med vinst, men deras FIFA-rankingar korrelerar inte bara dåligt med resultat i VM-slutspel, utan rentav negativt! Ju bättre rankade, oavsett hur man mäter, dessa lag är innan turneringen, desto sämre presterar de i slutspelsmatcher. Detta förklaras av att dessa lag förlorat när de varit högt rankade, i flera fall mot väldigt lågt rankade lag. Även topplagen Brasilien och Tyskland har rätt svaga korrelationer mellan sin FIFA-poäng och resultat, även om de åtminstone är postitiva. Samtliga dessa lag har tagit sig till final någon gång under mätperioden, men de två senare har vunnit och förlorat ungefär som sina ELO-poäng antytt. Tyskland står ut bland de fyra genom att ha spelat relativt många matcher mot högre poängsatta lag, som de ofta ha vunnit. Detta har dragit ner korrelationerna mellan ELO och resultat. Brasiliens låga korrelationer hör samman med att de är det lag som konsekvent legat högst i rankingen, vilket inneburit att de behövt ösa in mål för att målskillnad och ELO ska korrelera någorlunda. Slutligen så står Englands och USA:s ELO-jämförelser ut, i bemärkelsen att korrelationen mellan dem och lagens resultat och målskillnad är förvånansvärt starka, i trakterna kring 0.4-0.5. Dessa lag vinner med andra ord sannolikt mot sämre lag och förlorar mot bättre, tvärt emot vad lagens supportrar verkar tro.

Med undantag för de båda flopplagen Italien och Frankrike är positionen på FIFA:s världsranking rätt skapligt korrelerade med lagens matchresultat och målskillnad. Extremen är England, med en korrelation mellan rank och  målskillnad på 0.61 och mellan rank och matchresultat på 0.79! Gary Lineker och engelska supportrar kan med andra ord hålla tyst och nöja sig med att deras lag spelar som förväntat mot lag som helt enkelt är bättre. Om man får tro FIFA. Tyskland däremot har en aning högre korrelation mellan ranking och målskillnad än genomsnittet, så det är inte helt sant att de bara vinner hela tiden. Mot högre rankade lag förlorar de också plikttroget, så deras framgångsrecept är att undvika bättre lag. Klassens värsting är USA som kanske gillar att vara underdog, men som i själva verket företrädesvis spelar bra mot sämre och dåligt mot bättre lag. Korrelationen mellan rank och resultat är 0.91! Den som håller på dem när de slår från underläge blir besviken ofta.

Inför USA:s match mot Belgien om ett par timmar kan det vara på plats att försöka tippa utgången, baserat på dessa data. Med hjälp av ekvationen 
Equation
kan man beräkna det förväntade värdet på framtida variabler, givet att man har serier av data liknande de som beskrivits ovan. Baserat på detta förväntar vi oss därför följande utfall:

MÅL RESULTAT
USA - BEL -0,42105 -0,172291785

How do you like them cherry picked apples? Det lutar åt en förlust för USA (-0.17! Det är... en skitdålig förutsägelse. Whatevs, girlfriend.) med, öhhh, 0.42 måls marginal. 

Heja Belgien!

7 comments:

  1. Vilka värden är det du sätter in i formeln för att få det resultatet?

    ReplyDelete
    Replies
    1. Resultatet mellan USA och Belgien? Skillnaden i ELO som datapunkt att göra prediktionen vid, och USA:s ELO och målskillnadshistorik som kända variabler. Eller menade du hela datasettet? Jag kan maila det om du vill.

      Delete
  2. Toxoplasmosmetoden då? http://forare.se/wordpress/blog/2014/07/14/parasiten-som-avgjorde-vm/

    ReplyDelete
  3. OBS! Brasilien är det enda landet som deltagit i samtliga VM. Tyskland var inte med 1930 och FICK inte vara med 1950. Italien var inte med 1930 och 1958. Argentina var inte med 1938, 1950, 1954 och 1970. Frankrike var inte med 1950, 1962, 1970, 1974, 1990 och 1994. England var inte med 1930, 1934, 1938, 1974, 1978 och 1994. mvh Krister Olson, Luxemburg

    ReplyDelete
    Replies
    1. Jag avser förstås lag som deltagit i samtliga mästerskap som analyseras, men tack.

      Delete
  4. Dessutom är det väl en truism att säga (vad gäller Tyskland) att ett "framgångsrecept är att undvika bättre lag." Problemet är väl bara att sannolikheten att kunna göra detta i en cup minskar snabbt ju längre fram man kommer.
    Krister igen.

    ReplyDelete
    Replies
    1. Det hade varit en truism om det gällt alla lag (och om "bättre" inte hade betytt "högre rankade"). Men det gör det alltså inte.

      Delete