OKC_Logo

Gele kaarten in de Premier League: Een statistische analyse

Scheidsrechter-met-gele-kaart

Voetbalwedstrijden in de Premier League worden door vele fanatieke supporters binnen en buiten Engeland wekelijks gevolgd. Omdat er zo veel zelfbenoemde experts zijn, is de Premier League een interessante competitie voor bookmakers als Unibet en TOTO. Het gokken gaat daarbij verder dan het inzetten op de correcte winnaar en einduitslag. Er kan vaak ook worden ingezet op spelers die een doelpunt maken of het aantal gele kaarten dat de scheidsrechter in een wedstrijd geeft. Wie het goed heeft, krijgt een bepaald percentage bovenop zijn inleg terug. Geld dat wordt ingezet op een uitkomst die niet wordt gerealiseerd blijft achter in de kas van de bookmakers. In deze blog analyseren wij de statistieken van het aantal gele kaarten dat wordt gegeven in wedstrijden van de Premier League.

'Verleden, heden, toekomst'

Of het nu gaat om het aantal gescoorde goals of om het aantal gele of (directe) rode kaarten dat in een wedstrijd wordt getrokken: allemaal lijken ze aan dezelfde eigenschap te voldoen. Het `verleden’ maakt niet uit voor de `toekomst’. Om in te schatten wanneer het volgende doelpunt valt, maakt het niet uit of het nu 2-2 staat of 1-0. Het enige wat echt relevant is, zijn de plek van de bal en de speler die daar aan de bal is. Hetzelfde geldt voor gele en rode kaarten. Het maakt niet uit of de vorige gele kaart 2 of 18 minuten geleden is gegeven om in te schatten wanneer de volgende (harde) overtreding wordt gemaakt, behalve natuurlijk bij uitzonderlijke opstootjes. Telprocessen zoals het aantal doelpunten of kaarten per wedstrijd, waarin een totaalaantal steeds één groter wordt, worden Poissonprocessen genoemd. Ons model is hierop gebaseerd op de eigenschappen van zulke processen en de specifieke vorm is zo gekozen dat het model het beste aansluit bij de data. Hieronder testen we hoe precies dit model aansluit bij de data.

Toetsing

In de figuur hiernaast is ons model afgebeeld, samen met de percentages van de wedstrijden waarin een bepaald aantal gele kaarten zijn gegeven in het seizoen ‘18/’19. Dit lijkt een goede match, maar bij OKC vinden we deze visuele data-analyse niet genoeg. Wij gebruiken een statistische toets om te controleren of de data en het model echt bij elkaar passen. Uit die toets blijkt dat de kans dat deze overeenkomsten door toeval zijn ontstaan is kleiner dan 10 procent! Dat is zeker niet slecht voor een dataset die slechts loopt over één seizoen, met minder dan 400 wedstrijden.

Premier League '20/'21

Nu dit model een goede fit blijkt, is het tijd om het in de praktijk te gaan gebruiken. Hiervoor gaan we kijken naar een van de opkomende Premier League wedstrijden. De wedstijd tussen Tottenham Hotspurs en Everton is een van de krakers in het komende Engelse voetbalseizoen. Beide ploegen hebben goede kansen om Europees voetbal te behalen. Door het model te tunen naar de teams die deze wedstrijd zullen spelen, komen we uit bij een specifiek model voor deze wedstrijd. Het zwaartepunt hiervan ligt rond de vier gele kaarten. De kans dat er minimaal twee en maximaal zes gele kaarten worden gegeven is zelfs ongeveer 80%. Het is dan ook niet heel waarschijnlijk dat de scheidsrechter minder dan twee of meer dan zes gele kaarten zal trekken.  

Naast dit algemene model, waarin enkel de twee teams worden meegenomen, zijn er vele andere factoren die relevant zijn voor het aantal gele kaarten dat in een wedstrijd wordt gegeven. Voorbeelden hiervan zijn de voorkeuren van de scheidsrechter of de vraag of een wedstrijd een echter kraker is. Welke factoren spelen volgens u een grote rol?