Prédiction statistique des résultats de football - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Time Independent Poisson Regression

Selon ce modèle (Maher), si Xi,j et Yi,j sont les buts marqués dans le match opposant l'équipe i à l'équipe j, alors:

\begin{align}   & X_{i, j} \sim Poisson (\lambda ) \\  & Y_ {i, j} \sim Poisson (\mu ) \\ \end{align}

Xi,j et Yi,j sont des variables aléatoires indépendantes avec des moyennes arithmétiques λ et μ. Ainsi, la probabilité conjointe pour l'équipe à domicile de marquer x buts et pour l'équipe à l'extérieur de marquer y buts est un produit des deux probabilités indépendantes:

P\left(X_{i, j}=x, y_{i, j}=y \right)=\frac{\lambda^{x} \exp(-\lambda)}{x!} \frac{\mu^{y} \exp(-\mu)}{y!}

tandis que le modèle log-linéaire généralisé pour λ et μ d'après Kuonen et Lee est défini par: \log \left(\lambda \right)= c^{\lambda} + a_{i} + d_{j} + h et \log \left(\mu \right) = c^{\mu} + a_{j} + d_{i} , où ai,di,h > 0 se réfèrent à la forece d'attaque, de défense et à l'avantage du terrain, respectivement. cλ et cμ sont des facteurs de correction qui représentent le nombre moyens de buts marqués au cours de la saison par l'équipe à domicile et à l'extérieur respectivement.

En supposant que C signifie le nombre d'équipes participant à une saison et que N représente le nombre de matches disputés jusqu'à présent, les forces d'une équipe peuvent être estimées en minimisant la fonction de log-vraisemblance négative par rapport à λ et μ:

\begin{align}   & L(a_{i},d_{i},h;\ i=1,..C)=-\log \prod\limits_{n=1}^{N}{\frac{\lambda _{n}^{x_{n}}\exp (-\lambda _{n})}{x_{n}!}\frac{\mu _{n}^{y_{n}}\exp (-\mu _{n})}{y_{n}!}}=-\sum\limits_{n=1}^{N}{\log \left( \frac{\lambda _{n}^{x_{n}}\exp (-\lambda _{n})}{x_{n}!}\frac{\mu _{n}^{y_{n}}\exp (-\mu _{n})}{y_{n}!} \right)} \\   & =\sum\limits_{n=1}^{N}{\lambda _{n}}+\sum\limits_{n=1}^{N}{\mu _{n}}-\left( \sum\limits_{n=1}^{N}{x_{n}\log \left( \lambda _{n} \right)} \right)-\left( \sum\limits_{n=1}^{N}{y_{n}\log \left( \mu _{n} \right)} \right)+\sum\limits_{n=1}^{N}{\log \left( x_{n}! \right)}+\sum\limits_{n=1}^{N}{\log \left( y_{n}! \right)} \\  \end{align}

Étant donné que xn et yn sont connus, les forces d'attaque et de défense de l'équipe \left(a_{i}, d_{i} \right) et l'avantage du terrain \left(h \right) qui minimisent la log-vraisemblance négative peuvent être estimés par l'Algorithme espérance-maximisation:

\underset{a_{i},d_{i},h}{\mathop{\min }}\,L(a_{i},d_{i},h,i=1,..C)

Des améliorations de ce modèle ont été suggérées par Mark Dixon et Stuart Coles. Ils ont inventé un facteur de corrélation pour les scores faibles 0-0, 1-0, 0-1 et 1-1, où l'hypothèse de Loi de Poisson indépendantes ne tient pas. Dimitris Karlis et Ioannis Ntzoufras ont construit un modèle Time-Independent Skellam Distribution. Contrairement au modèle de Poisson qui correspond à la distribution des scores, le modèle Skellam correspond à la différence entre les scores à domicile et à l'extérieur.

Page générée en 0.095 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise