Prédiction statistique des résultats de football - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Time Independent Least Squares Rating

Cette méthode attribue à chaque équipe du tournoi une notation en continu, de sorte que la meilleure équipe aura la meilleure note. La méthode est basée sur l'hypothèse que la cote attribuée à l'équipe rivale est proportionnelle à l'issue de chaque match.

Supposons que les équipes A, B, C et D jouent dans un tournoi et que les résultats des matchs sont les suivants:

Match # Equipe à domicile Score Equipe à l'extérieur Y
1 A 3 - 1 B y1 = 3 − 1
2 C 2 - 1 D y2 = 2 − 1
3 D 1 - 4 B y3 = 1 − 4
4 A 3 - 1 D y4 = 3 − 1
5 B 2 - 0 C y5 = 2 − 0

Bien que les rangs rA, rB, rC et rD des équipes A, B, C et D, respectivement ne sont pas connus, on peut supposer que le résultat du match #1 est proportionnel à la différence entre les rangs des équipes A et B: y_{1}=r_{A}-r_{B}+\varepsilon _1 . De cette façon, y1 correspond à la différence de score et \varepsilon _1 est l'observation du bruit. La même hypothèse peut être faite pour tous les matches dans le tournoi:

\begin{matrix}    y_{1}=r_{A}-r_{B}+\varepsilon _{1}\\    y_{2}=r_{C}-r_{D}+\varepsilon _{2}\\    ...\\    y_{5}=r_{B}-r_{C}+\varepsilon _{5}\\ \end{matrix}

En introduisant une matrice de sélection X, les équations ci-dessus peut être réécrit sous une forme compacte:

\mathbf{y}=\mathbf{Xr}+\mathbf{e} .

Les entrées de la matrice de sélection peut être soit 1, 0 ou -1, avec 1 correspondant à des équipes d'accueil et de -1 à l'écart des équipes:

\begin{matrix}    \mathbf{y}=\left[ \begin{matrix}    2 \\    1 \\    -3 \\    2 \\    2 \\ \end{matrix} \right], & \mathbf{X}= \left[ \begin{matrix}    1 & -1 & 0 & 0 \\    0 & 0 & 1 & -1 \\    0 & -1 & 0 & 1 \\    1 & 0 & 0 & -1 \\    0 & 1 & -1 & 0 \\ \end{matrix} \right], & \mathbf{r}=\left[ \begin{matrix}    r_{A} \\    r_{B} \\    r_{C} \\    r_{D} \\ \end{matrix} \right], & \mathbf{e} = \left[ \begin{matrix}    \varepsilon _{1} \\    \varepsilon _{2} \\    \varepsilon _{3} \\    \varepsilon _{4} \\    \varepsilon _{5} \\ \end{matrix} \right] \\ \end{matrix}

Si la matrice \mathbf{X}^{T} \mathbf{X} est de rang plein, la solution algébrique du système peuvent être trouvées via la méthode des Moindres carrés:

\mathbf{r}=\left(\mathbf{X}^{T} \mathbf{X} \right)^{-1} \mathbf{X}^{T} \mathbf{y}

Les paramètres de la cote finale sont \mathbf{r}=[1,625, \ 0,75, \ -0,875, \ -1,5]^{T} . Dans ce cas, l'équipe la plus forte a la plus haute cote. L'avantage de cette méthode de notation par rapport aux systèmes de classement standards est que les valeurs sont en ré-évaluées en permanence, ce qui permet de définir avec précision la différence entre la force des équipes.

Méthodes de prévision

Toutes les méthodes de prédiction peuvent être classés selon le type de tournoi, le dépendance au temps et l'algorithme de régression utilisé. Les méthodes de prévision du football diffèrent entre championnat et tournoi à élimination directe. Les méthodes de prévision pour les tournoi à élimination directe sont résumées dans un article par Diego Kuonen.

Le tableau ci-dessous résume les méthodes utilisées pour les championnat.

# Code Méthode de Prévision Algorithme de régression Dépendance au temps Performance
1. TILS Time Independent Least Squares Rating Régression des moindres carrés linéaire N Faible
2. TIPR Time Independent Poisson Regression Maximum de vraisemblance N Moyenne
3. TISR Time Independent Skellam Regression Maximum de vraisemblance N Moyenne
4. TDPR Time Dependent Poisson Regression Maximum de vraisemblance Facteur d'amortissement du temps Haute
5. TDMC Time Dependant Markov Chain Monte-Carlo Chaîne de Markov Haute

Time Dependant Markov Chain

D'une part, les modèles statistiques nécessitent un grand nombre d'observations pour faire une estimation précise de ses paramètres. Et quand il n'y a pas suffisamment d'observations disponibles au cours d'une saison (comme c'est généralement le cas), travailler avec des statistiques moyennes a un sens. D'autre part, il est bien connu que les compétences des équipes changent au cours de la saison, ce qui rend les paramètres du modèle dépendant du temps. Mark Dixon et Stuart Coles ont essayé de résoudre ce problème par un compromis en attribuant un plus grand poids aux résultats du dernier match. Rue et Salvesen ont introduit une méthode de notation dépendant du temps en utilisant un modèle de chaînes de Markov.

Ils ont suggéré de modifier le modèle linéaire généralisé ci-dessus pour λ et μ:

\begin{align}   & \log \left( \lambda  \right)=c^{\lambda }+a_{i}-d_{j}-\gamma \cdot \Delta _{i,j} \\   & \log \left( \mu  \right)=c^{\mu }+a_{j}-d_{i}+\gamma \cdot \Delta _{i,j} \\  \end{align}

étant donné que \Delta _{i, j} = \frac{\left(a_{i} + d_{j} \right) \left(d_{i} + a_{j} \right)}{2} correspond à la différence de défense entre les équipes i et j. Le paramètre γ > 0 représente alors les effets psychologiques causés par la sous-estimation de la force de l'équipe adverse.

Selon le modèle, la force d'attaque \left( a \right) de l'équipe A peut être décrit par les équations du mouvement brownien standard, B_{a, A} \left( t \right) , pour le temps t1 > > t0:

a_{A}^{t_{1}}=a_{A}^{t_{0}}+\left( B_{a,A}\left( t_{1}/\tau  \right)-B_{a,A}\left( t_{0}/\tau  \right) \right)\cdot \frac{\sigma _{a,A}}{\sqrt{1-\gamma \left( 1-{\gamma }/{2}\; \right)}}

τ et \sigma _{a, A}^{2} se réfèrent respectivement au taux de perte de la mémoire et à la variance de l'attaque a priori.

Ce modèle est basé sur l'hypothèse que:

{a_{A}^{t_{1}}}/{a_{A}^{t_{0}}}\; \sim N\left( a_{A}^{t_{0}},\ \frac{t_{1}-t_{0}}{\tau }\sigma _{a,A}^{2} \right)

En supposant que trois équipes A, B et C jouent dans le tournoi et que les matchs sont joués dans l'ordre suivant: t0: A-B; t0: A-C; t1: B-C, la densité de probabilité conjointe peut être exprimée comme suit:

\begin{align}   & P(a_{i},d_{i},\gamma ,\,\tau ;\ A,B,C)=P\left( \lambda _{A},t_{0} \right)\cdot P\left( \lambda _{B},t_{0} \right)\cdot P\left( \lambda _{C},t_{0} \right) \\   & \times P\left( X_{A,B}=x,Y_{A,B}=y|\lambda _{A},\mu _{B},t_{0} \right)\cdot P\left( X_{A,C}=x,Y_{A,C}=y|\lambda _{A},\mu _{C},t_{0} \right) \\   & \times P\left( \lambda _{A},t_{1}|\lambda _{A},t_{0} \right)\cdot P\left( \mu _{C},t_{1}|\mu _{C},t_{0} \right) \\  \end{align}

Puisque l'estimation analytique des paramètres est difficile dans ce cas, la méthode de Monte Carlo est appliquée pour estimer les paramètres du modèle.

Page générée en 0.111 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise