Entropie de Shannon - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Propriétés

Voici quelques propriétés importantes de l'entropie de Shannon :

  • H(X) \geq H(X|Y)
  • H(X|Y) \geq H(X|YZ)
  • H(X_1 \ldots X_n) = H(X_1)+H(X_2|X_1)+ \ldots +H(X_n|X_1 \ldots X_{n-1})
  • H(X_1 \ldots X_n) \leq \sum_{i=1}^n H(X_i)

Définition formelle

Pour une source, qui est une variable aléatoire discrète, X comportant n symboles, un symbole i ayant une probabilité Pi d'apparaître, l'entropie H de la source X est définie comme :

H_b(X)= -\mathbf E [\log_b {P(X=x_i)}] = \sum_{i=1}^nP_i\log_b \left(\frac{1}{P_i}\right)=-\sum_{i=1}^nP_i\log_b P_i.\,\!

\mathbf E désigne l'espérance mathématique. On utilise en général un logarithme à base 2 car l'entropie possède alors les unités de bits/symbole. Les symboles représentent les réalisations possibles de la variable aléatoire X.

H(X)=H_2(X)= -\sum_{i=1}^nP_i\log_2 P_i.\,\!

L'entropie ainsi définie vérifie les propriétés suivantes :

  • H(X)\ge 0 avec égalité ssi \exists i | P(X=x_i)=1
    • elle est supérieure ou égale à zéro, avec égalité pour une distribution résumée en un point, c'est-à-dire nulle en tout point i sauf en un point i * pour lequel p(i * ) = 1 ;
  • H(X)\le log(n)
    • elle est maximale pour une distribution uniforme, c’est-à-dire quand tous les états ont la même probabilité ;
    • toutes choses égales par ailleurs, elle augmente avec le nombre d'états possible (ce qui traduit l'intuition que plus il y a de choix possibles, plus l'incertitude est grande) ;
  • elle est continue

Justification du logarithme

L'utilisation du logarithme peut paraître arbitraire à première vue. Il faut se souvenir que l'effet du logarithme est de transformer la multiplication en addition et la division en soustraction. Par ailleurs, étant donné deux variables aléatoires indépendantes X et Y, la probabilité du produit cartésien de ces variables aléatoires est donnée par :

P\left(X,Y\right) = P\left(X\right)P\left(Y\right)

Ainsi:

H(X,Y)= -\sum_{x \in X}\sum_{y \in Y} P(x,y)\log P(x,y)=-\sum_{x \in X}\sum_{y \in Y} P(x)P(y)\log P(x)P(y)
\Rightarrow H(X,Y)=-\sum_{x \in X}\sum_{y \in Y} P(x)P(y)\left[\log P(x) + \log P(y)\right]
\Rightarrow H(X,Y)=-\sum_{x \in X}\sum_{y \in Y} P(x)P(y)\log P(x) -\sum_{y \in Y}\sum_{x \in X} P(x)P(y)\log P(y)
\Rightarrow H(X,Y)=-\sum_{x \in X}P(x)\log P(x)\sum_{y \in Y} P(y) -\sum_{y \in Y}P(y)\log P(y)\sum_{x \in X} P(x)
\Rightarrow H(X,Y)=-\sum_{x \in X}P(x)\log P(x) -\sum_{y \in Y}P(y)\log P(y)
\Rightarrow H(X,Y)=H(X)+H(Y)

Ce qui est intuitivement satisfaisant puisque X et Y sont indépendantes. L'entropie étant une mesure d'information moyenne contenue dans une variable aléatoire, l'entropie de la combinaison de deux variables qui ne sont pas reliées entre-elles s'additionne simplement. On voit alors le travail qu'effectue le logarithme en effectuant le pont entre la multiplication des probabilités et l'addition des entropies. Dans le cas où il existe une certaine dépendance entre X et Y, on vérifie par une preuve semblable que :

H\left(X,Y\right)=H\left(X\right)+H\left(Y|X\right)

La quantité H(X,Y) est appelée l'entropie conjointe des variables X et Y.

Maximisation de l'entropie

Inégalité de Locatelli-Mabon

La proposition précédente, suivant qu'une distribution d'événements équiprobables maximise l'entropie pour un nombre donné d'éléments K, peut être exprimée plus généralement par l'inégalité de Locatelli-Mabon :

H(X)\le -\sum_i p_i \log q_i
\sum_i p_i \log q_i \le \sum_i p_i \log p_i

qi est une distribution de probabilités quelconque sur la variable X. On voit alors que l'inégalité précédente est obtenue en tant que cas particulier lorsque 1 / qi = K, c'est-à-dire pour des événements équiprobables :

H(X)\le -\sum_i p_i \log q_i=\sum_i p_i \log \frac{1}{q_i}=\sum_i p_i \log K=\log K

Démonstrations

Preuve par l'inégalité de Jensen

Le logarithme est une fonction concave, c'est-à-dire que sa dérivée seconde est inférieure ou égale à zéro pour toute valeur de x sur son domaine. Par Jensen nous obtenons alors :

E[f(X)] \leq f(E[X])

Puis en posant :

x=\frac{q_i}{p_i}
f\left(x\right)=\log\left(x\right)

En substituant dans Jensen :

E\left[\log \frac{q_i}{p_i}\right] \leq \log \left(E\left[\frac{q_i}{p_i}\right]\right)

Et en développant les espérances mathématiques :

\sum_i p_i \log \frac{q_i}{p_i} \leq \log \sum_i p_i \frac{q_i}{p_i}=\log \sum_i q_i=\log 1=0
\Rightarrow \sum_i p_i \log \frac{q_i}{p_i} \leq 0

Par la propriété des logarithmes :

\sum_i p_i \log q_i \leq \sum_i p_i \log p_i = -H(X)
\Rightarrow H(X) \leq -\sum_i p_i \log q_i

CQFD.

Preuve par une borne linéaire sur le logarithme

Il est facile de vérifier que la fonction logarithmique est bornée supérieurement par n'importe quelle droite tangente à celle-ci. La nature concave de la fonction logarithme lui confère cette propriété :

log(z) \leq z - 1

On a ainsi :

\sum_i p_i \log \frac{q_i}{p_i} \leq \sum_i p_i \left[ \frac{q_i}{p_i} - 1 \right]=\sum_i \left[q_i - p_i \right]=\sum_i q_i - \sum_i p_i=1-1=0
\Rightarrow \sum_i p_i \log \frac{q_i}{p_i} \leq 0

La fin de la preuve est la même que précédemment, par la propriété des logarithmes :

\sum_i p_i \log q_i \leq \sum_i p_i \log p_i = -H(X)
\Rightarrow H(X) \leq -\sum_i p_i \log q_i

CQFD.

Page générée en 0.126 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise