Loi de Zipf
Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

On nomme Loi de Zipf une observation empirique de la fréquence des mots dans un texte. Elle a pris le nom de son auteur, George Kingsley Zipf (1902-1950). Cette loi a été par la suite généralisée par Benoit Mandelbrot.

Genèse

Zipf avait entrepris d'analyser une œuvre monumentale de James Joyce, Ulysse, d'en compter les mots distincts, et de les présenter par ordre de nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) décroissants d'occurrences. La légende dit que

  • le mot le plus courant revenait 8 000 fois ;
  • le dixième mot 800 fois ;
  • le centième, 80 fois ;
  • et le millième, 8 fois.

Ces résultats semblent, à la lumière (La lumière est l'ensemble des ondes électromagnétiques visibles par l'œil humain, c'est-à-dire comprises dans des longueurs d'onde de 380nm (violet) à 780nm (rouge). La lumière est intimement liée...) d'autres études que l'on peut faire en quelques minutes ( Forme première d'un document : Droit : une minute est l'original d'un acte. Cartographie géologique ; la minute de...) sur son PC, un peu trop beaux pour être strictement vrai — le dixième mot, dans une étude de ce genre, devrait apparaître dans les 1 000 fois, en raison d'un effet de coude (Cette articulation comprend en avant la région du « pli du coude ». C'est un complexe articulaire synovial du membre supérieur humain reliant le bras à l'avant-bras. Il unit ainsi...) observé dans ce genre de distribution. Reste que la loi de Zipf (On nomme Loi de Zipf une observation empirique de la fréquence des mots dans un texte. Elle a pris le nom de son auteur, George Kingsley Zipf (1902-1950). Cette loi a...) prévoit que dans un texte donné, la fréquence (En physique, la fréquence désigne en général la mesure du nombre de fois qu'un phénomène périodique se reproduit par unité de...) d'occurrence f(n) d'un mot est liée à son rang ( Mathématiques En algèbre linéaire, le rang d'une famille de vecteurs est la dimension du sous-espace vectoriel engendré par cette famille. Le théorème du rang lie le rang et la dimension du noyau d'une application linéaire...) n dans l'ordre des fréquences par une loi du genre f(n) × n = KK est une constante.

Point (Graphie) de vue (La vue est le sens qui permet d'observer et d'analyser l'environnement par la réception et l'interprétation des rayonnements lumineux.) théorique

Mathématiquement, il est impossible pour la version classique de la loi de Zipf de tenir exactement s'il existe une infinité de mots dans une langue, puisque pour toute constante de proportionnalité (On dit que deux mesures sont proportionnelles quand on peut passer de l'une à l'autre en multipliant par une constante appelée coefficient de proportionnalité.) c > 0, la somme de toutes les fréquences relatives est proportionnelle à la série harmonique (Dans plusieurs domaines, une harmonique est un élément constitutif d'un phénomène périodique ou vibratoire (par exemple en électricité : les « courants...) et doit être

\sum_{n=1}^\infty \frac{c}{n}=\infty\neq 1.

Des études empiriques[réf. nécessaire] ont trouvé qu'en anglais, les fréquences d'approximativement 1 000 mots les plus fréquemment utilisés sont approximativement proportionnels à \frac {1}{n^s}\, où s est juste légèrement plus grand que 1.

Tant que l'exposant (Exposant peut signifier:) s excède 1, il est possible pour une telle loi d'être vraie avec une infinité de mots, puisque si s > 1 alors

\sum_{n=1}^\infty \frac{1}{n^s}<\infty.

La valeur de cette somme est \zeta(s)\,, où ζ est la fonction Zeta (La fonction zeta (d'après la lettre grecque zêta, ou ζ) est le nom de nombreuses fonctions en mathématiques. La plus connue est la fonction zeta...) de Riemann.

On sait toutefois que le nombre de mots d'une langue est limité. Le vocabulaire d'un enfant de 10 ans tourne autour (Autour est le nom que la nomenclature aviaire en langue française (mise à jour) donne à 31 espèces d'oiseaux qui, soit appartiennent au genre Accipiter, soit constituent les 5 genres...) de 5 000 mots, celui d'un adulte cultivé de 70 000,et les dictionnaires en plusieurs volumes peuvent monter de 130 000 à 200 000.

Un cas particulier d'une loi générale

Benoît Mandelbrot (Benoît Mandelbrot (20 novembre 1924 - ) est un mathématicien français. Il a travaillé au début de sa carrière sur des applications originales de la théorie...) démontra dans les années 1950 qu'une loi similaire à celle de Zipf pouvait se déduire de deux considérations liées à la théorie (Le mot théorie vient du mot grec theorein, qui signifie « contempler, observer, examiner ». Dans le langage courant, une théorie est une idée ou une connaissance...) de l'information de Claude Shannon (Claude Elwood Shannon (30 avril 1916 à Gaylord, Michigan - 24 février 2001) est un ingénieur électricien et mathématicien américain. Il est l'un des pères, si ce n'est le père fondateur, de la théorie de...).

Loi statique (Le mot statique peut désigner ou qualifier ce qui est relatif à l'absence de mouvement. Il peut être employé comme :) de Shannon

Selon la loi statique, le coût de représentation d'une information augmente comme le logarithme (En mathématiques, une fonction logarithme est une fonction définie sur à valeurs dans , continue et transformant un produit en somme. Le logarithme de base a où a est un réel strictement positif...) du nombre des informations à considérer.

Il faut par exemple 5 bits pour représenter des nombres de 0 à 31, mais 16 pour des nombres de 0 à 65535. De même, on peut former 17576 sigles de 3 lettres, mais 456976 de 4 lettres, etc.

Loi dynamique (Le mot dynamique est souvent employé désigner ou qualifier ce qui est relatif au mouvement. Il peut être employé comme :) de Shannon

La loi dynamique indique comment maximiser l'utilité d'un canal par maximisation de l'entropie (En thermodynamique, l'entropie est une fonction d'état introduite au milieu du XIXe siècle par Rudolf Clausius dans le cadre du second principe, d'après les...) en utilisant prioritairement les symboles les moins coûteux (ainsi en code Morse le e, lettre fréquente, est codé par un simple point (.) tandis que le x, lettre plus rare, se représente par un trait point point trait (-..-). Le codage (De façon générale un codage permet de passer d'une représentation des données vers une autre.) de Huffman met en application cette loi dynamique.

La synthèse de Mandelbrot

Mandelbrot émet l'hypothèse audacieuse que le coût d'utilisation est directement proportionnel au coût de stockage, ce qu'il constate est vrai sur tous les dispositifs qu'il a observés, de l'écriture comptable jusqu'aux ordinateurs.

Il élimine donc le coût entre les deux équations et se retrouve avec une famille d'équations liant (Un liant est un produit liquide qui agglomère des particules solides sous forme de poudre. Dans le domaine de la peinture, il permet au pigment d'une peinture de coller sur le support, il est alors...) nécessairement la fréquence d'un mot à son rang si l'on veut que le canal soit utilisé de façon optimale. C'est la loi de Mandelbrot, dont celle de Zipf ne représente qu'un cas particulier, et qui est donnée (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.) par la loi :

f(n) \times (a + bn)^c = K\, où K est une constante.

la loi se ramenant à celle de Zipf dans le cas particulier où a vaudrait 0, b et c tous deux 1, cas qui ne se rencontre pas dans la pratique. Dans la plupart des langues existantes, c est voisin de 1,1 ou 1,2, et proche de 1,6 dans le langage des enfants[1].

Courbe log-log de la fréquence en fonction du rang dans un forum du Net nommé Gazette.
Courbe (En géométrie, le mot courbe, ou ligne courbe désigne certains sous-ensembles du plan, de l'espace usuels. Par exemple, les droites, les segments, les lignes polygonales...) log-log de la fréquence en fonction du rang dans un forum du Net nommé Gazette.

Les lois de Zipf et de Mandelbrot prennent un aspect spectaculaire si on les trace (TRACE est un télescope spatial de la NASA conçu pour étudier la connexion entre le champ magnétique à petite échelle du Soleil et la géométrie du plasma coronal, à travers des images...) selon un systèmes de coordonnées log-log : la loi de Zipf correspond alors à une belle droite, et celle de Mandelbrot à la même chose avec une bosse caractéristique. Cette bosse se retrouve précisément dans les textes littéraires disponibles sur le Net, analysables en quelques minutes sur ordinateur (Un ordinateur est une machine dotée d'une unité de traitement lui permettant d'exécuter des programmes enregistrés. C'est un ensemble de circuits...) domestique avec des langages comme le Python. La courbe fournie ici représente le logarithme décimal (Le logarithme décimal ou log10 est le logarithme de base dix. Il est défini en tous les réels strictement positifs x.) du nombre d'occurrences des termes d'un forum du Web tracé en fonction du logarithme décimal du rang de ces mots.

  • On constate que le mot le plus fréquent y apparaît un peu plus de 100 000 fois (105).
  • La taille du vocabulaire effectivement utilisé (il serait plus exact de parler de la taille de l'ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une multitude qui peut être comprise comme un...) des formes fléchies) est de l'ordre de 60 000 (#104.7).
  • L'aspect linéaire de Zipf y apparaît clairement, bien que le coude caractéristique expliqué par Mandelbrot n'y soit que léger. On notera aussi que la pente n'est pas exactement de −1 comme le voudrait la loi de Zipf.
  • L'intersection projetée de cette courbe avec l'axe des abscisses fournirait à partir d'un texte de taille limitée (quelques pages A4 dactylographiées) une estimation de l'étendue du vocabulaire d'un scripteur.
    • On peut remarquer que nous nous livrons déjà subjectivement à la même estimation en lisant quelques pages d'un écrivain que nous ne connaissons pas, et que c'est ce qui nous permet en feuilletant un ouvrage de savoir si ce vocabulaire est en adéquation avec le nôtre.
    • On peut remarquer aussi que la répétition de mots se voulant savants comme extemporanément ou hiératique ne fera pas illusion, puisque c'est la répétition elle-même qui constitue l'indice de pauvreté du vocabulaire et non les mots utilisés eux-mêmes.

Similarité

Le rapport entre lois de Zipf et de Mandelbrot d'une part, entre lois de Mariotte et de van der Waals d'autre part est similaire : on a dans les premiers cas une loi de type hyperbolique, dans les secondes une légère correction rendant compte de l'écart entre ce qui était prévu et ce qui est observé, et proposant une justification. Dans les deux cas, un élément de correction est l'introduction d'une constante manifestant quelque chose d'" incompressible " (chez Mandelbrot, le terme a).

Une loi à utiliser avec prudence

Il est tentant chaque fois que l'on voit des informations classées par ordre décroissant de se dire : " Elles doivent suivre une loi de Zipf ". Sans que ce soit nécessairement faux, il serait dangereux de le considérer comme allant de soi. Si nous prenons par exemple 100 entiers aléatoires entre 1 et 10 selon une loi uniforme, que nous les regroupons et que nous trions le nombre d'occurrences de chacun, nous obtenons la courbe ci-contre.

On admettra que si l'on se fie juste à une première impression visuelle, cette courbe paraît très " zipfienne ", alors que c'est un tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) autre modèle qui a engendré la série des données. Or il n'est pas possible de faire commodément un Chi2 sur la loi de Zipf, le tri des valeurs venant faire obstacle à l'usage (L’usage est l'action de se servir de quelque chose.) d'un modèle probabiliste classique (n'oublions pas en effet que la répartition des occurrences n'est pas celle des probabilités d'occurrences, et que cela peut conduire à beaucoup d'inversions dans les tris).

La famille de distributions de Mandelbrot est certes démontrée adéquate de façon formelle pour un langage humain sous ses hypothèses de départ concernant le coût de stockage et le coût d'utilisation, qui découlent elles-mêmes de la théorie de l'information. En revanche il n'est pas prouvé qu'utiliser la loi de Zipf comme modèle pour la distribution des populations des agglomérations d'un pays (Pays vient du latin pagus qui désignait une subdivision territoriale et tribale d'étendue restreinte (de l'ordre de quelques centaines de km²), subdivision de la...) soit un modèle pertinent — bien que le contraire ne soit pas prouvé non plus.

Ajoutons que l'estimation des paramètres de Mandelbrot à partir d'une série de données pose également problème, et fait encore aujourd'hui l'objet (De manière générale, le mot objet (du latin objectum, 1361) désigne une entité définie dans un espace à trois dimensions, qui a une fonction précise, et qui peut être désigné par une...) de débats[réf. nécessaire]. Il ne saurait être question par exemple d'utiliser une méthode de moindres carrés sur une courbe en log-log dont de surcroit le poids (Le poids est la force de pesanteur, d'origine gravitationnelle et inertielle, exercée par la Terre sur un corps massique en raison uniquement du voisinage...) des points est loin d'être comparable. Mandelbrot lui-même a fini par se désintéresser de la question[réf. nécessaire].

Page générée en 0.131 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique