Algorithme de Knuth-Morris-Pratt - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

- Introduction - Principe de fonctionnement - Efficacité de l'algorithme de Knuth-Morris-Pratt - Le tableau des « correspondances partielles »

Efficacité de l'algorithme de Knuth-Morris-Pratt

Comme les deux parties de l'algorithme ont respectivement des complexités de $O (l)$ et $O (n)$ , la complexité de l'algorithme dans sa totalité est $O (n + l)$ .

Le tableau des « correspondances partielles »

L'objectif de ce tableau est de permettre à l'algorithme ne pas tester chaque caractère du texte plus d'une fois. L'observation-clé, à propos de la nature linéaire de la recherche, qui permet à cet algorithme de fonctionner, est qu'en ayant vérifié une partie du texte avec une « première portion » de la chaîne, il est possible de déterminer à quelles positions peuvent commencer les possibles occurrences qui suivent, et qui continuent de correspondre à la position courante dans le texte. En d'autres termes, les motifs (les sous-parties de la chaîne) sont « pré-recherchés » dans la chaîne, et une liste est établie, indiquant toutes les positions possibles auxquelles continuer pour sauter un maximum de caractères inutiles, sans toutefois sacrifier aucune occurrence potentielle.

Pour chaque position dans la chaîne, il faut déterminer la longueur du motif initial le plus long, qui se termine à la position courante, mais qui ne permet pas une correspondance complète (et qui vient donc très probablement d'échouer). Ainsi, $T [i]$ désigne exactement la longueur du motif initial le plus long se terminant à $P [i]$ . Par convention, la chaîne vide est de longueur nulle. Comme un échec au tout début de la chaîne est un cas particulier (la possibilité de backtracking n'existe pas), on pose $T [ - 1] = - 1$ , tel que discuté précédemment.

En re-considérant l'exemple ABCDABD présenté précédemment, on peut établir qu'il fonctionne sur ce principe, et qu'il bénéficie de la même efficacité pour cette raison. On fixe $T [ - 1] = - 1$ .

             -1  0  1  2  3  4  5  6      i   :  v      P[i]:     A  B  C  D  A  B  D      T[i]: -1

Comme $P [0]$ n'apparaît qu'à la fin du motif initial complet, on fixe également $T [0] = 0$ .

             -1  0  1  2  3  4  5  6      i   :     v      P[i]:     A  B  C  D  A  B  D      T[i]: -1  0

Pour déterminer $T [1]$ , l'algorithme doit trouver un motif terminal dans AB qui soit aussi un motif initial de la chaîne. Mais le seul motif terminal possible de AB est B, qui n'est pas un motif initial de la chaîne. De ce fait, $T [1] = 0$ .

             -1  0  1  2  3  4  5  6      i   :        v      P[i]:     A  B  C  D  A  B  D      T[i]: -1  0  0

En poursuivant avec C, on remarque qu'il existe un raccourci pour vérifier tous les motifs terminaux. Considérons que l'algorithme ait trouvé un motif terminal de deux caractères de long, prenant fin sur le C ; alors le premier caractère de ce motif est un motif initial d'un motif initial de la chaîne, et par conséquent, un motif initial lui-même. De plus, il prend fin sur le B, pour lequel nous savons que la correspondance n'est pas possible. Ainsi, il n'est pas nécessaire de se soucier des motifs de deux caractères de longueur, et comme dans le cas précédent, l'unique motif de longueur unitaire ne correspond pas. Donc $T [2] = 0$ .

De même pour D, on obtient $T [3] = 0$ .

             -1  0  1  2  3  4  5  6      i   :              v      P[i]:     A  B  C  D  A  B  D      T[i]: -1  0  0  0  0

Pour le A suivant, le principe précédent nous montre que le motif le plus long à prendre en compte contient 1 caractère, et dans ce cas, A correspond. Ainsi, $T [4] = 1$ .

             -1  0  1  2  3  4  5  6      i   :                 v      P[i]:     A  B  C  D  A  B  D      T[i]: -1  0  0  0  0  1              P   :     A  B  C  D  A  B  D      P   :                 A  B  C  D  A  B  D

La même logique est appliquée sur B. Si l'algorithme avait trouvé un motif démarrant avant le A précédent, et se poursuivant avec le B actuellement considéré, alors il aurait lui-même un motif initial correct se terminant par A bien que débutant avant A, ce qui contredit le fait que l'algorithme a déjà trouvé que A est la première occurrence d'un motif s'y terminant. En conséquence, il n'est pas nécessaire de regarder avant le A pour y chercher un motif pour B. En fait, en le vérifiant, l'algorithme trouve qu'il continue par B et que B est la deuxième lettre du motif dont A est la première lettre. De ce fait, l'entrée pour B dans $T$ est supérieur d'une unité à celle de A, c'est-à-dire $T [5] = 2$ .

             -1  0  1  2  3  4  5  6      i   :                    v      P[i]:     A  B  C  D  A  B  D      T[i]: -1  0  0  0  0  1  2              P   :     A  B  C  D  A  B  D      P   :                 A  B  C  D  A  B  D

Enfin, le motif ne continue pas de B vers D. Le raisonnement précédent montre que si un motif d'une longueur supérieure à 1 était trouvé sur D, alors il devrait contenir un motif se terminant sur B. Comme le motif courant ne correspond pas, il doit être plus court. Mais le motif courant est un motif initial de la chaîne se terminant à la deuxième position. Donc ce nouveau motif potentiel devrait lui aussi se terminer à la deuxième position, et nous avons déjà vu qu'il n'y en avait aucun. Comme D n'est pas lui-même un motif, $T [6] = 0$ .

             -1  0  1  2  3  4  5  6      i   :                       v      P[i]:     A  B  C  D  A  B  D      T[i]: -1  0  0  0  0  1  2  0

D'où le tableau suivant :

$i$	-1	0	1	2	3	4	5	6
$P [i]$		A	B	C	D	A	B	D
$T [i]$	-1	0	0	0	0	1	2	0

Algorithme de construction du tableau

L'exemple précédent illustre la technique générale pour produire le tableau avec le moins de soucis possible. Le principe est le même que pour la recherche générale : la majorité du traitement est déjà fait lors de l'arrivée sur un nouvelle position, il ne reste que peu de traitement pour passer à la suivante. Suit la description de l'algorithme. Pour éliminer des cas particuliers, la convention suivante est appliquée : $P [ - 1]$ existe et sa valeur est différente de tous les caractères possibles de $P$ .

Fixer $T [ - 1] = - 1$ . Supposons que $P$ contienne $n$ caractères ;
Fixer $i = 0$ et $j = - 1$ ;
Si i = n, terminer le traitement. Sinon, comparer P[i] et P[j].
- S'ils sont égaux, fixer $T [i] = j + 1$ , $j = j + 1$ et $i = i + 1$ ;
- Sinon, et si $j > 0$ , fixer $j = T [j - 1]$ ;
- Sinon, fixer $T [i] = 0$ , $i = i + 1$ et $j = 0$ .
Reprendre à l'étape n° 3.

Exemple de code de l'algorithme de construction du tableau

Le morceau de code C qui suit est une implémentation de cet algorithme. Comme pour l'algorithme de recherche, les indices de $T$ ont été augmentés de 1 afin de rendre le code C plus naturel. La variable supplémentaire c permet de simuler l'existence de $P [ - 1]$ . Il est supposé que cette fonction, ainsi que la fonction de recherche, sont appelées au sein d'une fonction de niveau supérieur, qui gère convenablement l'allocation de la mémoire pour le tableau $T$ .

      void kmp_tableau(char *P)      {          extern int T[];          int i = 0;          int j = -1;          char c = '\0';              //Donc c=P[-1]                 T[0] = j;                   //c'est-à-dire -1          while (P[i] != '\0') {      //Tant que l'on a pas atteint la fin de la chaine      /* ATTENTION la condition suivante est fausse, contre exemple avec la chaine "ABABABAB", il faut plutot mettre if((P[i] == P[j]) && j < ((i+(i%2))/2)) */              if (P[i] == c) {        /* Si P[i]==P[j] donc si le caractère qu'on regarde est le même que le caractère suivant la fin                                       * du dernier motif initial trouvé */                  T[i + 1] = j + 1;   //alors le motif est continué, et on incrémente i et j.                  ++j;                  ++i;              } else if (j > 0) {     //Sinon si au caractère précédant il existe un motif                  j = T[j];           //on va regarder le motif initial précédant qui peut correspondre a la lettre où l'on était.              }              else {                  /* Sinon j=0 ou -1, i.e. si les lettres qui précédent la ième suivie de la ième ne peuvent                                       * correspondre a aucun marquage initiale */                  T[i + 1] = 0;       //alors on indique qu'il n'y a aucun motif initiale pour cette lettre.                  ++i;                  j = 0;              //Cet affectation ne sert en fait que lorsque j=-1.              }              c = P[j];          }      }

Cependant, remplacer int j=-1; par int j=0;, T[0] = j; par T[0] = -1; permettrait de supprimer l'affectation j = 0; sans rien changer au résultat de l'algorithme. On gagne un petit peu de temps d'exécution mais on perd de la cohérence parmi les variables.

Efficacité de l'algorithme de construction du tableau

La complexité de l'algorithme de construction du tableau est $O (n)$ , où $n$ désigne la longueur de $P$ . À l'exception des initialisations, tout le traitement est effectué dans l'étape n° 3. Ainsi, il suffit de montrer que cette étape s'exécute en $O (n)$ , ce qui est fait par la suite en examinant simultanément les quantités $i$ et $i - j$ .

Dans la première branche, $i - j$ est préservé, car $i$ et $j$ sont augmentés simultanément. La quantité $i$ , elle, est donc augmentée.
Dans la deuxième branche, $j$ est remplacé par $T [j - 1]$ , qui est toujours strictement inférieur à $j$ (voir plus haut), ce qui augmente $i - j$ .
Dans la troisième branche, $i$ est augmenté, mais pas $j$ , donc $i$ et $i - j$ sont tous deux augmentés.

Comme $i \geq i - j$ , cela signifie qu'à chaque étape, soit $i$ , soit une quantité inférieure à $i$ augmente. Par conséquent, puisque l'algorithme s'arrête quand $i = n$ , il s'arrête après au plus $n$ itérations de l'étape n° 3, car $i - j$ commence à $1$ . Ainsi, La complexité de cet algorithme est $O (n)$ .

Principe de fonctionnement

- Introduction - Principe de fonctionnement - Efficacité de l'algorithme de Knuth-Morris-Pratt - Le tableau des « correspondances partielles »

⚛️ Informatique quantique: un développement similaire à l'informatique des années 1970 ?

👀 Pourquoi les yeux grandissent encore à l'âge adulte ?

🔭 Une surprenante jumelle de la Voie Lactée découverte dans l'Univers bébé

🦠 Les mirusvirus, ces virus géants qui continuent à nous surprendre

🚪 Pyramides de Gizeh: découverte d'une potentielle entrée cachée

⚫ Voici la plus fidèle simulation d'un trou noir à ce jour

☕ Une étude révèle que, à cette consommation précise, le café ralentirait le vieillissement

⚛️ Les formules d'un génie du passé ressurgissent dans la physique des trous noirs

🌊 Un tsunami médiéval exceptionnel dans les Caraïbes

🖋️ Les systèmes de sécurité les plus robustes des IA se laissent berner par de simples poèmes

🌟 Une naine brune et une exoplanète géante observées directement avec une précision inédite

🧠 Consommation de cannabis pendant la grossesse et retard du développement cognitif

🔄 Ce filtre, inspiré des sardines, capte 99% des microplastiques d'un lave-linge

✨ Notre galaxie possède une signature chimique typique, l'explication trouvée

☠️ Quand la bactérie responsable de la tuberculose fabrique son propre poison

🪐 Des astronomes découvrent une longue chaîne de galaxies en rotation synchronisée

🧠 Une simple molécule contrôle vos habitudes et vos envies irrésistibles

🧠 Cet implant cérébral ultra-mince permet de connecter efficacement son cerveau à une IA

🦠 Evolution: nos défenses immunitaires semblables à celles des... bactéries

🛰️ Une IA trouve une faille à la NASA permettant de prendre le contrôle des missions spatiales

🌋 Un système hydrothermal majeur découvert en Méditerranée

🪐 Un espoir de vie extraterrestre sur TRAPPIST-1e, malgré les fureurs de son étoile

🌱 Remplacer les engrais par des "déchets"

💥 Des physiciens éliminent une théorie majeure sur les neutrinos

💉 En test, un vaccin universel contre le cancer montre une efficacité exceptionnelle

🕰️ Le temps sur Mars avance plus vite que sur Terre, et ce n'est pas négligeable

🌍 Les tremblements de terre, un boost inattendu pour la vie invisible

✨ Deux étoiles massives nous ont frôlé, laissant des traces encore visibles

🧠 Cerveau: une autre source d'énergie que le sucre pour les neurones

🧬 La vie complexe est apparue près d'un milliard d'années plus tôt qu'estimé

🌡️ Comment la température influence la conscience de notre propre corps

🔭 Un signal gravitationnel pourrait révéler des trous noirs primordiaux

🧠 Quand une petite fibre synthétique s'auto-réplique dans le cerveau

⚡ Première détection d'éclairs sur Mars

💪 Ces tendons artificiels rendent les robots 30 fois plus forts

🌕 Course à la Lune: la Chine avance, les Etats-Unis pataugent

🔬 Virus de la rage: comment un virus si réduit peut-il dominer une cellule humaine ?

⚡ Une percée pour les piles à combustible à basse température

🧠 Notre cerveau nous trompe: il modifie ce que nos yeux voient

🧠 IA: certaines architectures se révèlent fondamentalement proches du cerveau humain

☀️ Des manuscrits chinois de 2700 ans décrivent la plus ancienne éclipse connue

☄️ Découverte d'un objet sur Mars qui n'a rien à y faire

🪸 Découverte d'un rôle majeur du récif corallien sur le cycle du carbone

🌟 Enigmatique: cette étoile, en couple avec un trou noir, est à la fois jeune et vieille

🧠 Cancer du cerveau: la foudre frappe parfois deux fois au même endroit

🌱 Et si la vie était née dans de la gelée ?

🌀 La matière noire obéit-elle à une cinquième force inconnue ?

🌡️ 42 jours d'été supplémentaires en Europe d'ici 2100

🧠 Nous sommes adolescent jusqu'à 32 ans. Voici les étapes clés du développement de notre cerveau

🔭 Quasars géants: découverte de dizaines de structures intergalactiques

Page générée en 0.161 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise