Il est courant, en analyse de données, de disposer d’une variable Z dont l’influence, prépondérante et déjà bien connue, masque des phénomènes plus fins que l’on cherche à découvrir.
La solution consiste à tracer le schéma, non pas de la matrice de corrélation totale, mais de la matrice des corrélations partielles par rapport à Z, afin de retirer toute influence linéaire de Z sur les autres variables. Le schéma révèle alors une autre organisation, abstraction faite des variations de Z.
Par exemple, retirons la composante de l’âge, dont l’influence, prépondérante, est bien connue. Le schéma révèle alors l’influence directe de l’assiduité sur la note. L’âge a disparu de la figure, ainsi que sa composante dans toutes les variables. Et le poids se trouve isolé.
Dans un tableau de données comportant plus de variables, il peut être intéressant de retirer plusieurs influences (le résultat ne dépend pas de l’ordre dans lequel elles sont retirés).
L’iconographie des corrélations vise à mettre en évidence l’organisation des liens, qui peut aussi bien être bouclée que hiérarchique ou continûment répartie.
L’absence d’axe, quelle que soit la dimension du problème permet de remplacer une multitude de projections bidimensionnelles par une image unique, où l’essentiel apparaît d’un coup d’œil.
Une succession de telles figures (éventuellement sous forme de dessin animé) autorise la représentation graphique d’une organisation multidimensionnelle évolutive.
Les liens du schéma peuvent être décrits de la manière suivante : à chaque lien tracé, associons une règle du type SI…ALORS …, suivie de la valeur du coefficient de corrélation totale, précédé d’une « * » si le lien est tracé, et de « ? » si le lien n’est pas tracé, car « douteux » (la valeur de la corrélation n’est supérieure au seuil qu’à cause d’une seule observation).
Les liens entre variables sont indiqués ici dans les deux sens, car la causalité n’est pas directement déductible de la corrélation. Les liens « instants remarquables » - variables peuvent être indiqués dans un seul sens, car la variable découle de sa réalisation à l’instant considéré.
Une base de connaissance peut servir d’entrée à un système expert et l’utilisateur peut l’enrichir ou la préciser. Par exemple, il est contraire au bon sens de dire qu’une bonne note peut causer l’âge. C’est l’inverse qui est possible. De même, les enfants prennent du poids en grandissant, mais ce n’est pas le poids qui fait le nombre des années. L’utilisateur peut donc supprimer les règles « SI Note ALORS Age *.893 », « SI Note ALORS Age&Assiduité *.960 » et « SI Poids ALORS Age *.885 ».
La base de connaissance ainsi modifiée donne un schéma où certains liens sont désormais orientés. On peut lui appliquer la théorie des graphes et en tirer des flux d’informations.