Optimisation de code - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs est disponible ici.

Langages à objets

C++ - C# - D
Delphi - Eiffel - Groovy
Java - Lisaac - Python - Ruby
Simula - Smalltalk
Visual Basic - WLangage

Langages impératifs

APL - ASP - Assembleur
BASIC - C - Cobol - Natural
Forth - Fortran - Limbo
Logo - Pascal - Perl - PHP

Langages fonctionnels

Haskell - ML/OCaml
Lisp/Common Lisp
Scheme - XSLT

Langages déclaratifs

Clips - Prolog

Langages concurrents

Ada 95 - Erlang

Voir aussi

Conception - Codage
Tests - Optimisations

En programmation informatique, l'optimisation est la pratique qui consiste généralement à réduire le temps d'exécution d'une fonction, l'espace occupé par les données et le programme, ou la consommation d'énergie.

La règle numéro un de l'optimisation est qu'elle ne doit intervenir qu'une fois que le programme fonctionne et répond aux spécifications fonctionnelles. L'expérience montre qu'appliquer des optimisations de bas niveau du code avant que ces deux conditions ne soient réalisées revient le plus souvent à une perte de temps et s'avère néfaste à la clarté du code et au bon fonctionnement du programme :

" L'optimisation prématurée est la source de tous les maux. ", Donald Knuth citant Dijkstra

Cependant cette citation, tronquée, est très souvent mal interprétée. La version complète étant:

" On devrait oublier les petites optimisations locales, disons, 97% du temps : l'optimisation prématurée est la source de tous les maux. (We should forget about small efficiencies, say about 97% of the time: premature optimization is the root of all evil.) ", Donald Knuth

La citation originale indique très clairement que cette règle ne doit s'appliquer qu'aux optimisations locales, de bas niveau (réécriture en assembleur, déroulage de boucle etc.) et pas aux optimisations de haut niveau concernant le choix des algorithmes ou l'architecture d'un projet. Au contraire plus le projet grandit et plus ces optimisations de haut niveau seront difficiles et couteuses (en termes de temps, difficulté et budget), voire impossible, à effectuer.

La plupart des compilateurs récents pratiquent de façon automatique un certain nombre d'optimisations qu'il serait fastidieux d'effectuer manuellement et qui rendraient le code source moins lisible.

L'optimisation manuelle locale peut s'avérer nécessaire dans des cas très spécifiques, mais les mesures montrent que sur des machines RISC qui possèdent un nombre élevé de registres et où l'efficacité demande le regroupement des instructions identiques pour bénéficier de l'effet pipeline, l'optimiseur d'un compilateur C fournit souvent un code plus efficace que celui qui serait écrit en assembleur par un programmeur expérimenté (ce qui n'était jamais le cas sur les machines CISC). Et de surcroit ce code est bien plus facile à maintenir, car les instructions en C restent dans un ordre lié à la seule intelligibilité du code et non aux spécificités de la machine : dans les optimiseurs actuels, en effet, les ordres machines associés à une instruction ne se trouvent plus nécessairement en position contiguë, pour des raisons d'efficacité d'exécution. Cela rend le code assembleur généré particulièrement indéchiffrable.

Pratique de l'optimisation

Première approche

Avant de commencer l'optimisation, il faut savoir mesurer la vitesse du code. Pour cela il faut choisir un paramètre, de préférence simple, mesurable. Ceci peut-être par exemple le temps de traitement sur un jeu de donnée précis, ou le nombre d'images affichées par seconde, ou encore le nombre de requêtes traitées par minute.

Une fois le paramètre de mesure déterminé, il faut mesurer le temps passé dans chacune des parties du programme. Il n'est pas rare que 80% à 90% du temps soit consacré à l'exécution de 10% du code (les boucles critiques). Les chiffres varient en fonction de la taille et de la complexité des projets. Il faut localiser ces 10% de code pour être le plus rentable dans ses optimisations. Cette étape de localisation peut être réalisée à l'aide d'outils spécialisés d'instrumentation du code nommés profilers. Ils sont chargés de compter le nombre d'exécutions de chaque fonction et de cycles du microprocesseur correspondants au cours de l'exécution.

Ensuite on itère sur la section la plus consommatrice de ressource autant de fois que nécessaire cette boucle :

optimisation d'une partie du code
mesure du gain de performances

Seconde approche

On peut optimiser à plusieurs niveaux un programme:

au niveau algorithmique, en choisissant un algorithme de complexité inférieure (au sens mathématique) et des structures de données adaptées,
au niveau du langage de développement, en ordonnant au mieux les instructions et en utilisant les bibliothèques disponibles,
en utilisant localement un langage de bas niveau, qui peut être le langage C ou, pour les besoins les plus critiques, le langage assembleur.

On ne passe au niveau supérieur d'optimisation qu'une fois qu'on a épuisé les possibilités d'un niveau. L'utilisation d'un langage de bas niveau sur l'ensemble d'un projet pour des raisons de rapidité est l'une des erreurs les plus communes et les plus coûteuses que puisse faire un projet industriel.

L'optimisation de code est considéré par beaucoup de développeurs amateurs comme un art un peu magique et, pour cette raison, comme l'une des parties les plus excitantes de la programmation. Ceci les conduit à croire qu'un bon programmeur est une personne qui optimise d'emblée le programme. Cependant l'expérience montre qu'elle ne peut palier une mauvaise conception initiale. C'est dans la conception que l'expérience du développeur joue le plus. Par ailleurs, dans un nombre majoritaire et grandissant de cas, le " bon programmeur " est moins celui qui écrit du code astucieux (l'optimiseur s'en chargera le plus souvent mieux que lui) que celui qui écrit du code lisible et aisé à maintenir.

Une bonne connaissance des techniques de structures de données ainsi que des algorithmes (même sans aller jusqu'aux considérations théoriques poussées de la complexité algorithmique) se montre bien plus féconde que celle d'un langage d'assemblage. Lorsqu'on a déterminé l'algorithme le plus adéquat, les optimisations les plus efficaces peuvent être obtenues en utilisant le chemin suivant :

écriture du code critique dans un langage de haut niveau (comme Scheme ou Common Lisp),
application de transformations mathématiques successives qui préservent la spécification du programme tout en réduisant la consommation des ressources,
traduction du code transformé dans un langage de bas niveau (langage C).

Dans la pratique, les performances des machines actuelles font que des applications comportant beaucoup d'entrées-sorties lentes peuvent faire l'économie de ces trois étapes et se rédiger directement dans un langage comme Haskell. L'application bien connue nget, qui moissonne systématiquement les images publiées dans les forums Usenet, avait dans sa première implémentation été écrite en Haskell. La version en C n'en a été qu'une traduction qui ne se révèle pas plus performante pour ce type d'application. Une application limitée principalement par le CPU et la vitesse de la mémoire par contre pourra gagner énormément à être écrite dans un langage tel que le C ou le C++.

Optimisation automatique

Les compilateurs sont souvent capable de faire des optimisations locales, auxquelles aucun développeur ne penserait en première approche.

Pour le langage C, cela peut considérer :

les variables locales et les registres
les fonctions non implémentées en assembleur en tant que fonction
les switch, qui sont optimum.

Toutefois on peut grandement aider le compilateur en déclarant les variables avec les mots-clefs const et/ou restrict quand c'est possible. Autrement le compilateur ne peut savoir si une zone mémoire est accessible par d'autres références, et désactivera des optimisations (phénomène dit d'aliasing mémoire).

Exemples

Utilisation de variables locales pour éviter l'aliasing de mémoire

Le code C++ suivant sera en général peu optimisé par le compilateur car il est souvent incapable de savoir si le code de la boucle modifie ou non le compteur d'itérations : un pointeur ou une référence pourrait le modifier.

void MyClass::DoSomething() const
{
for( int i=0; i<m_nbrElements; ++i )
{
void *ptr = GetSomePtr();
....
}
}

Dans cette version, on indique clairement qu'on utilise un nombre d'itérations fixé à l'avance et qui ne sera jamais modifié, autorisant le compilateur à effectuer des optimisations plus agressives:

void MyClass::DoSomething()
{
const int nbrElements = m_nbrElements;
for( int i=0; i<nbrElements; ++i )
{
....
}
}

Une spécificité du binaire : le décalage

Une des toutes premières optimisations a été celle de la division et de la multiplication par une puissance de 2.

En effet, l'informatique actuelle repose sur le binaire, puisqu'elle utilise comme élément de base le transistor (et historiquement, auparavant le relais) qui n'autorise que deux valeurs différentes.

On a donc logiquement implémenté en langage machine les opérations de décalage à gauche et décalage à droite.

En effet, en binaire, le décalage d'un nombre d'un cran vers la gauche le multiplie par 2.

Ainsi, 2 (10₂) décalé de 1 bit donne 4 (100₂).

5 (101₂) décalé de 2 bits donne 20 (10100₂) :

5 * 2 2 = 20

Ceci marche aussi pour la division, en décalant les bits vers la droite.

100 (1100100₂) décalé de 3 bits vers la droite donne

100 / 2 3 = 12.5

donc 12 (1100₂) car nous travaillons sur des nombres entiers.

La division (en dehors de ce cas et des cas pathologiques) est une instruction coûteuse en temps machine, et n'est d'ailleurs toujours pas disponible sur la grande majorité des processeurs de type RISC.

Le mot clef inline du C

Le code C suivant:

inline int f(int a, int b) {
return a * b;
}
int g (int a) {
switch (a) {
case 10:
return f(a, a);
case 11:
case 12:
return f(a - 2, a);
case 1200:
return f(a - 2, a);
default:
return f(a, a);
}
}

Une compilation avec gcc -O4 -S donne:

.file    "opt.c"
.text
.p2align 4,,15
.globl   g
.type    g, @function
g:
pushl   %ebp
movl    %esp, %ebp
movl    8(%ebp), %edx
cmpl    $12, %edx
jg      .L14
leal    -2(%edx), %eax
cmpl    $11, %edx
jge     .L15
movl    $100, %eax
cmpl    $10, %edx
.L17:
je      .L2
movl    %edx, %eax
.L15:
imull   %edx, %eax
.L2:
popl    %ebp
ret
.p2align 4,,7
.L14:
movl    $1437600, %eax
cmpl    $1200, %edx
jmp     .L17
.size   g, .-g
.section        .note.GNU-stack,"",@progbits
.ident  "GCC: (GNU) 3.3.2 (Mandrake Linux 10.0 3.3.2-6mdk)"

Ce qui pourrait se traduire, pour une compréhension plus aisée, par le code C suivant:

int g(int a) {
int eax, b;
if (a > 12)          /* cas a == 1200 */
goto L14;
eax = a - 2;
if (a >= 11)         /* cas a == 11 ou a == 12 */
goto L15;
eax=100;             /* = 10 * 10 */
b=10;
L17:
if (a == b)          /* cas a == 10 */
goto L2;
/* cas "default" */
eax=a;
L15:
eax=eax*a;
L2:
return eax;
L14:
eax = 1437600;       /* = 1200*(1200-2) */
b = 1200;
goto L17;
}

On peut remarquer par exemple que la fonction 'f' n'a pas été générée, mais que son code a directement été incorporé dans la fonction 'g' (le mot clef 'inline' permet de forcer ce type d'optimisation en C )

⚫ Ces trous noirs interagissent avec la lumière fossile du Big Bang

🦕 Et si les dinosaures détenaient le secret pour vaincre le cancer ?

😎 Comment font les lunettes de soleil pour filtrer les UV ?

🚶‍♂️‍➡️ La marche des babouins éclaire l'évolution de la bipédie humaine

🔭 James Webb capture cette image directe d'une étrange planète à 60 années-lumière

🦋 Pourquoi et comment les chenilles deviennent-elles des papillons ?

🔭 Voici la plus grande carte de l'Univers. Ses révélations sont surprenantes !

😴 Penser que l'on est éveillé alors que l'on dort, normal ?

🌊 Ce cratère raconte l'histoire de l'eau sur Mars

🐝 Comment les fleurs attirent-elles les insectes pollinisateurs ?

💥 La collision entre notre Voie lactée et la galaxie d'Andromède remise en question

🎶 Pourquoi les oiseaux chantent-ils autant et si fort au printemps ?

💡 Générer de la lumière à partir du vide, c'est possible

Découverte d'un deuxième système d'apprentissage dans le cerveau

☀️ Comment se produit un coup de chaleur et comment s'en protéger ?

⚽ Comment fonctionne la physique d'un tir puissant au foot ?

🧠 Un algorithme révèle comment notre cerveau se motive

🔭 Une si grande planète orbite une si petite étoile, comment est-ce possible ?

🐋 Les baleines développent de nouvelles méthodes pour communiquer avec nous

🥚 Le noyau de Mars sent l'œuf pourri

🧠 On sait enfin pourquoi le sémaglutide fait maigrir

🌱 La vie pourrait renaître sur Europe après la mort de la Terre

🌿 Confirmation scientifique: ce remède ancestral fait naturellement maigrir, et pas qu'un peu !

💥 Des astronomes identifient les plus puissantes explosions depuis le Big Bang

🦕 Ce crâne de stégosaure, le plus complet jamais découvert, réécrit l'histoire

🛏️ Les punaises de lit, ces compagnons indésirables depuis la préhistoire

🕸️ Connaissez-vous la toile cosmique, l'architecte de l'Univers ?

🌋 L'éruption de l'Etna vue depuis l'espace

🐋 Il y a 20 000 ans, l'Homme fabriquait des outils avec des os de baleines

🟠 Quel est le rôle de ce labyrinthe sur Mars ?

🎯 Cette stratégie innovante contre le cancer du sein offre une survie de 100%

💥 Le pulsar à trou noir: un objet qui intrigue les astrophysiciens

🐒 Première: ces singes kidnappent les bébés d'une autre espèce

🌍 Découverte d'une super-Terre à l'habitabilité intermittente

🧠 Ces cellules pourraient jouer un rôle bien plus important que les neurones dans la mémoire

🛰️ Une carte photographique de la Terre toutes les 35 minutes

Pourquoi l'oxygène est-il si indispensable à autant d'êtres vivants ?

🐱 Pourquoi certains chats miaulent et ronronnent plus que d'autres ?

Découverte: un antidouleur sans effets secondaires

🤔 Ces expériences remettent en question un concept fondamental de la thermodynamique

Le cannabis réduit de moitié la fonction des vaisseaux sanguins

Les différences hommes-femmes ne sont pas que génétiques

🦴 Des paresseux géants de plusieurs tonnes parcouraient autrefois l'Amérique

James Webb découvre une nouvelle population de trous noirs supermassifs

Le sol de l'Afrique du Sud s'est soulevé ces dernières années, pourquoi ?

👀 Ces lentilles de contact permettent de voir l'invisible

Révélations sur l'histoire de la lèpre en Amérique

Ce nouveau matériau possède des propriétés jamais vues !

😂 Que savons-nous réellement sur les chatouilles ?

Pour la lumière, le temps n'existe pas 🌟

Page générée en 0.159 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise