Evaluation de la quantité de travail (in)utile dans l’exécution des programmes

Rapport de stage de DEA
Évaluation de la quantité de travail utile
dans l’exécution des programmes
Benjamin Vidal
Responsable de stage : Pierre Michaud
Projet CAPS

Sujet de stage
La recherche en architecture de processeur est confrontée actuellement à des contraintes qui
rendent de plus en plus difficile l’augmentation des performances des processeurs. Ces contraintes
sont multiples : consommation électrique, latence de propagation des signaux sur les connexions,
temps et coût de developpement, etc. . . Pour espérer trouver d’éventuelles solutions permettant
d’augmenter les performances de manière significative sur une large gamme d’applications, il faut
trouver de nouveaux paradigmes d’architecture. Pour cela, il faut d’abord avoir une bonne compré-hension
du comportement des programmes.
Le sujet proposé a pour but d’évaluer la quantité de travail réellement utile dans l’exécution des
programmes. L’idée sous-jacente est que si une fraction importante de l’exécution d’un programme
consiste en du travail inutile, il peut être intéressant de chercher un paradigme architectural per-mettant
d’exploiter cette propriété.
Le problème consiste à donner une définition de l’utilité d’un travail. Par exemple, dans la
référence [1], un résultat intermédiaire est considéré inutile s’il est écrit dans un registre et est
écrasé sans avoir été utilisé. Dans la référence [5], un store à une adresse mémoire est considéré
inutile s’il écrit une valeur égale à la valeur déjà stockée à cette adresse. Nous proposons d’étudier
une autre définition, selon laquelle une instruction dynamique est considérée utile si
– Elle produit un résultat émis en sortie du programme (ex. printf)
– Elle produit un résultat utilisé comme opérande d’une instruction utile
– C’est un branchement dominant une instruction utile
La partie recherche du stage consiste à concevoir un algorithme efficace en temps et en mémoire
permettant d’évaluer la quantité d’instructions dynamiques utiles. La partie mise-en-oeuvre consiste
à écrire le programme correspondant, et à l’utiliser pour obtenir des statistiques sur la fraction de
travail utile, et d’autres statistiques, à définir, permettant de mieux appréhender le comportement
des programmes. La mise en oeuvre se fera à l’aide des outils développés au sein du projet CAPS.
On travaillera sur des traces d’exécution des programmes de la suite SPEC CPU2000.
2

Remerciements
Au cours de ce stage au sein de l’équipe CAPS de l’IRISA, il m’a été possible de rencontrer
un grand nombre de personnes qui m’ont aidé à comprendre le fonctionnement d’un laboratoire de
recherche en informatique et surtout à acquérir le recul nécessaire pour mieux appréhender le monde
de l’architecture des microprocesseurs. Je voudrais donc remercier Ronan Amicel, Laurent Bertaux,
Fran¸cois Bodin, Henri-Pierre Charles, Assia Djabelkhir, Romain Dolbeau, Antony Fraboulet, Karine
Heydemann, Thierry Lafage, Antoine Monsifrot, Laurent Morin, Gilles Pokam, Olivier Rochecouste,
André Seznec et Éric Toullec.
Je tiens aussi à remercier Yannos Sazeides (Enseignant à l’université de Chypre) avec qui j’ai eu
l’occasion d’échanger des idées sur la fa¸con d’élaborer automatiquement un graphe de dépendance
de donnée à partir de l’exécution d’un programme.
Et enfin je tiens à remercier très chaleureusement mon maˆıtre de stage, Pierre Michaud, qui m’a
donné la liberté de travail que j’aurais aimé trouver tout au long de mon expérience universitaire
et professionnelle et m’a permis ainsi de suivre les pistes que je souhaitais. Je tiens également à le
remercier pour tous les conseils qu’il a pu me donner concernant le monde de la recherche (publique
ou privée) et de m’avoir fait partager sa vision des choses sur de nombreux sujets.
3

Table des matières
1 Bibliographie 9
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Compilation et travail inutile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.1 Vous avez dit « instructions inutiles » ? . . . . . . . . . . . . . . . . . . . . . 10
1.2.2 Instructions statiques inutiles . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Première approche :
Instructions inutiles détectées dynamiquement . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 Description du principe de détection et d’élimination des instructions inutiles 11
1.3.3 Idées d’implémentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.4 Conclusion sur cette approche . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Deuxième approche :
Écritures silencieuses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.2 Le phénomène d’écriture silencieuse . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.3 Les conséquences de l’élimination des écritures silencieuses . . . . . . . . . . . 14
1.4.4 Idées d’implémentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4

1.5 Troisième approche :
Travail inutile global lors de l’exécution d’un programme . . . . . . . . . . . . . . . . 16
1.5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.2 Evaluer l’utilité d’une instruction ? . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.3 Mise en oeuvre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 Compte rendu du stage 20
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.1 Le travail inutile, qu’est ce que c’est ? . . . . . . . . . . . . . . . . . . . . . . 20
2.1.2 Notre protocole de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 La méthode utilisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.1 L’algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.2 L’optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.3 Le résultat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3 L’environnement de travail : Les choix de mise en oeuvre . . . . . . . . . . . . . . . . 29
2.3.1 Les Outils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.2 L’instrumentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.3 Le choix de la Plateforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.4 SPARC : Le Meilleur des Mondes ? . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.5 S’affranchir de la numérotation des registres faite par Salto . . . . . . . . . . 34
2.3.6 Les expressions régulières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.7 La gestion des fonctions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5

2.4 Résultats & Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.1 Les chiffres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.2 Le doute. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.3 La répartition du travail inutile . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3 Annexes 46
3.1 Petit historique du stage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2 A propos de la description machine Salto du Sparc . . . . . . . . . . . . . . . . . . . 47
3.2.1 Gestion des instructions Save et Restore . . . . . . . . . . . . . . . . . . . . . 47
3.2.2 L’instruction call & link . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.3 L’instruction addx . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.4 Un détail : les instructions nop, ba et bn . . . . . . . . . . . . . . . . . . . . . 47
3.3 Résultat de l’évaluation du travail inutile sur un exemple simple . . . . . . . . . . . 49
3.3.1 Code source en C de l’exemple . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.2 Code source en assembleur Sparc de l’exemple . . . . . . . . . . . . . . . . . 49
3.3.3 Identifiant d’instruction statique . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.4 Trace d’exécution dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.3.5 Graphe de dépendance de donnée . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3.6 Trace d’exécution dynamique 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4 Exemple de données stockées en cours d’exécution . . . . . . . . . . . . . . . . . . . 59
3.5 Code source du programme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6

Table des figures
1.1 Mise en évidence de l’inutilité des instructions ne produisant des résultats utilisés
que par des instructions inutiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1 La structure de donnée d’un noeud du graphe . . . . . . . . . . . . . . . . . . . . . . 24
2.2 Exemple de graphe généré par l’algorithme 1 & 3 . . . . . . . . . . . . . . . . . . . . 25
2.3 Du code source en langage de haut niveau au graphe de dépendance de donnée
dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4 Instrumentation de code source en assembleur . . . . . . . . . . . . . . . . . . . . . . 30
2.5 Principe de l’instrumentation faite par le programme d’évaluation de la quantité de
travail inutile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6 Le principe de la fenêtre de registres du Sparc . . . . . . . . . . . . . . . . . . . . . . 33
2.7 Quantité d’instructions assembleurs inutiles lors de l’exécution de gzip dans différentes
conditions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.8 Mise en évidence d’un problème d’implémentation par divergence du flot de contrôle 38
2.9 Évolution de la quantité de travail inutile en fonction du temps . . . . . . . . . . . . 40
3.1 Graphe d’exemple généré par l’utilitaire « dot » . . . . . . . . . . . . . . . . . . . . . 56
3.2 Les structures de données utilisées par le programme pour construire le graphe de
dépendance de donnée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
7

Liste des Algorithmes
1 Construction du graphe de dépendance de donnée . . . . . . . . . . . . . . . . . . . 23
2 Parcours du graphe (Noeud) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3 Détection des instructions inutiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
8

Chapitre 1
Bibliographie
1.1 Introduction
Aujourd’hui, pour améliorer les performances d’un programme, il ne suffit plus seulement d’ajou-ter
du matériel dans un système donné. Il faut avant tout étudier le comportement de ce programme
afin d’adapter au mieux les ajouts qui doivent être faits au système. De ce constat, les architectes
des microprocesseurs ont tiré des idées aujourd’hui fondamentales (tels les différents niveaux de
mémoires caches qui exploitent la propriété de localité temporelle et spatiale d’accès aux données
dans les programmes).
En ce sens, certains travaux de recherche s’intéressent aujourd’hui au problème du travail ef-fectu
é inutilement par un microprocesseur. Ils mettent en évidence une quantité non négligeable
de travail inutile. Dans cette bibliographie, trois approches principales de travail inutile ont été
retenues.
1. Une instruction produisant un résultat jamais utilisé par une autre instruction est considérée
comme inutile (approche de « l’instruction morte » retenue par l’article [1]).
2. Une instruction d’écriture est considérée comme inutile si cette dernière ne modifie pas l’état
de la mémoire (i.e. la même valeur est écrite à la même adresse mémoire) (approche de
« l’écriture silencieuse » retenue dans de nombreux articles [5, 3, 7]).
3. Une instruction est considérée comme utile si elle produit un résultat en sortie (affichage d’un
résultat par exemple) ou qu’elle est elle même utile à une instruction utile (approche retenue
pour le stage).
Après un bref tour d’horizon des travaux déjà effectués dans le domaine au niveau des compila-teurs,
chacun des trois aspects décrits ci-dessus du travail inutile sera développé dans un paragraphe
de cette bibliographie. S’en suivra un paragraphe de discussion sur la possibilité de mêler ces deux
approches pour essayer d’obtenir une coopération compilation/exécution dans l’élimination des
instructions inutiles.
9

1.2 Compilation et travail inutile
1.2.1 Vous avez dit « instructions inutiles » ?
Il peut paraˆıtre surprenant au premier abord d’entendre parler de travail inutile dans un pro-gramme.
En effet, à partir du moment ou le programmeur demande d’effectuer un travail à la
machine, (encore que celui-ci ne soit pas infaillible. . .) ce travail doit avoir une utilité (au sens
informatique du terme bien entendu. . .). Cependant, au delà du programmeur, il existe toute une
chaˆıne de mécanismes permettant de passer du langage de haut niveau (i.e. langage de program-mation
classique) au code machine exécutable. Ainsi ce programme va passer par toute sortes de
transformations qui vont introduire du travail inutile. De plus, il est possible de trouver, dans la
fa¸con dont sont con¸cus les programmes, du travail inutile (redondance de calculs par exemple).
1.2.2 Instructions statiques inutiles
Pour commencer, il est important de rappeler ce que sont les instructions statiques et les ins-tructions
dynamiques. Une instruction statique est une instruction telle qu’on peut la trouver dans
le code source d’un programme. Une instruction dynamique est une instance d’instruction statique.
A chaque instruction statique peut correspondre plusieurs instructions dynamiques (autant que de
fois où l’on exécute cette instruction statique).
Exemple simple :
pour i de 1 à n faire
t[i] := 0;
fpour
Instruction statique : t[i] := 0
Instructions dynamiques associées : t[1] := 0, t[2] := 0, …, t[n] := 0
Dans l’exemple suivant, il est important de noter que si n n’est pas fixé lors de la compilation, la
seule connaissance du compilateur est l’instruction statique. Il ne pourra donc pas, à priori se servir
de la valeur de n à des fins d’optimisation. Supposons maintenant qu’un programme ne soit composé
que des instructions de l’exemple et n’affiche aucun résultat. Le compilateur peut en déduire que
l’ensemble du travail à effectuer pour exécuter cette boucle est inutile. Cependant, il suffit d’ajouter
une instruction qui utilise t[m] en lecture (m étant un paramètre d’entrée du programme inconnu
à la compilation) pour que, potentiellement, l’ensemble du travail de la boucle devienne utile. En
effet, le compilateur ne sachant pas quelle case du tableau t va être accédé, il est obligé de considérer
que l’ensemble de la boucle fournit du travail utile.
Il existe de nombreuses autres manières d’éliminer du travail inutile lors de la compilation [2, 4]
que nous n’aborderons pas ici car seul l’aspect décrit ci-dessus se rapproche des travaux visés dans
cette étude.
Dans la suite de cette bibliographie, nous ne nous intéresserons qu’aux instructions inutiles
dynamiques (i.e. qui ne peuvent pas être détectées par le compilateur puisqu’elles dépendent de
valeurs d’entrées du programme non connues au moment de la compilation).
10

1.3 Première approche :
Instructions inutiles détectées dynamiquement
1.3.1 Introduction
Les auteurs de l’article [1] se sont aper¸cus que le réarrangement des instructions fait par les com-pilateurs
lors des phases d’optimisations créé des instructions inutiles. En effet, comme le montre
leurs résultats, une compilation faite sans optimisations montre un niveau faible d’instructions in-utiles
alors qu’une compilation avec un fort niveau d’optimisation montre un taux d’instructions
inutiles relativement élevé (parfois supérieur à 10 %). Cependant, malgré ce travail effectué inuti-lement,
il est bon de rappeler que globalement, le temps d’exécution de ces programmes diminue
(i.e. on a bien l’effet désiré). La question qui vient alors est :
« Comment conserver ces optimisations tout en réduisant le travail inutile qui leur est associé ? »
1.3.2 Description du principe de détection et d’élimination des instructions
inutiles
Dans un premier temps, l’important est d’analyser les instructions exécutées inutilement afin
de savoir comment les détecter. Les auteurs de l’article [1] se sont ainsi aper¸cus que les instructions
dynamiques inutiles étaient très souvent des instances d’un nombre réduit d’instructions statiques.
Ces instructions statiques sont appelées des instructions partiellement inutiles. En marquant ces
instructions particulières comme étant propices à générer des instructions dynamiques inutiles,
il est possible de ne faire un traitement particulier que sur ces dernières afin de savoir si une
instance précise sera réellement inutile. Lors de l’exécution, pour chaque instance d’une instruction
partiellement inutile, une estimation de l’utilité de cette instruction dynamique sera faite. De cette
estimation découlera son exécution ou non. Dans le cas d’une mauvaise prédiction, un mécanisme
de récupération permet de lancer l’exécution de cette instruction au moment ou l’on apprend que
la prédiction est érronée.
1.3.3 Idées d’implémentation
Les auteurs de l’article [1] ont donné quelques idées d’implémentation qui pourraient être mises
en oeuvre pour la détection de ce type d’instructions. La plus simple consiste à mémoriser dans un
cache totalement associatif les instructions statiques ayant déjà généré des résultats inutiles par le
passé. Du fait qu’un faible nombre de ces instructions génèrent un grand nombre des instructions
dynamiques inutiles, ce cache permettra de « suspecter » la prochaine instance d’une instruction
statique ayant déjà généré des résultats inutiles.
Par la suite, lors de la détection d’une instruction dynamique « suspectée » d’être inutile, son
exécution sera suspendue jusqu’au « verdict » final permettant de savoir si il était juste de la sus-pecter.
Si tel est le cas, cette instruction ne sera pas exécutée, dans le cas contraire, cette instruction
sera exécutée ajoutant ainsi un surcoût dû au retard d’exécution pris par cette instruction. Il est
11

donc très important d’avoir une estimation la plus fine possible afin d’éviter ce genre de cas et afin
d’augmenter le nombre d’instruction inutiles suspectées à juste titre. Pour cela, des optimisations
sont proposées : utilisation de l’information de flot de contrôle et ajout d’un compteur deux bits à
saturation principalement.
Il est important de noter que ces implémentations ne tiennent pas compte des résultats calculés
qui ne servent qu’à des instructions inutiles. Autrement dit, cette implémentation ne prend pas en
compte le caractère transitif que peuvent avoir certaines instructions inutiles.
Instruction
produisant un résultat R
Instruction
utilisant R et produisant R’
Instruction
utilisant R’ et produisant R’’
Si R’’ est un résultat inutile R’ et R auront été produits inutilement
Fig. 1.1 – Mise en évidence de l’inutilité des instructions ne produisant des résultats utilisés que
par des instructions inutiles
1.3.4 Conclusion sur cette approche
En conclusion, nous pouvons dire que les auteurs de l’article [1] ont mis en évidence une quantité
non négligeable de travail inutile même si elle reste, aujourd’hui, difficile à exploiter. En effet, dans
un environnement où les ressources sont peu limitées, l’efficacité de l’implémentation décrite ci-dessus
offre des gains en performance négligeables. En revanche, dans des conditions de ressources
plus limitées, les gains peuvent atteindre 10 % d’amélioration des performances. De plus le fait
d’exécuter moins d’instructions permet une diminution de la charge des Unités Arithmétiques et
Logiques (UAL) et de la consommation électrique relativement importante. D’après les auteurs, un
mécanisme matériel diminuant l’impact des instructions inutiles sur la performance et la consom-mation
électrique permettrait d’appliquer des optimisations de code plus poussées à la compilation.
12

1.4 Deuxième approche :
Écritures silencieuses
1.4.1 Introduction
D’après les auteurs de l’article [5], il existe principalement deux types d’écritures silencieuses.
D’une part les mises à jours de valeurs silencieuses (qui ne changent pas l’état de la mémoire dans
laquelle elles écrivent) et d’autre part les écritures silencieuses stochastiques qui mettent à jour la
mémoire de manière prévisible. Dans la suite de ce chapitre, nous nous concentrerons sur les mises
à jour de valeurs silencieuses et parlerons, par abus de langage, d’écritures silencieuses pour les
désigner.
1.4.2 Le phénomène d’écriture silencieuse
Au vu de la définition de ce qu’est une écriture silencieuse, il parait difficile de croire que ces
instructions puissent avoir un impact négatif important sur les performances d’un programme.
Pourtant, les articles sur le sujet montrent que souvent plus de 30 % des écritures sont silencieuses
dans les applications testées. En effet, il existe de nombreux cas où, lors du parcours des éléments
d’un tableau, les modifications apportées par ce parcours ne concernent qu’un petit nombre des
éléments de ce tableau.
Exemples simples :
b := (b & t[i]);
fpour
t[i] := (t[i] & b);
fpour
(a) (b) (c)
t étant un tableau de booléens
b étant un booléen
l'opération & étant un "ET" logique
t[i] := t[i] + e(i);
fpour
t étant un tableau d'entiers
e étant une fonction
Dans l’exemple (a), nous pouvons voir que pour chaque case du tableau t dont le booléen est à
vrai, l’exécution du corps de la boucle ne produit aucun travail utile (la même valeur sera ré-écrite
dans b). Dans l’exemple (b), le simple fait que b soit égal à vrai entraˆıne une inutilité de l’ensemble
de la boucle. Dans l’exemple (c), lorsque "(i) renvoi zéro, le corps de la boucle peut-être considéré
comme inutile. Un autre cas assez fréquent de travail inutile est celui où un tableau est initialisé
après avoir été utilisé une première fois. Si lors de la première utilisation de ce tableau, toutes ses
valeurs n’ont pas été modifiées, il est inutile de ré-initialiser l’ensemble des cases de ce tableau.
Il existe d’autres situations dans lesquelles un grand nombre d’écritures silencieuses peuvent être
observées : lors de l’appel d’un sous-programme, si les registres sauvegardés n’ont pas été utilisés
dans ce sous-programme, leur restauration sera inutile. Ce même phénomène peut-être observé lors
de la sauvegarde/restauration de contexte d’un processus par un système d’exploitation.
13

1.4.3 Les conséquences de l’élimination des écritures silencieuses
Au delà du gain évident que provoquerait un mécanisme fiable de suppression des écritures
silencieuses, un tel système permettrait également de supprimer une certaine quantité de travail
assez importante liée à ces instructions. En premier lieu, les informations de contrôle liées à ces
instructions ne sont plus nécessaires (Ex : si une série d’écritures silencieuses se trouve dans une
boucle, il est inutile d’exécuter la boucle). De plus, lors de l’exécution d’une instruction de range-ment
en mémoire, tout un mécanisme lourd de rapatriement de la ligne de cache concernée vers la
mémoire est mis en place (écriture de la donnée dans le cache, marquage de la ligne de cache comme
étant modifiée puis, lors du chargement de nouvelles données dans cette ligne de cache, écriture
de l’ancienne ligne de cache considérée comme modifiée en mémoire). De fait, la suppression d’une
écriture évite d’avoir à passer par toute ces opérations d’accès à la mémoire très coûteuses. Comme
expliqué dans l’article [3], cette remarque prend encore plus d’importance dans un système multi-processeur
puisque à chaque écriture mémoire est associé un message d’invalidation à destination
des autres processeurs provoquant un défaut de cache lors du prochain accès à ces données. . . Il
est également important de noter que si certaines écritures ne sont pas effectuées, de fait, certaines
dépendances de données n’existent plus. De cette fa¸con, le processeur n’est plus obligé d’attendre
que ces valeurs soient écrites pour pouvoir les utiliser. Le rendement du pipeline du processeur est
alors amélioré.
1.4.4 Idées d’implémentation
Les auteurs de l’article [5] ont proposé une implémentation basique permettant de supprimer
les écritures silencieuses. Cette implémentation consiste à remplacer toute les opérations de ran-gement
en mémoire par trois opérations : Chargement de l’ancienne valeur présente en mémoire,
comparaison avec la valeur qui doit y être écrite et enfin, dans le cas où ces deux valeurs ne seraient
pas égales, écriture de la nouvelle valeur en mémoire. Cette méthode est sûre et permet de détecter
l’ensemble des écritures silencieuses. De plus, les lectures pouvant être servies en parallèles, il peut
être intéressant de remplacer les écritures par des lectures suivies de comparaisons. Cependant,
dans la mesure ou le nombre d’écritures silencieuses ne représente pas la majorité des écritures
mémoire, les auteurs ont ajouté une « implémentation parfaite » dans laquelle un mécanisme per-met
de savoir si une écriture va être utile et, dans ce cas, n’effectuera que l’écriture en mémoire
sans avoir à comparer la nouvelle valeur à la valeur précédente.
D’autres idées d’implémentations apparaissent également dans l’article [5] comme par exemple
la possibilité que la ligne de cache ne soit pas marquée comme modifiée lorsqu’elle re¸coit une écriture
silencieuse évitant ainsi d’avoir à propager l’écriture en mémoire centrale (avantage principal de
l’élimination des écriture silencieuses).
L’implémentation retenue pour les simulations faites par les auteurs de [5] est la première
proposée avec pour caractéristique supplémentaire que seules les écritures mises en attente vont
subir une vérification de leur utilité. Ce qui veut dire qu’une écriture survenant à un moment où au
moins un port d’écriture de la mémoire est disponible sera servie avant que la vérification de son
utilité n’ai pu être faite. De cette fa¸con, les performances des écritures ne sont jamais dégradées
puisque le mécanisme n’agit que sur la file d’attente des écritures afin de la réduire.
14

Les auteurs de l’article [5] ont mis en évidence une grande quantité de travail inutile à travers les
écritures silencieuses. En effet, les proportions d’écritures silencieuses obtenues lors des tests sont
parfois très importantes et laissent penser qu’elles pourraient avoir une influence très importante
sur les performances, notamment dans les systèmes dont la purge des lignes de cache en mémoire est
un goulet d’étranglement. Les auteurs mettent également en avant la réduction du trafic sur le bus
d’un système multiprocesseur à mémoire partagée qui est souvent un point critique dans ce type de
systèmes (ce trafic limite le nombre de processeurs sur un même bus). D’autres travaux élargissant le
thème de l’écriture silencieuse ont également été présentés comme celui sur les écritures silencieuses
temporaires [6] considérant que si une valeur en mémoire est modifiée puis remise à son ancienne
valeur et qu’aucune lecture ne soit intervenue sur la valeur transitoire, elle peut-être considérée
comme silencieuse. Ce modèle semble bien s’adapter aux cas décrits ci-dessus de sauvegarde et
de restauration de contexte fréquents (appel de sous-programmes, passage d’un processus à un
autre. . .).
15

1.5 Troisième approche :
Travail inutile global lors de l’exécution d’un programme
1.5.1 Introduction
Dans cette approche, la problématique est un peu différente de celle vue dans les deux premiers
paragraphes. En effet, le but de ces deux approches était de détecter (soit par prévision, soit de
manière dynamique) une catégorie d’instructions inutiles afin d’éviter leur exécution « au vol ».
Dans l’approche retenue pour le stage, il s’agit d’abord de regarder quelle est la quantité de travail
inutile de fa¸con globale (essayer d’évaluer l’ensemble du travail fait inutilement par un programme)
afin d’avoir ensuite une idée du type de comportement ou d’application exécuté par un processeur
qui produit le plus de travail inutile. De cette fa¸con, si certains résultats montrent une quantité non
négligeable de travail inutile dans certains types d’applications, il sera ensuite possible d’étudier
pourquoi ce travail inutile est si important et si il peut être évité d’une manière ou d’une autre.
1.5.2 Evaluer l’utilité d’une instruction ?
La méthode retenue ici pour évaluer l’utilité d’une instruction est assez simple : Une valeur qui
est affichée en sortie d’un programme est considérée comme un résultat utile. Toute instruction
ayant servi à calculer ce résultat est une instruction utile. Ainsi, les instructions utiles à un résultat
peuvent être représentées par un arbre de dépendance entre ces dernières dont la racine est le
résultat lui-même et chaque noeud représente les instructions utiles au calcul de ce résultat (aussi
bien les instructions de rangement/récupération en mémoire, de calcul et de branchement). Les
feuilles seront alors les valeurs d’entrées (paramètres fixés lors de la compilation ou de l’exécution)
du programme. En regroupant l’ensemble des arbres ainsi obtenus pour chaque résultat en un graphe
orienté dont les sources sont les résultats et les puits sont les valeurs d’entrée du programme, il
est possible d’identifier quelles sont les instructions réellement utiles au programme. En effet, les
instructions et les valeurs d’entrées inutiles au programme n’appartiendront pas à ce graphe et
seront ainsi mises en évidence.
16

Exemple simple :
a := lire();
b := VRAI;
c := 0;
si a=0 faire
b := FAUX;
c := 5;
fsi
si b alors écrire(c)
sinon écrire(a)
Exemple de graphe d’exécution si a vaut 0 :
écrire(a)
nécessite b
b := FAUX
branchement
correspondant
Test a=0
nécessite a
nécessite a
a := lire()
Valeur d’entrée
du programme
a := lire()
Valeur d’entrée
du programme
c := 5
c := 0
b := VRAI
Instructions exécutées
inutilement
Exemple de graphe d’exécution si a vaut 1 :
nécessite b nécessite c
Test a=0
nécessite a
a := lire()
Valeur d’entrée
du programme
écrire(c)
c := 0
Valeur d’entrée
du programme
Aucune instruction n’est
exécutée inutilement
b := VRAI
Valeur d’entrée
du programme
Cet exemple permet de mettre en évidence le fait que selon les valeurs d’entrées du programme,
il peut y avoir du travail inutile ou pas. De plus, il met en lumière (dans le cas où a vaut 1) le
fait que le test a=0 correspondant au branchement du « si » doit être pris en compte comme étant
du travail utile puisque de ce branchement vont dépendre les instructions qui vont suivre (Nous
pouvons dire que ces instructions « exigent » l’exécution de ce branchement et donc du test qui
permet de savoir si ce branchement doit être pris).
Cette méthode d’identification des instructions inutiles semble parfaite (même si elle ne prend
pas en compte certaines écritures silencieuses). Cependant, elle nécessite le déroulement complet du
programme afin de savoir si oui ou non une instruction dynamique du programme sera utile pour
un résultat final. De fait, cette méthode ne peut pas être utilisée directement pour éliminer « au
vol » les instructions inutiles. En revanche, elle permet d’exhiber de nombreux cas d’instructions
inutiles que les autres méthodes ne détectent pas. Par exemple, le cas d’une instruction inutile par
transitivité mis en évidence figure 1.1 sera détecté par cette méthode.
1.5.3 Mise en oeuvre
Comme décrit dans le sujet de stage, la mise en oeuvre de cette approche du travail inutile consis-tera
à élaborer un programme permettant de détecter les instructions dynamiques inutiles, d’après
la définition donnée ci-dessus, afin de faire des statistiques sur la quantité de travail inutile dans un
ensemble de programmes à tester. Différentes catégories de travail inutile pourront également être
mises en évidence (Ex : chargements inutiles, rangements en mémoire inutiles, calculs inutiles. . .).
Une fois les tests effectués, un travail de regroupement des applications testées selon les résultats
pourra être fait afin de dégager, éventuellement, des « motifs » de comportements permettant en-suite
de savoir quelles applications sont le plus concernées par quel type de travail inutile. Nous
pouvons imaginer, à partir de là, que des ébauches de solutions matérielles et/ou logicielles ne soient
17

trouvées pour réduire cette quantité de travail inutile. Cependant, l’objet du stage reste celui-ci :
« Concevoir et écrire un programme permettant de calculer la quantité de travail inutile dans un
programme particulier après son exécution » .
Dans ce sens, le travail à effectuer en stage sera, dans un premier temps, de réfléchir à la manière
de détecter quelles sont les instructions qui ont été exécutées inutilement lorsque l’exécution d’un
programme sera terminée (algorithme de construction puis d’exploration du graphe de dépendance
des instructions décrit dans cette section). Ces résultats devront ensuite être mis en forme afin de
dégager des statistiques sur la quantité de travail inutile (pourcentage d’instructions inutiles) et
sur la nature de ces instructions (de quel type d’instructions s’agit-il ?). Une fois cet algorithme
implémenté, il sera intéressant de le tester sur différent type de programme afin de savoir quelle
est la quantité de travail réellement inutile (d’après la définition donnée en introduction de cette
section) dans ces programmes.
En conclusion nous pouvons dire que l’approche retenue pour le stage est une démarche scien-tifique
expérimentale permettant de savoir quelle est la proportion globale de travail inutile dans
un programme. Si les résultats révèlent une grande quantité de travail inutile, de nombreuses
ouvertures paraissent possibles : Détection de ces instructions grâce à des compilateurs « intel-ligents
», détection de ces instructions « au vol » (approche déjà retenue par [1]), coopération
compilateur/matériel ou encore ajout de nouvelles instructions afin de faciliter leur détection.
18

1.6 Conclusion
En conclusion, nous pouvons dire que plusieurs manières d’éliminer le travail inutile ont déjà été
abordées (tant dans le domaine de la compilation qu’en architecture). En effet, lors de la compila-tion,
une certaine quantité de travail inutile peut déjà être supprimée (en fonction des informations
que le compilateur peut exploiter). Cependant, nous avons également vu que certaines optimisa-tions
de ces mêmes compilateurs génèrent des instructions inutiles. De fait, différentes méthodes ont
été proposées pour éliminer ce travail inutile lors de l’exécution (instructions dynamiques inutiles).
Une autre approche intéressante consistait à éliminer les écritures silencieuses, une autre forme de
travail inutile.
Après ce tour d’horizon global, il est assez difficile de savoir de manière précise quelle est la
quantité de travail inutile effectuée par un microprocesseur lors de l’exécution d’un programme.
C’est à cette question que va tenter de répondre le travail à venir en stage. . .
19

Chapitre 2
Compte rendu du stage
2.1 Introduction
2.1.1 Le travail inutile, qu’est ce que c’est ?
Le travail inutile est une notion difficile à cerner. Il existe différentes approches pour traiter le
problème du travail effectué inutilement par un programme. Tout d’abord, le travail inutile peut-
être de nature statique (détectable et supprimable lors de la compilation) ou de nature dynamique
(visible uniquement lors de l’exécution). L’élimination du travail inutile statique est déjà bien
connue et fait partie intégrante de toute chaˆıne de compilation optimisée digne de ce nom. Ici nous
nous intéresserons seulement au travail inutile de nature dynamique puisque ce dernier n’est pas
exploité par les processeurs ou les langages de programmation actuels.
Une fois le cadre du travail inutile dynamique posé, il est nécessaire de se donner une définition
précise du travail inutile afin de pouvoir en évaluer la quantité lors de l’exécution d’un programme
sur un jeu de données particulier de fa¸con automatique. Cette définition, dans un premier temps
très large, a été restreinte pour des raisons d’implémentation.
La définition prise comme base de départ à cette évaluation était la suivante :
Tout travail qui ne sert, ni directement, ni indirectement, à produire un résultat est jugé inutile.
De fa¸con plus précise :
Une instruction dynamique est considérée comme utile si
- Elle produit un résultat émis en sortie du programme (ex : affichage à l’écran).
- Elle produit un résultat utilisé comme opérande d’une instruction utile.
- C’est un branchement dominant une instruction utile.
20

Exemple simple :
instruction 1;
si booléen faire
instruction 2;
instruction 3;
fpour
instruction 4;
Dans cet exemple, le branchement conditionnel « domine » les instructions 2 et 3. Si le booléen
est vrai et que les instructions 2 et 3 sont inutiles, alors on peut considérer le branchement comme
inutile.
Note
Par abus de langage, dans la suite de ce document, nous désignerons toutes les instructions de
transfert de contrôle (branchement conditionnels et inconditionnels, sauts, appels de fonctions. . .)
par l’expression « instruction de branchement ».
En regardant cette définition de plus près, un problème se pose dans le cas général : Supposons
que l’instruction 2 soit un « store » qui range une valeur à une adresse mémoire, que l’instruction
4 soit un « load » et que le booléen soit à faux. Dans ce cas, si l’instruction 4 est considérée
comme utile et si les deux accès pointent sur la même adresse mémoire, alors le branchement devra
être considéré comme utile. Cependant, l’adresse de l’accès à la mémoire qui aurait pu être fait
par l’instruction 2 n’est pas connue puisque cette instruction n’a pas été exécutée. A cause de ce
type d’accès à la mémoire (dont l’adresse accédée n’est connue qu’à l’exécution) nous avons du
faire l’hypothèse conservatrice suivante : Toutes les instructions de branchements sont considérées
comme utiles.
Ce qui nous donne la définition suivante :
Une instruction dynamique est considérée comme utile si
- Elle produit un résultat émis en sortie du programme (ex : affichage à l’écran).
- Elle produit un résultat utilisé comme opérande d’une instruction utile.
- C’est un branchement.
Note
Par abus de langage, dans la suite de ce document, nous utiliserons le mot « ressource » pour
désigner soit un registre soit un emplacement mémoire.
Partant de cette nouvelle définition, l’objectif était de construire un graphe de dépendance de
donnée en reliant les instructions lisant une ressource à la dernière instruction ayant écrit dans cette
même ressource. De cette fa¸con, lorsqu’une ressource apparaˆıt comme utile (lorsque sa valeur est
écrite en sortie ou qu’elle est utilisée par une instruction de branchement), il devient possible, en
parcourant les arcs de ce graphe, de trouver toutes les instructions qui ont été utiles pour produire
21

ce résultat (le résultat est un graphe ressemblant à la figure 2.2 page 25).
2.1.2 Notre protocole de test
A partir de cette définition, nous avons essayé de mesurer la quantité de travail inutile dans des
petits programmes d’exemple, puis, une fois ces exemples validés, nous avons testé notre protocole
pour mesurer le travail inutile sur un programme plus conséquent et surtout n’ayant pas été con¸cu
dans le but d’en mesurer la quantité de travail inutile. Pour faire nos tests, nous avons choisi
l’utilitaire de compression/décompression de données gzip.
22

2.2 La méthode utilisée
2.2.1 L’algorithme
Pour construire notre graphe de dépendance de donnée, nous avons choisi d’instrumenter chaque
instruction assembleur afin de contrôler de fa¸con précise les entrées et les sorties de chacune d’elles.
Les entrées étant les opérandes d’une instruction (les ressources étant lues par l’instruction) et les
sorties étant les résultats d’une instruction (les ressources étant écrites par l’instruction).
Dans le cas général, notre implémentation de la détection de dépendance de donnée peut se
résumer par l’algorithme 1.
Algorithme 1: Construction du graphe de dépendance de donnée
Entrée : Programme dont on veut évaluer la quantité de travail inutile.
Données à fournir en entrée à ce programme.
Sortie : Graphe de dépendance de donnée dynamique.
1 pour chaque instruction exécutée faire
2 Créer une représentation interne de cette instruction;
3 L’ajouter à la liste des instructions dynamiques exécutées;
{Cette représentation interne contient des informations concernant l’instruction : son
numéro dynamique, le fichier source auquel elle appartient, son numéro statique dans ce
fichier, son type. . . }
4 pour chaque opérande de l’instruction {ressource lue} faire
5 Lire dans la table des ressources quelle est la dernière instruction qui a écrit dans
cette ressource;
6 Créer un lien de dépendance {arc dans le graphe} entre l’instruction courante et la
dernière instruction ayant écrit dans la ressource en question;
{Associe à l’opérande le numéro de l’instruction dynamique qui l’a produit}
fin
7 pour chaque résultat de l’instruction {ressource écrite} faire
8 Ecrire dans la table des ressources que l’instruction courante a modifiée l’état de
cette ressource;
fin
fin
Une fois cet algorithme exécuté sur un programme particulier, il est possible de connaˆıtre les
dépendances directes entre les instructions grâce aux arcs construits mais aussi les dépendances
indirectes grâce aux chemins formés par des suites d’arcs dans le graphe (le graphe de la figure 2.2
page 25 en est un exemple).
En ajoutant à l’algorithme précédent une condition dans la boucle principale permettant de
parcourir le graphe construit lorsqu’on rencontre une instruction de sortie (affichage), il devient
23

possible de connaˆıtre les instructions utiles lors de l’exécution d’un programme (d’après la première
définition donnée ci-dessus) (cf. algorithme 3).
Procédure Parcours du graphe (Noeud)
1 si le noeud est marqué inutile alors
2 Marquer ce noeud {représentant une instruction} comme étant utile;
pour chaque noeud opérande de ce noeud faire
3 Appeler la procédure Parcours du graphe (Noeud opérande);
fin
fin
Algorithme 3: Détection des instructions inutiles
Entrée : Graphe de dépendance de donnée dynamique.
Sortie : Quantité d’instructions dynamiques inutiles.
Localisation de ces instructions dans le code source.
pour chaque noeud du graphe faire
si le noeud représente une instruction de sortie ou de branchement alors
Appeler la procédure Parcours du graphe (Noeud);
fin
fin
Numéro d'instruction dynamique
Identificateur d'instruction statique
Type de l'instruction
Nombre d'opérandes
Liste des instructions ayant écrit en dernier dans les opérandes
Fig. 2.1 – La structure de donnée d’un noeud du graphe
Un point intéressant de cet algorithme, dont nous nous sommes rendu compte une fois l’implé-mentation
opérationnelle, est qu’il permet de détecter les accès fait en lecture à une zone mémoire
non initialisée préalablement. Par exemple, si un tableau de taille n est déclaré et initialisé, le fait
de tenter d’accéder à l’adresse de la zone mémoire n+1, qui n’a donc pas était initialisée, provoque
une incohérence dans l’algorithme puisqu’il est impossible de trouver la dernière instruction ayant
écrit dans cette zone mémoire (ligne 5 dans l’algorithme 1 page précédente). De cette fa¸con, il est
possible de trouver, lors de l’exécution, une erreur d’accès à la mémoire.
24

39
40 38
36
37
35
34
3
14
33
0
13
25
24
32
31
30
29
28
26
27
23
17
16
22
21
20 19
18
15
9
12 11
8
10
7
2
6
5
4
1
Dans ce graphe, les noeuds sont étiquetés par les numéros dynamiques des instructions (ordre
d’exécution). Les noeuds en gris sont des instructions inutiles alors que les noeuds en noir sont des
instructions utiles.
Les instructions dynamiques 4, 12 et 20 sont issues d’une seule et même instruction statique de
rangement en mémoire dont seulement une instance est utile : l’instruction dynamique numéro 12.
Fig. 2.2 – Exemple de graphe généré par l’algorithme 1 & 3
25

2.2.2 L’optimisation
Le gros problème de cette approche est que le graphe devient très rapidement énorme, même
avec des programmes de petite taille. En effet, étant donné qu’il faut conserver des informations
concernant chaque instruction dynamique jusqu’à la fin de l’exécution, seule une exécution ayant
un nombre réduit d’instructions dynamiques peut être envisagée (aux alentours de 300 000 dans
notre implémentation).
Nous avons donc tenté de réduire le graphe au maximum en éliminant au cours de l’exécution
les informations qui ne nous étaient plus nécessaires.
Ce qui est fait. . .
Dans un premier temps, pour réduire ce graphe et donc augmenter la taille des programmes
testables, nous avons décidé de supprimer à la volée les informations concernant les instructions
« certifiées » utiles. Ces informations étant le noeud représentant cette instruction et les arcs sor-tant
de celle-ci. Ces informations ne sont plus d’aucune utilité une fois que le parcours de l’arbre
dont cette instruction est la racine est effectué. Il est alors possible de les supprimer sans perdre
d’information utile à notre calcul de quantité de travail inutile. Cette méthode permet, à mesure
que le programme se déroule et envoi des informations en sortie, (affichage. . .) de réduire le graphe.
Il est alors d’autant plus réduit que la quantité de travail utile est importante (sur nos tests, le gain
réel en occupation mémoire est d’un facteur trois à quatre ce qui permet de tester des programmes
dépassant le million d’instructions dynamiques sans avoir un temps d’exécution rédhibitoire).
La courbe de l’occupation mémoire de l’algorithme au cours du temps devient alors identique
(à quelques détails d’implémentation près) à la courbe représentant la quantité de travail inutile
cumulé (figure 2.9 page 40).
Quelques petites optimisations ont aussi étaient apportées au programme concernant le temps
d’exécution. Bien que ce facteur ne soit pas le point crucial de notre algorithme, il semblait
intéressant de s’y pencher pour éviter d’avoir des durées de tests trop importantes.
Nous avons par exemple, à la ligne 1 de la procédure Parcours du graphe page 24, supprimé le
parcours d’une branche lorsque cette dernière possède comme racine une instruction utile. En effet,
si tel est le cas, cela signifie que cette branche a déjà été entièrement explorée et qu’il est inutile de
la parcourir à nouveau.
Ce qu’il reste à faire. . .
Dans un second temps, il est intéressant de voir que si une instruction écrit dans une ou plu-sieurs
ressources, puis que ces ressources sont de nouveau écrites sans être lues entre temps, les
informations concernant cette instruction inutile ne nous serviront jamais puisque cette instruction
ne sera jamais rendue utile (notion de « valeur morte »). De cette fa¸con, il est possible, ici encore,
26

de réduire notre graphe en supprimant les noeuds représentant ce type d’instructions ainsi que leurs
arcs sortants.
Une manière simple d’implémenter un tel mécanisme serait de considérer que chaque instruction
inutile est un objet et que les ressources (registres et zones mémoire) sont des moyens d’accéder à ces
objets. Si une instruction est accessible depuis au moins une ressource, alors il n’est pas possible
de supprimer les informations concernant cette instruction. En revanche, si aucune ressource ne
« référence » l’objet, alors cet objet est inaccessible depuis les ressources et le restera jusqu’à la fin
de l’exécution du programme. Cet objet peut donc être supprimé (noeud ainsi que ses arcs sortants).
Cette méthode s’apparente à un système de ramasse-miettes comme il est souvent mis en place dans
un environnement d’exécution pour libérer des zones mémoires n’étant plus référencées par aucun
pointeur.
2.2.3 Le résultat
La figure 2.3 page suivante est un exemple simple permettant de comprendre comment est
construit le graphe de dépendance de donnée à partir du code assembleur du programme dont on
veut évaluer la quantité de travail inutile.
Dans la figure 2.3 page suivante, les noeuds sources sont les instruction utiles par hypothèse (en
caractère gras). Ces instructions sont soit des instructions de sortie (print %valeur dans l’exemple)
soit des instructions de branchement (bne boucle dans l’exemple). Une fois ces instructions jugées
comme étant utile au programme, nous pouvons appliquer la définition récursive permettant de
trouver toutes les instructions ayant servi à produire les valeurs utiles à ces instructions. Ainsi,
dans notre exemple, l’instruction dynamique numéro 18 (print %valeur) possède comme entrée le
registre %valeur. Il est donc nécessaire de trouver la dernière instruction ayant écrit dans ce registre.
Cette instruction est l’instruction dynamique numéro 17 (load [@tab+2],%valeur). Ainsi de suite
récursivement, l’instruction dynamique numéro 17 possède comme entrée la seconde case du tableau
rangé à l’adresse mémoire @tab dont la dernière écriture a été faite par l’instruction dynamique
numéro 8 et ainsi de suite jusqu’à n’arriver qu’à des instructions n’ayant aucune entrée (copie
d’une constante dans un registre (mov 1,%indice dans l’exemple), instruction d’entrée au clavier
par l’utilisateur. . .).
De cette manière, en parcourant le graphe, il est possible d’identifier le travail utile. Les ins-tructions
n’étant accessible depuis aucune des sources (instructions de sorties ou de branchement)
sont identifiées comme étant du travail inutile (instructions dynamiques 2, 3, 12 et 13 dans notre
exemple).
Grâce à cet exemple, nous avons mis en évidence un cas simple comportant peu de travail inutile.
En revanche, il est facile de prendre conscience de l’importance que peut atteindre ce travail inutile
dès lors que le traitement à l’intérieur d’une boucle du type de celle présentée dans l’exemple devient
important. En effet, dans notre exemple, seule la multiplication par 10 et le rangement en mémoire
sont inutiles mais si la valeur à ranger dans le tableau avait été un calcul effectué par une fonction
comportant 10 000 instructions, les chiffres auraient été différents. De même, si la taille du tableau
avait été de 10 000 cases dont seulement une aurait été utilisée, la quantité de travail inutile aurait
été beaucoup plus importante. En revanche si, dans notre exemple, les trois cases du tableau avaient
27

1: mov 1,%indice
boucle:
2: mul %indice,10,%valeur
3: store %valeur,[%indice+@tab-1]
4: add %indice,1,%indice
5: cmp 4,%indice
6: bne boucle
7: load [@tab+2],%valeur
8: print %valeur
Code en assembleur RISC
(code statique)
Dépendances de données permettant d’identifier le travail
utile (arcs du graphe parcourus par l’algorithme).
Dépendance de donnée n’étant pas parcourues par
l'algorithme.
Trace d’exécution des instructions
(dynamique)
1ère itération de la boucle
2ème itération de la boucle
3ème itération de la boucle
Numéro
Dynamique
Numéro
Statique
123456789
10
11
12
13
14
15
16
17
18
123456234562345678
n Numéro d’instruction statique utile par essence
(instructions de sorties ou de branchement).
n Numéro d’instruction statique utile après parcours du
graphe de dépendance (définition récursive).
n Numéro d’instruction dynamique (indique l’ordre
d’éxécution des instructions dans le temps)
n
Numéro d’instruction statique jugés comme étant inutile
d’après la définition (instruction n’appartenant pas au
graphe de dépendance de données).
Compilation
Pour i de 1 à 3 faire
t[i] := i*10;
Finpour
Ecrire (t[2]);
Code source original
Fig. 2.3 – Du code source en langage de haut niveau au graphe de dépendance de donnée dynamique
été affichées (instruction print), la quantité de travail inutile aurait été nulle.
Un exemple plus complet montrant dans le détail comment l’algorithme a été implémenté est
en annexe (figure 3.2 page 59).
28

2.3 L’environnement de travail : Les choix de mise en oeuvre
2.3.1 Les Outils
Pour la mise au point de notre programme d’évaluation de la quantité de travail inutile, plusieurs
outils ont été mis à contribution :
- Salto : Salto est une bibliothèque de fonctions permettant d’analyser du code source en
assembleur pour en extraire les informations sémantiques sous une forme exploitable en C++.
Ces informations peuvent être de différentes natures : Il est possible de connaˆıtre le découpage
en blocs de base du code source, les ressources utilisées par une instruction précise (dans notre
cas, ce qui nous intéresse sont les accès à la mémoire et aux différents registres). De plus,
une des fonctionnalité indispensable à notre réalisation disponible dans Salto est la possibilité
d’instrumenter le code source (figure 2.4 page suivante).
- Le compilateur GCC pour processeur Sparc : Compilateur C/C++ gratuit sous licence GNU.
- Le compilateur CC pour processeur Sparc : Compilateur C propriétaire de Sun disponible
seulement pour la plateforme Sparc.
- Les expressions régulières en C.
2.3.2 L’instrumentation
L’instrumentation c’est quoi ?
L’instrumentation d’instruction est un mécanisme qui consiste à insérer des instructions supplé-mentaires
entre les instructions du code source d’un programme déjà établi afin « d’ausculter » ce
dernier. Les informations qu’il est possible de récupérer par ce mécanisme sont de nature dynamique
puisque les instructions rajoutées par instrumentation sont exécutées autant de fois que le sont les
instructions appartenant au code source d’origine. Prenons comme exemple le cas d’une boucle
dont le corps est exécuté n fois, alors le code rajouté par instrumentation du code source d’origine
dans le corps de cette boucle sera lui aussi exécuté n fois. Ceci permet de savoir de fa¸con précise
quelles sont les instructions statiques qui ont été exécutées par le processeur séquentiellement. De
plus, l’instrumentation permet de récupérer d’autres informations dynamiques comme les adresses
des accès à la mémoire.
Dans l’exemple de la figure 2.4 page suivante, le code source original est instrumenté afin de
récupérer la valeur du résultat produit par l’instruction à instrumenter et pour le traiter dans la
fonction fct (tmp étant par exemple un registre de débuggage dont le code source original ne fait
jamais usage mais qui peut être utilisé par la fonction fct pour effectuer son traitement).
29

mov r1,r2
add r2,3,r2
store r2,[a0]
Code source
mov r1,r2
mov r2,tmp
call fct
add r2,3,r2
mov r2,tmp
call fct
store r2,[a0]
load [a0],tmp
call fct
Code source
instrumenté
instrumentation
Fig. 2.4 – Instrumentation de code source en assembleur
Note
Dans l’exemple de la figure 2.4, les instructions sont instrumentées après leur exécution, ce
qui n’est pas le cas dans notre implémentation : l’instrumentation se trouve avant l’exécution de
l’instruction pour des raisons de suivi des branchements (pour pouvoir instrumenter correctement
les branchements, il est nécessaire de placer le code d’instrumentation avant ceux-ci).
L’instrumentation dans notre programme
L’instrumentation, dans le cas général, permet d’insérer des instructions dans un programme. A
partir de ce concept simple, nous avons décidé d’utiliser l’instrumentation pour insérer des appels
de fonctions (écrites en C et compilées par ailleurs). De fait, les appels de fonctions en assembleur
ne faisant pas de sauvegarde des registres globaux (accessible de n’importe où dans le programme).
Il nous a fallu ajouter à cette instrumentation une sauvegarde de contexte avant l’appel à cette
fonction puis une restauration après (figure 2.5 page suivante). Mais ce n’est pas tout : Chaque
instruction assembleur ayant un nombre variable d’opérandes et de résultats, il nous a fallu ajouter
une instruction d’appel à une fonction pour chaque opérande et pour chaque résultat. De plus,
chaque accès à la mémoire nécessitant la récupération de l’adresse de cet accès, il nous a fallu
récupérer des informations sur la valeur des registres utilisés par l’instruction à instrumenter afin
de savoir quelle était l’adresse de cet accès mémoire.
L’instrumentation d’une instruction dans notre programme d’évaluation de la quantité de travail
inutile peut-être résumée en sept phases :
– Sauvegarde : Une phase de sauvegarde du contexte (registres globaux, décalage de la fenêtre
de registres. . .).
– Début : Une phase de création de la structure de donnée représentant une instruction (fi-gure
2.1 page 24).
– Opérandes : Une phase permettant de créer les arcs vers les instructions ayant écrit en
dernier dans les ressources opérandes de l’instruction.
30

inst1
inst2
inst3
Code source
sauvegarde
call fct
restauration
inst1
sauvegarde
call fct
restauration
inst2
sauvegarde
call fct
restauration
inst3
Code source
instrumenté
instrumentation
Fig. 2.5 – Principe de l’instrumentation faite par le programme d’évaluation de la quantité de
travail inutile
– Milieu : Une phase, utile seulement pour les instruction « save » et « restore », permettant
de mettre à jour le niveau de la fenêtre de registres.
– Résultats : Une phase permettant de mettre à jour l’état des ressources en fonction des
résultats produits par l’instruction.
– Fin : Une phase permettant d’évaluer l’utilité de l’instruction courante. Si cette dernière est
utile, on parcour son arbre de dépendance de donnée.
– Restauration : Une phase de restauration du contexte.
2.3.3 Le choix de la Plateforme
Pour choisir notre plateforme de travail, nous avons pris en compte plusieurs paramètres. Nous
avions le choix entre le jeu d’instruction x86 (CISC) et le jeu d’instruction Sparc (RISC). En premier
lieu, l’outil mis à notre disposition (Salto) semblait plus adapté à un jeu d’instruction réduit.
En effet, Salto étant basé sur la reconnaissance des instructions assembleur par des expressions
régulières, il est très difficile de supporter un jeu d’instruction aussi vaste que le x86 d’Intel (CISC).
De fait, le support d’un tel jeu d’instruction par Salto est apparu comme étant insuffisant. De plus,
le travail à effectuer étant, entre autre, d’identifier les accès à la mémoire, un jeu d’instruction
réduit avec seulement une instruction pour le chargement et une pour le rangement en mémoire
nous est apparu plus simple à manipuler. Cependant, le Sparc possède quelques inconvénients qui,
nous le verrons plus loin, ne nous ont pas facilité la tâche. Nous avons donc décidé de travailler
avec un jeu d’instruction RISC pleinement supporté par Salto : le Sparc de Sun.
31

2.3.4 SPARC : Le Meilleur des Mondes ?
Le Sparc est une architecture RISC assez classique ce qui signifie que le nombre d’instructions
est assez réduit, qu’elles ont toutes la même taille (quatre octets pour le Sparc) et que, chose
relativement importante pour notre implémentation, les instructions d’accès à la mémoire sont au
nombre de deux (load pour charger une valeur de la mémoire vers un registre et store pour ranger
une valeur d’un registre vers la mémoire). Tout aurait été parfait si la description du Sparc s’était
arrêtée là. . .
- Le delay slot est une des particularités de l’architecture Sparc. Il s’agit d’exécuter l’instruc-tion
qui suit immédiatement une instruction de branchement avant que cette instruction de
branchement ne modifie le flot de contrôle de l’exécution du programme. Pour résumer, l’ins-truction
qui se trouve dans le delay slot d’un branchement (elle se trouve juste après dans le
code source) se comporte comme si elle se trouvait avant le branchement pour ce qui est du
contrôle mais comme si elle était après pour ce qui est des données.
- L’annul bit est une autre particularité « amusante » du Sparc qui est en relation directe avec le
delay slot. Lorsqu’une instruction se trouve dans le delay slot d’un branchement dont l’annul
bit est activé, (be,a : la virgule et le a indique que l’annul bit est activé) cette instruction ne
s’exécute que lorsque le branchement est pris. Dans le cas contraire, l’instruction se trouvant
dans le delay slot n’est pas exécutée (on dit qu’elle est annulée).
- La fenêtre de registres tournante est une fa¸con de pallier à la lenteur des accès à la pile lors du
passage de paramètres à une fonction. En effet, le Sparc se propose de résoudre le problème
du passage de paramètres à une fonction de manière originale au moyen de cette fenêtre de
registres tournante. Il s’agit de ranger les valeurs que l’on souhaite passer en paramètres à
la fonction qui va être appelée dans des registres spéciaux nommés registres de sortie (%o0
à %o5) qui, une fois la fonction appelée, seront renommés en registres d’entrée (%i0 à %i5)
(cf. figure 2.6 page suivante). De cette fa¸con, la fonction appelée peut se servir de ces valeurs
sans qu’elles n’aient été recopiées dans une quelconque pile (à l’exception du cas où la taille
de la fenêtre de registres tournante n’est pas suffisante).
Le delay slot
Dans notre implémentation, nous avons du prendre en compte cette particularité de l’archi-tecture
Sparc. En effet, afin d’instrumenter les instructions se trouvant dans le delay slot d’un
branchement, nous avons du utiliser différentes techniques consistant à « remonter » notre instru-mentation
de ce type d’instructions avant le branchement. Ceci à conduit à pas mal de problèmes
de cohérence entre la représentation des instructions créées par l’instrumentation et les instructions
réellement exécutées.
Mais le cas où le delay slot nous a posé le plus de problème est celui où il nous a fallu ajouter des
sauts afin d’éviter l’exécution de certaines instructions. En effet, dans ce cas, si l’instruction que l’on
veut « sauter » se trouve dans le delay slot d’un branchement, il faut dupliquer cette instruction
des branchement : mettre dans le code source une version normale avec l’instruction qui se trouvait
dans son delay slot dans le code source d’origine et une seconde version du même branchement
contenant un nop dans son delay slot. De cette fa¸con, selon que l’instruction se trouvant dans le
32

delay slot de ce branchement doit être exécutée ou non, le flot de contrôle est aiguillée vers l’une
ou l’autre des deux versions de ce branchement. Il faut ensuite faire converger les deux versions en
un même point représentant la suite du programme.
La fenêtre de registres du Sparc
La fenêtre de registre tournante est une des particularité du processeur Sparc. Nous allons en
expliquer rapidement le principe afin d’exposer la manière dont nous avons traité cette particularité
dans notre programme.
Registres de sortie
%o0 à %o7
Registres locaux
%l0 à %l7
Registres d’entrée
%i0 à %i7
Registres accessibles
au niveau n+1
niveau n
Registres de sortie
%o0 à %o7
Registres locaux
%l0 à %l7
%i0 à %i7
Désigne les mêmes
registres physiques
Registres de sortie
%o0 à %o7
Registres locaux
%l0 à %l7
%i0 à %i7
niveau n+2
Désigne les mêmes
registres physiques
L’instruction « save » permet de passer d’un niveau n à un niveau n+1 (utilisé généralement comme
une sauvegarde de contexte avec en plus la possibilité de passer des paramètres d’un contexte à
l’autre au niveau de la zone de recouvrement de la fenêtre n et n+1).
L’instruction « restore » permet de passer d’un niveau n à un niveau n-1 (utilisé généralement
comme une restauration de contexte avec en plus la possibilité de passer des résultats d’un contexte
à l’autre au niveau de la zone de recouvrement de la fenêtre n et n-1).
Fig. 2.6 – Le principe de la fenêtre de registres du Sparc
Lorsque le nombre de registres utilisés dépasse le nombre de registres physiques réellement
présents dans le processeur, un mécanisme invisible pour l’utilisateur utilise une pile en mémoire
pour sauvegarder la fenêtre de registres la plus ancienne et réutiliser ainsi cette dernière comme
une nouvelle fenêtre vierge. De cette fa¸con, le nombre de registres virtuellement utilisables par
l’utilisateur n’est limité que par la taille de la pile et non par la taille du fichier de registres dans le
processeur. Cette fenêtre est souvent représentée, dans les différentes documentations sur le Sparc,
de fa¸con circulaire pour montrer que la plus ancienne fenêtre et la plus récente peuvent se recouvrir
si le nombre de fenêtres disponibles dans le fichier de registres est insuffisant pour l’exécution d’un
programme donné.
33

2.3.5 S’affranchir de la numérotation des registres faite par Salto
Les registres du Sparc s’organisent en deux parties. D’une part, des registres dit globaux qui se
comportent de manière classique, et d’autre part une fenêtre de registres coulissante comme décrit
sur la figure 2.6 page précédente. Pour les registres globaux, nous avons utilisé la numérotation
proposée par Salto qui convenait tout à fait étant donné qu’un nom de registre désigne toujours le
même registre physique.
En revanche, pour la fenêtre de registres coulissante, nous avons du mettre en place notre propre
système d’identification de registres :
En effet, Salto étant un outil qui travaille sur du code assembleur, il lui est impossible d’avoir
accès à des informations concernant l’exécution du programme (les seules informations disponible
au niveau de Salto sont les informations statiques sur le programme). De fait, les informations
que nous donne Salto concernant les accès aux registres sont les noms de ces registres. Il lui est
impossible de connaˆıtre le niveau de la fenêtre de registre en un point donné du code et donc de
désigner un registre physique de manière unique. Afin d’identifier de manière unique chacun des
registres physiques, il a donc fallu s’affranchir du système de numérotation des registres proposé
par Salto pour le remplacer par un calcul fait de manière dynamique (au cours de l’exécution du
programme) permettant de savoir à quel registre physique correspondait chaque accès à un registre
appartenant à la fenêtre de registre courante.
Pour ce faire, nous avons instrumenté les instructions save qui décalent la fenêtre de registre
vers le haut et les instructions restore qui décalent la fenêtre de registre vers le bas (cf. figure 2.6
page précédente). De cette fa¸con, il est possible de tenir à jour une variable globale indiquant le
niveau actuel de la fenêtre de registre. En utilisant ce niveau comme décalage par rapport à un
point de référence, (la première fenêtre disponible lors du lancement du programme) il est possible
de savoir dans quelle fenêtre de registre seront fait les accès aux registres de la fenêtre courante
indiqués par Salto.
Grâce à cette méthode, il est possible d’identifier de manière unique chacun des registres d’une
fenêtre précise même si celle-ci peut avoir été sauvegardée dans la pile par manque de place dans
le fichier de registres. Les accès à ces registres restent ce qu’ils sont puisque cette opération est
transparente pour l’utilisateur du processeur (en l’occurrence notre programme).
2.3.6 Les expressions régulières
L’utilisation des expressions régulières est particulièrement utile pour analyser une chaˆıne de
caractères ayant un motif fixe et une partie variable. C’est justement le cas d’une instruction
assembleur dont la partie fixe est le mnémonique de cette instruction et dont les parties variables
sont les arguments.
De cette fa¸con, nous avons utilisé les expressions régulières pour « découper » les instructions
load et store en plusieurs parties : le mnémonique d’une part (permettant de connaˆıtre la taille de
l’accès à la mémoire : octet, mot, double mot ou quadruple mot) et les arguments d’autre part. Une
34

fois chaque argument récupéré, il est possible d’accéder aux valeurs contenues dans les registres
et aux éventuelles constantes. Il est donc possible de connaˆıtre de fa¸con exacte à quelle adresse
mémoire va accéder l’instruction et à combien d’octets elle va accéder.
De plus, les expressions régulières nous ont été utiles pour récupérer les étiquettes des appels
de fonctions afin de savoir si ces fonctions étaient définies en local (dans le code source du pro-gramme
étudié) ou si elles appartenaient à une bibliothèque externe au programme (stdio en C
par exemple).
2.3.7 La gestion des fonctions
Une fois notre définition implémentée et testée, il reste encore de nombreux problèmes à résoudre
pour pouvoir confronter cet algorithme au « monde réel » (à des programmes classiques tel que
gzip). En effet, ce modèle théorique serait parfait si l’ensemble du code source assembleur d’une
application était visible par le programme d’évaluation. Or les programmes classiques utilisent des
fonctions définies dans des bibliothèques dont on n’a pas le code source (Un programme en C
travaillant sur des fichiers utilisera par exemple stdio pour lire et écrire dans un fichier). Afin de
régler cette difficulté, nous avons du utiliser l’options de compilation -SO de cc permettant de savoir
quels sont les registres du Sparc et les adresses mémoires utilisées dans la pile comme paramètres
lors de l’appel à une fonction. Ainsi, il nous a été possible de rajouter « artificiellement » des arcs
de dépendance entre l’appel à une fonction définie dans une bibliothèque externe (call printf
par exemple) et les paramètres passés à cette fonction. Pour cette raison, cc pour Sparc est apparu
comme étant idéal dans notre protocole de test.
Afin de résoudre ce problème, les fonctions appelées par le programme étudié ont été classées
en trois catégories, chacune correspondant à un traitement particulier à faire pour les prendre en
compte correctement :
Les fonctions « internes »
Les fonctions internes sont les fonctions dont le code source est disponible (peut-être utilisé par
notre programme d’évaluation). Les appels à ce type de fonctions peuvent donc être traités comme
de simple branchements inconditionnels puisque les arcs du graphe de dépendance peuvent très bien
relier une instruction appartenant à cette fonction à une instruction appartenant au programme
appelant. Le graphe de dépendance de donnée n’est donc pas interrompu par un tel appel de
fonction.
Les fonctions « externes » utilisant des pointeurs
Les fonctions externes sont les fonctions dont le code source n’est pas disponible (code source
d’une bibliothèque d’entrée/sortie par exemple). Dans ces cas là, il est nécessaire de considérer que
les paramètres passés à la fonction sont lus par l’instruction d’appel de la fonction et que le résultat
35

est écrit par cette instruction.
Cependant, dans le cas général, il est nécessaire de détourner l’appel à une telle fonction pour
faire ajouter « artificiellement » des arcs de dépendance de donnée pour traiter les données qui
vont être lues et écrites à l’intérieur de cette fonction. En effet, notre programme est incapable
de connaˆıtre le type des paramètres d’une fonction (si il s’agit d’entiers, de pointeurs. . .) et donc,
de savoir si une fonction définie dans une bibliothèque dont on n’a pas le code source accède ou
non à une zone mémoire dont l’adresse est un de ses paramètres. De plus, même en sachant qu’un
paramètre est un pointeur, rien ne dit si la fonction dont on n’a pas le code source va y accéder
en lecture, en écriture ou pire encore, à combien d’éléments elle va accéder ! (Il ne faut pas oublier
qu’en C les tableaux sont implicites et que, par conséquent, on ne connaˆıt pas leur taille simplement
en connaissant l’adresse de leur premier élément). Afin de régler cette difficulté, nous avons choisi de
détourner les appels à ces fonctions (au nombre de trente cinq dans gzip) afin de leur faire exécuter
du code permettant de simuler leur comportement en matière d’accès à la mémoire. Ces fonctions
sont, le plus souvent des fonctions d’entrées/sorties (ex : read, write, fflush. . .), des fonctions de
lecture/écriture dans des chaˆınes de caractères (ex : strcat, strcpy, strcmp. . .) ou des fonctions
de lecture/écriture de zones mémoire en général (ex : memset, memcpy, memcmp. . .).
Exemple simple :
char *my_strcpy(char *c1, const char *c2)
{
/* On simule un accès en lecture à une zone mémoire débutant à l’adresse
contenue dans le pointeur c2 et de longueur strlen(c2)+1 (taille de la
cha^ıne de caractère à lire avec son terminateur) */
instrumentationEntreeMemoire((int)c2, strlen(c2)+1);
/* On simule un accès en écriture à une zone mémoire débutant à l’adresse
contenue dans le pointeur c1 et de longueur strlen(c2)+1 (taille de la
cha^ıne de caractère à copier avec son terminateur) */
instrumentationSortieMemoire((int)c1, strlen(c2)+1);
/* On retourne la valeur retournée par la vraie fonction strcpy */
return strcpy(c1, c2);
}
Les fonctions « externes » n’utilisant pas de pointeurs
Les fonctions externes n’utilisant pas de pointeurs sont des fonctions dites externes d’après la
définition ci-dessus à la différence qu’elles ne font pas d’accès à la mémoire à partir de pointeur.
Elles peuvent donc être traitées simplement en considérant que les paramètres passés à la fonction
sont lus et que le résultat est écrit.
36

2.4 Résultats & Analyse
2.4.1 Les chiffres. . .
Une fois l’évaluation de la quantité de travail inutile effectuée de cette manière, nous obtenons
les chiffres suivants (cf. figure 2.7).
gzipa gzipb gzipc
O0d 11.03 % 9.53 % 11.03 %
O1 12.05 % 10.73 % 16.44 %
O2 11.40 % 10.28 % 16.17 %
O3 12.77 % 12.10 % 21.83 %
O4 12.66 % 12.55 % 23.35 %
O5 12.66 % 12.55 % 23.35 %
gunzipe gunzipf gunzipg
O0 1.09 % 1.14 % 0.21 %
O1 2.94 % 3.10 % 0.29 %
O2 3.51 % 4.28 % 0.41 %
O3 10.01 % 10.51 % 0.47 %
O4 9.83 % 10.26 % 0.52 %
O5 9.83 % 10.26 % 0.52 %
aCompression d’un fichier texte (RTF) de 2127 octets avec gzip (fort taux de compression (facteur : 1.9))
bCompression d’un fichier image (GIF) de 1704 octets avec gzip (faible taux de compression (facteur : 1.4))
cRe-compression d’un fichier compressé par gzip de 1506 octets avec gzip (taux de compression nul (facteur : 0.98))
dSeuls ces résultats ont été validés avec le programme de vérification pour des raisons d’implémentation
eDécompression du fichier texte de 2127 octets
fDécompression du fichier image de 1704 octets
gDécompression du fichier compressé deux fois par gzip de 1506 octets
Conditions de test : gzip version 1.2.4 recompilé avec cc de Sun pour le processeur Sparc version
v8plus. Ces chiffres s’entendent en ne comptant pas les éventuelles instructions nop qui se trouvent
dans le delay slot de certaines instructions de branchement.
Fig. 2.7 – Quantité d’instructions assembleurs inutiles lors de l’exécution de gzip dans différentes
conditions
2.4.2 Le doute. . .
Introduction
Ces chiffres n’étant qu’une évaluation, rien ne permet de dire avec certitude que ce travail est
effectivement inutile. D’autant plus que l’implémentation laisse souvent apparaˆıtre des failles que
l’on n’imagine pas lorsqu’on raisonne de fa¸con abstraite sur les dépendances de données (la gestion
des fonctions dont on n’a pas le code source en est un exemple). Afin de valider notre programme
et d’avoir la certitude que le travail inutile évalué en était bien, nous avons mis au point un second
programme ré-exécutant exactement le même programme de test (gzip dans notre cas) sur le même
jeu de données (avec le même fichier en entrée) en n’exécutant pas les instructions qui avaient été
jugées comme étant inutiles lors de la première exécution. Ainsi, si la seconde exécution donne
rigoureusement le même résultat que la première (le même fichier compressé dans le cas de gzip),
nous pouvons dire que les deux exécutions sont équivalentes et que, par conséquent, les instructions
qui n’ont pas été exécutées lors de la seconde exécution n’étaient effectivement pas utiles.
37

somewhere :
sub r3,r4,r5
...
mov r1,r2
add r2,3,r2
cmp 0,r2
be somewhere
store r2,(a0)
...
Code source
mov r1,r2
add r2,3,r2
cmp 0,r2
be somewhere
sub r3,r4,r5
...
Trace dynamique de la
première exécution
(détection du travail inutile)
mov r1,r2
add r2,3,r2
cmp 0,r2
be somewhere
store r2,(a0)
...
Trace dynamique de la
deuxième exécution (non
exécution du travail inutile)
L'instruction add est jugée inutile :
elle ne sera donc pas exécutée
lors de la seconde exécution
Fig. 2.8 – Mise en évidence d’un problème d’implémentation par divergence du flot de contrôle
Note
Reproduire une exécution à l’identique ne fonctionne que sur un programme déterministe : deux
exécutions successives sur un même jeu de donnée doivent s’exécuter rigoureusement de la même
manière. De fait, il serait complexe de traiter des programmes utilisant des fonctions de tirages
aléatoires ou conservant des informations d’une exécution sur l’autre (cache dans un fichier par
exemple). Ce n’est pas le cas de gzip ce qui nous a permis de mener nos tests de fa¸con correcte
sur ce programme.
L’intérêt
Un aspect très intéressant de l’utilisation de ce programme de vérification est qu’il a permis
d’affiner le programme d’évaluation de la quantité de travail inutile. En effet, en observant les
divergences entre la première et la seconde exécution (figure 2.8), il a été possible de trouver les
points faibles du programme d’évaluation de la quantité de travail inutile et de les consolider afin de
rendre les deux exécutions équivalentes. Par exemple, lorsque la seconde exécution du programme
de test divergeait de la première (un branchement pris alors qu’il n’aurait pas du par exemple), cela
signifiait qu’une instruction utile au flot de contrôle avait était jugée comme étant inutile à tort. De
cette manière, il a été possible de trouver les incorrections du programme d’évaluation du travail
inutile et surtout de mettre en lumière les lacunes d’une implémentation trop « na¨ıve » par rapport
aux appels de fonctions définies dans des bibliothèques dont le code source n’est pas disponible.
Dans l’exemple de la figure 2.8, le branchement be (branch if equal) est pris lors de la première
exécution alors qu’il n’est pas pris lors de la seconde, ce qui entraˆıne une incohérence entre les deux
38

exécutions qui ne sont alors plus équivalentes. Ceci se produit en raison d’un mauvais jugement
porté sur l’instruction add. En effet, celle-ci est utile au bon déroulement du programme alors
qu’elle a été jugée comme ne l’étant pas par le programme de détection du travail inutile. Grâce à
ce système, il est facile de corriger les incorrections et imprécisions que comporte le programme de
détection du travail inutile. Par processus incrémental, il est alors possible de corriger ces erreurs
une à une jusqu’à l’obtention d’un programme qui ne juge inutile que du travail réellement inutile
(Ce qui ne prouve pas pour autant qu’il détecte tout le travail inutile que peut comporter un
programme).
La Méthode
Pour pouvoir mettre au point ce deuxième programme, il faut tout d’abord que le programme
d’évaluation de la quantité de travail inutile laisse une trace des instructions inutiles dans un
fichier qui sera utilisé par le programme de vérification. Pour la mise au point de ce programme de
vérification, Salto a, là encore, été sollicité afin d’instrumenter chaque instruction. Lorsque cette
instruction est jugée inutile (d’après la trace de la première exécution) alors cette instruction est
sautée au moyen d’un jump d’une valeur constante puisque, dans les processeurs Sparc, toutes les
instructions ont une taille de quatre octets (« merci » les jeux d’instructions RISC). De cette fa¸con,
il est assez facile de « sauter » une instruction lorsqu’elle apparaˆıt dans la trace des instructions
inutiles.
Conclusion
Ce programme à permis, sur des exemples simples, de vérifier que la quantité de travail inutile
évaluée était bien du travail inutile quelque soit le niveau d’optimisation utilisé et les cas de figure
rencontrés. Cependant, par manque de temps, nous n’avons réussi à le faire fonctionner que sur gzip
compilé avec un niveau d’optimisation de 0. Néanmoins, cette vérification nous à permis d’accroˆıtre
la confiance en nos résultats (figures 2.7 page 37 et 2.9 page suivante).
2.4.3 La répartition du travail inutile
Une fois les informations sur le travail inutile lors de l’exécution d’un programme récupérées,
il est nécessaire de les organiser afin de pouvoir analyser d’ou provient ce travail inutile. Dans
un premier temps, nous avons essayé de voir à quelles instructions statiques correspondaient nos
instructions dynamiques inutiles. Nous avons trouvé, sans surprise étant donné les résultats de
l’article [1], que seul un petit nombre d’instructions statiques étaient concernées. Ce qui signifie
que la plupart des instructions dynamiques inutiles sont concentrées sur un nombre d’instructions
statiques réduit (de l’ordre de 12.4 % des instructions statiques totales génèrent au moins une
instance dynamique inutile). Une fois ces instructions statiques en assembleur identifiées, nous
avons cherché à « remonter », lorsque c’était possible, au code source en C correspondant afin
de mieux comprendre la raison pour laquelle ce travail est jugé comme étant inutile par notre
définition.
39

108876.0
90730.0
72584.0
54438.0
36292.0
18146.0
0.0
Compression d’un fichier RTF de 2127 octets
Algorithme GZIP compile avec cc et un niveau d’optimisation de 0
0.0 268685.0 537370.0 806055.0 1074740.0
(a) Sans optimisations de compilation
53388.0
44490.0
35592.0
26694.0
17796.0
8898.0
0.0
Compression d’un fichier RTF de 2127 octets
Algorithme GZIP compile avec cc et un niveau d’optimisation de 5
0.0 105695.0 211390.0 317085.0 422780.0
(b) Avec optimisations de compilation
Abscisse : Numéro d’instruction dynamiques : représente le temps écoulé en nombre d’instructions
Ordonnée : Quantité d’instructions inutiles (cumulées)
Fig. 2.9 – Évolution de la quantité de travail inutile en fonction du temps
Travail inutile algorithmique
Introduction En observant les courbes de la figure 2.9 on s’aper¸coit que l’algorithme de gzip,
dans nos conditions de test, se décompose en plusieurs phases générant chacune des quantités de
travail inutile différentes. En premier lieu, il est intéressant de noter que la phase d’initialisation
comporte une grande proportion de travail inutile (presque 50 % avec un niveau d’optimisation
de 0 et plus de 50 % avec un niveau de 5). Ensuite, vient une courte phase durant laquelle aucun
travail inutile n’est présent (quelque soit le niveau d’optimisation).
Vient ensuite un ensemble de phases que nous appellerons le coeur de l’algorithme durant lequel
on observe une quantité de travail inutile moyen non négligeable avec un niveau d’optimisation de
0 (de l’ordre de 6,9 %) et plus important encore avec un niveau d’optimisation de 5 (de l’ordre de
9,9 %).
La phase d’initialisation Dans certains cas, le travail inutile semble être d’origine algorith-mique.
En effet, en observant le code source en C de gzip, il apparaˆıt parfois du travail inutile qu’il
serait simple d’éviter en modifiant une petite partie du code. De fait, nous pouvons dire que ce
travail inutile est inhérent à la fa¸con dont l’algorithme de gzip est implémenté.
De plus, étant donné une très forte proportion de travail inutile durant la phase d’initialisation
des structures de données utiles à l’algorithme de gzip (aux alentours de 50%), il semble raisonnable
de penser qu’une très grande partie de ces structures de données sont initialisées puis jamais utilisées
ou réutilisées pour être écrites (ce qui génère des valeurs mortes). Ce type de travail inutile semble
40

être réellement inhérent à l’algorithme et non du à une mauvaise implémentation de celui-ci.
Exemple simple :
Dans la fonction local void gen codes (tree, max code), on observe que le code source
suivant est inutile la plupart du temps (lors de l’exécution sur un fichier de test) :
for (bits = 1; bits <= MAX_BITS; bits++) {
next_code[bits] = code = (code + bl_count[bits-1]) << 1;
}
L’affectation dans le tableau next code est inutile 52 fois sur 60 dans l’exemple testé (le nombre
d’itérations de la boucle est MAX BITS et est égal à 60). Le fait que cette affectation soit inutile un
certain nombre de fois engendre qu’une partie des calculs fait dans la boucle devient inutile. Ce
qui nous donne, pour l’ensemble de la boucle, un nombre de 824 instructions inutiles pour 1440 au
total (soit une proportion de 57 %).
Etant donné ces résultats, il est intéressant de se pencher sur le cas de l’initialisation des
structures de données en général. En effet, le premier réflexe d’un programmeur, lorsqu’il déclare
une structure de donnée (tableau, liste. . .) est de l’initialiser pour éviter, par la suite, d’y faire
un accès en lecture sans y avoir préalablement rangé une valeur. Or ce réflexe de programmation
est probablement ce que nous observons ici étant donné que les structures de données de gzip
n’échappent apparemment pas à cette règle.
Le coeur de l’algorithme Au coeur de l’algorithme, nous observons différents cas d’instructions
dynamiques inutiles. Parfois, nous observons que le travail inutile est du à l’initialisation de va-riables
locales dont le contenu est, la plupart du temps, ré-écrit avant d’être lu. Parfois, il s’agit de
paramètres passés à une fonction et qui ne servent que dans certaines conditions. Et enfin, un cas
assez fréquent également est celui des variables globales qui sont maintenues à jour de fa¸con inutile.
En effet, si une telle variable reflète une valeur lors du dernier passage dans une certaine fonction,
il est possible que cette fonction soit appelée plusieurs fois sans que cette valeur n’ai été lue entre
temps.
Exemples :
L’affectation prev match = match start ; peut-être inutile car la seule utilisation de la variable
prev match en lecture est le cas suivant :
if (prev_length >= MIN_MATCH && match_length <= prev_length) {
check_match(strstart-1, prev_match, prev_length);
flush = ct_tally(strstart-1-prev_match, prev_length - MIN_MATCH);
...
}
41

Ce qui signifie que lorsque la condition ci-dessus sera fausse, l’affectation de la variable prev match
sera inutile (c’est le cas 78 fois 82 dans notre test). En supposant que le calcul de la valeur de la
variable match start puisse être coûteux, et que cette variable ne soit pas ré-utilisée en lecture
entre temps, on prend conscience de la portée que peut avoir le travail inutile.
Note
Dans l’exemple précédent, il est intéressant de noter que le déplacement de l’instruction d’affec-tation
prev match = match start ; dans le corps de la conditionnelle aurait suffit à éliminer
ce travail inutile (dans la mesure où on ne fait pas d’écriture dans match start entre temps).
En effet, la variable prev match n’étant utilisée que dans ce bloc, il est inutile de faire cette
affectation si la condition n’est pas vraie.
Une macro un peu particulière a également retenu notre attention. Elle se trouve au coeur de
l’algorithme de compression, dans la fonction deflate(). Il s’agit de la macro INSERT STRING qui
insère une chaˆıne de caractère dans la liste des chaˆınes de caractères qu’utilise gzip pour trouver
les chaˆınes les plus fréquemment présentes dans le fichier à compresser.
Voici le code de cette macro après passage du pré-processeur :
((ins_h = (((ins_h)<<((15+3-1)/3)) ^
( window[(strstart) + 3-1])) &
((unsigned)(1<<15)-1)),
prev[(strstart) & (0x8000-1)] = hash_head = (prev+0x8000)[ins_h],
(prev+0x8000)[ins_h] = (strstart));
Pour des raisons de lisibilité, nous avons ré-écrit ce code :
ins_h = ( ins_h<<5 ^ window[strstart+2] & (unsigned)(1<<15)-1 );
hash_head = (prev+0x8000)[ins_h];
prev[strstart & (0x8000-1)] = hash_head;
(prev+0x8000)[ins_h] = strstart;
Dans cette macro, qui se trouve au coeur de l’algorithme de compression, les deux dernières
instructions (remplissage du tableau prev) se trouvent être très souvent inutile (77 fois sur 82 dans
notre exemple). Ceci tend à montrer que l’algorithme de compression utilisé par gzip contient, par
nature, du travail inutile.
Travail inutile introduit par le compilateur. . .
. . . lors des phases d’optimisation de compilation On observe également que la version
compilée avec un niveau d’optimisation de 0 présente une quantité globale de travail inutile moins
important (proportionnellement) à la version compilée avec un niveau d’optimisation de 5. De plus,
42

l’écart entre les deux versions s’accentue dans le coeur de l’algorithme. En effet, durant la phase
d’initialisation, les deux versions se comportent à peu près de la même fa¸con (aux alentours de
50 % de travail inutile) alors que dans le coeur de l’exécution, la version non optimisée comporte en
moyenne 6.9 % de travail inutile à comparer aux 9.9 % observé dans le cas de la version optimisée.
Ce phénomène avait déjà été constaté dans l’article [1] mais uniquement au sujet des valeurs mortes.
. . . du au jeu d’instruction du processeur Cette étude n’est absolument pas exhaustive sur
les diverses causes que peut avoir le travail inutile. Cependant, même si cet aspect n’a pu être
exploré pour des raisons de temps, il parait raisonnable de penser qu’une partie du travail inutile
pourrait avoir été introduit en raison des contraintes imposées par le jeu d’instructions utilisé. En
effet, dans un jeu d’instruction RISC (comme le Sparc) une instruction de haut niveau (en langage
C par exemple) peut être convertie par le compilateur en une suite très importante d’instructions
comme en une seule. Ceci dépend de l’éloignement de cette instruction en langage C par rapport aux
instructions disponibles dans le jeu d’instruction assembleur utilisé. A contrario, un jeu d’instruction
CISC (comme le x86) aura des instructions assembleur plus proche des instructions en langage de
haut niveau. De cette fa¸con, les proportions d’instructions assembleur inutiles peuvent ne pas être
identiques aux proportions d’instructions inutiles de haut niveau (en langage C par exemple).
De plus, certaines optimisations de compilation effectuant un ré-ordonnancement des instructions
assembleur, il est parfois difficile de savoir quel ensemble d’instructions assembleur représente quelle
instruction de haut niveau.
Conclusion
En conclusion, nous pouvons dire que les proportions de travail inutile trouvées se rattachent
majoritairement au travail inutile présent dans l’algorithme en langage de haut niveau. De fait, une
piste qui pourrait être intéressante pour réduire ce travail inutile serait de signaler au programmeur,
lors des premières exécutions d’un prototype de programme, que certaines parties de l’algorithme
génèrent une grande quantité de travail inutile et que, par conséquent, une ré-écriture en prenant en
compte cet état de fait pourrait éviter ce travail. Il est même possible d’imaginer un outil proposant
au programmeur une ébauche de solution pour l’aider à restructurer une partie de son code afin
d’éviter ce travail inutile. Cependant, ce type d’outils ne peut rien pour aider à éliminer le travail
inutile intrinsèque à l’algorithme.
43

2.5 Conclusion
Cette étude est, en premier lieu, une étude permettant de comprendre un phénomène, à priori,
contre intuitif : Le travail inutile. Pour ce faire, nous nous sommes basé sur des résultats existants
qui ont déjà été publiés et qui montre que le travail inutile existe bel et bien dans des programmes
classiques.
Le but de ce stage était d’élargir les définitions données dans ces articles afin d’avoir une
idée du travail inutile global qui peut se trouver dans un programme. Cette étude, contrairement
à celles citées ci-contre, n’avait pas pour but de trouver un moyen d’exploiter ce travail inutile
pour en réduire l’impact sur le temps d’exécution ou la consommation électrique mais seulement
de comprendre ce phénomène et de savoir pourquoi ce travail inutile est présent (est-ce du au
compilateur ?, au programmeur ?. . .).
En conclusion, nous pouvons dire que cette étude à permis de confirmer l’existence du travail
inutile et de comprendre, en partie, d’où il provient.
44

Bibliographie
[1] G. Sohi A. Butt. Dynamic dead-instruction detection and elimination. ASPLOS X, October
2002.
[2] Jeffrey D. Ullman Alfred V. Aho, Ravi Sethi. Compilers : Principles, Techniques and Tools.
Addison-Wesley, 1986.
[3] Gordon B. Bell. Characterization of silent stores. Submitted in partial fulfillment of the M.S.
Degree in Electrical and Computer Engineering, May 2001.
[4] F. Bodin. Cours d’optimisation : Transformer pour la performance. Septembre 2002.
[5] M. Lipasti K. Lepak, G. Bell. Silent stores and store value locality. IEEE Transactions on
Computers, 50(11), November 2001.
[6] Mikko H. Lipasti Kevin M. Lepak. Temporally silent stores. ASPLOS X, October 2002.
[7] Kevin M. Lepak. Silent stores for free : Reducing the cost of store verification. Submitted in
partial fulfillment of the M.S. Degree in Electrical and Computer Engineering, December 2000.
[8] Charles N. Fischer Milo M. Martin, Amir Roth. Exploiting dead value information. Proceedings
of Micro-30, December 1997.
45

Evaluation de la quantité de travail (in)utile dans l’exécution des programmes

Evaluation de la quantité de travail (in)utile dans l’exécution des programmes

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (19)

Destacado

Destacado (20)

Similar a Evaluation de la quantité de travail (in)utile dans l’exécution des programmes

Similar a Evaluation de la quantité de travail (in)utile dans l’exécution des programmes (20)

Último

Último (18)

Evaluation de la quantité de travail (in)utile dans l’exécution des programmes