lundi 11 août 2008

Une autre façon de voir les listes chainées

Après une introduction aux listes chainées pour ceux qui ne savent pas ce que c'est, je vous présenterez une façon plus générique ( en tout cas selon moi ) et bien plus originale d'implementé cette structure de donnée qui est tirée du code de linux.

Avant tout, qu'est ce qu'une liste chainée et pourquoi on l'utilise ?

Et bien une liste chainée c'est une structure de donnée ( le mot clé struct en C ) qui permet de lier entre eux plusieurs données, un peu comme un tableau mais de façon beaucoup plus dynamique.
Un tableau de structure statique pourrait faire la même chose mais avec l'inconvénient que la longueur du tableau est fixé à la compilation et ne pourra pas être adapter en fonction des besoins.Prenons par exemple le cas d'une liste de processus, on pourrait fixer le tableau à 500 entrée ce qui a peut de chance d'arriver mais peut tout de même y arriver et puis on utiliserait de la mémoire pour rien ( environ 450 structures inutilisées la plupart du temps ).
Pour remédier à la taille du tableau, on pourrait utiliser un tableau dynamique avec le jeu de fonctions malloc()/realloc()/free() pour changer dynamiquement la taille du tableau. Mais la encore il se pose un autre problème c'est lorsqu'on a besoin de supprimer une structure, concrêtement on ne peut pas vraiment la supprimer, on peut la réinitialiser à 0 en jusqu'à ce que quelqu'un d'autre en ait besoin mais la encore on utilise de la mémoire pour rien puisqu'elle ne sera pas utilisée pendant un certain moment et puis imaginer que je ne sais pour qu'elle raison on ait besoin de 1000 structures et que soudain on ne s'en sert plus que d'une dizaine et bien là c'est vraiment ce qu'on apelle du gaspillage de mémoire. On aurait éventuellement la possibilité de faire un memmove() puis un realloc() mais le memmove est très coûteux si jamais on a beaucoup de données.
Donc une autre possibilité s'offre à nous c'est de faire une structure de données dans là qelle on ferait un ou deux champ(s) ( suivant que c'est une liste doublement ou simplement chainée ) qui sont de même type que la structure elle même.
Ces champs seront des pointeurs sur la structure précédente et la structure suivante pour le cas d'une liste doublement chainée et pour le cas d'une liste simplement chainée il n'y a que le champ vers la strucuture suivante ce qui nous permet bien de faire une liste de cette même structure.

La façon classique de déclarer une liste chainée c'est donc quelque chose qui ressemble à ça :

struct linked_list
{
// nawak
struct linked_list *prev, *next;
};

Voila donc une liste doublement chainée, pour une liste simplement chainée il n'y a que le champ next et bien évidement les données sont à la place de "nawak".

Voila en image à quoi ça ressemble des listes simplement et doublement chainées :



L'avantage des listes chainées c'est qu'on peut facilement ajouter ou supprimer un élément de la liste en agisant simplement sur les champs next et prev.
Par exemple, on a trois structures et on veut supprimer la seconde alors il suffit de faire pointer le champ next de la première vers la troisième et le champ prev de la troisième vers la première et on peut alors libérer la mémoire allouer pour la seconde structure.


Nous allons donc maintenant voir comment les listes chainées sont implémentées dans linux car c'est vraiment très intéressant à voir et ça ressemble beaucoup à stdarg.h qui utilise des macros avec des adresses qui n'ont l'air de correspondre à rien.
Enfin plein de truc marrant qui sont au final très pratique et comme je le disais en introduction l'implémentation de linux est bien plus générique que l'implémentation "classique".

Bon alors avant de partir plus loin voyons ensemble la définition d'une liste chainée dans include/linux/list.h :

struct list_head {
struct list_head *next, prev;
};


Wtf ? Euh elles sont où les données ?

C'est justement ça la particularité, au lieu que la structure de donnée ait des liens sur elle même, elle a un champ vers cette structure list_head. Et selon moi ceci fait que cette définition des listes chainées en font des listes chainées plus génériques que les autres.

Bon alors voyons maintenant la mise en place de ces listes chainées un peu particulière :

struct mastructure
{
// nawak

struct list_head list;
}


Bon c'est un peu particulier parce qu'on a pas l'habitude de l'apprendre comme ça et il y a certaines choses qui peuvent être un peu compliquer à comprendre.

Une petite image pour voir à quoi ça ressemble :



On dispose de plusieurs macros pour créer ou initialiser une liste chainée :

#define LIST_HEAD_INIT(name) { &(name), &(name) }

#define LIST_HEAD(name) \
struct list_head name = LIST_HEAD_INIT(name)


Bon rien de compliquer, on crée une variable avec le nom passé en paramètre de la macro et on initialise la liste pour que les champs prev et next pointent sur la liste elle même, on voit déjà que ce sont des listes circulaires.
Bon en général on n'aura pas besoin de créer de liste, on va juste l'initialiser.

Voila, je ne vais pas passer en revu toutes les macros et fonctions, si vous voulez savoir comment ça marche aller voir les sources directement ( c'est l'avantage du libre ^^ ).
Je vais vous expliquez maintenant le point le plus difficile qui est bien entendu : "Comment fait t'on pour accèder à notre structure avec ces listes chainées ?".

En fait c'est une petite astuce qui est vraiment toute simple mais encore faut t'il y penser. Récapitulons ce que nous avons, on a notre structure et dans celle ci ont à notre list_head, il faut donc qu'on se débrouille avec seulement ça. L'astuce est de soustraire à l'adresse de la list_head ( c'est bon on l'a ) son offset au sein la structure ( on l'a aussi mais de façon un peu plus détourné ) et comme ça on retombe sur nos pattes tels un félin avec l'adresse du début de la structure avec un petit transtypage et c'est réglé.
Bon maintenant le tout c'est de savoir comment on récupère l'offset d'un membre à l'intérieur d'une structure ( on ne va quand même pas hardcoder l'offset pour chaque structure et puis imaginer si on rajoute un membre ).
Heureusement pour nous il existe encore une autre macro très pratique qui fait ça très bien dans include/linux/stddef.h :

#define offsetof(TYPE, MEMBER) ((size_t) &((TYPE *)0)->MEMBER)


Et c'est la qu'on voit qu'on manipule des adresses qui ne correspondent à rien =p.
Bon en clair on chope l'adresse du membre et comme l'adresse de base de la structure est 0 on se retrouve bien avec notre offset.

Maintenant qu'on à l'offset, on peut faire notre soustraction pour trouver l'adresse de base de la structure, voyons voir comment ils ont fait ça dans include/linux/kernel.h :

/**
* container_of - cast a member of a structure out to the containing structure
* @ptr: the pointer to the member.
* @type: the type of the container struct this is embedded in.
* @member: the name of the member within the struct.
*
*/
#define container_of(ptr, type, member) ({ \
const typeof( ((type *)0)->member ) *__mptr = (ptr); \
(type *)( (char *)__mptr - offsetof(type,member) );})

Avec les explications pour chaque membre en anglais.

Bon ensuite dans /include/linux/list.h, on a un alias de cette fonction pour une utilisation spécifique aux listes :

#define list_entry(ptr, type, member) \
contaier_of(ptr, type, member)

No comment.


Et bien voila c'est la fin de cet article, je voulais vous présentez cette structure car je la trouve très intéressante et surtout originale ( j'aime bien l'originalité ).
Bien entendu il existe d'autres implémentation de listes chainées génériques, je pense notamment à la glib avec sa GList qui utilise un pointeur sur void comme donnée et donc on peut faire ce qu'on veut avec. Cependant l'implémentation de linux en plus d'être générique est très originale puisque avant de la connaître je pensais qu'il n'existait qu'une seule façon de faire des listes chainées ( comme tout le monde je pense ) mais je me tromper bien entendu.
De plus on voit qu'il y a plein de macro amusante et qu'on peut faire vraiment beaucoup de chose avec.

Et bien apparemment il existe la même chose avec windows ( merci Ivanlef0u ), voici un lien vers la msdn pour en savoir plus :
* http://msdn.microsoft.com/en-us/library/aa489548.aspx

Sur ce je vous dis à bientôt pour un prochain article.

Aucun commentaire: