Exploration des données avec Gephi

On a vu dans l’article précédent qu’il pouvait parfois être intéressant de considérer la dimension « réseau » des données (flux, interactions, échanges, relations entre entités…). Parmi les outils libres permettant de faire de l’analyse de réseau, Gephi se distingue par son utilisation simple : c’est un outil presse-bouton qui permet notamment de calculer des statistiques classiques, d’explorer et de produire des graphiques. L’objectif de cet article est d’accompagner l’utilisateur dans ses débuts avec Gephi sur un exemple. Nous utilisons ici comme dans l’article précédent les données de l’enquête TRM sur le transport routier.

Téléchargement et installation

Consulter https://gephi.org/ pour plus d’information et pour télécharger et installer la dernière version du logiciel.

Installation de modules additionnels : lors de l’ouverture du logiciel, allez dans le menu « Outils » > « Modules d’extension ». Dans l’onglet « Module d’extension disponibles » sélectionnez à minima le module SigmaExporter et procédez à son installation.

Importation des données dans Gephi

Cette importation se fait à partir d’un fichier texte des données en réseau qui contient a minima les liens : source et cible avec ou sans attributs.

Ici, avec les données de l’enquête TRM sur le transport routier fournissent les communes de départ et communes d’arrivée pour chaque trajet, ainsi que t-km l’attribut « tonne-kilomètre » du transport de marchandises entre les deux communes.

Le fichier texte (csv) pourra être importé dans Gephi après insertion d’une ligne entête : source ; target ; t-km en allant dans Laboratoire des données > tableau des données > liens > importer feuille de calcul

img1

  • Mettre en « integer » la donnée : t-km
  • Cocher « créer les nœuds manquants » ; Gephi créera la table des nœuds à partir de toutes les sources et destinations trouvées dans les liens.
  • Dans la table des liens copier la colonne t-km dans la colonne label pour avoir un label des liens.
  • Dans la table des nœuds copier les données de la colonne « id » dans la colonne « label » pour avoir un label des nœuds correspondant au nom de la commune.

Analyse des données dans Gephi

img2Aspect initial des données

L’attribut sélectionné pour les nœuds ou les liens permet de choisir la couleur et la taille de ceux-ci.

Nœuds : sans attributs importés, Gephi fournit comme attribut par défaut du nœud, le nombre de liens (degré) de ce nœud : degré entrant, degré sortant, degré = entrant + sortant. Prendre en compte le nombre de liens permet de faire ressortir rapidement à l’œil, les communes les plus importantes pour le transport de marchandise.

Liens : l’attribut importé avec les données : t-km > Paramétrage de la couleur des liens.

Spatialisation

Choisir un algorithme de spatialisation (layout) et jouer sur les paramètres. C’est la partie centrale de la visualisation du graphe des données, quelques exemples :

« Force Atlas 2 »

  • Jouez avec les paramètres pour obtenir une première représentation :
  • cochez « dissuader les hubs » pour éclater les agrégats de nœuds
  • cochez « Empêcher le recouvrement » pour éviter que deux nœuds se chevauchent
  • « Echelle » vous permet d’étendre le graphe
  • Vous pouvez éventuellement abaissez ou élever la valeur de l’influence du poids des liens pour renforcer ou détendre l’attraction entre les nœuds du graphe.
  • Une fois votre graphe spatialisé, cochez « Mode LinLog » pour étendre le graphe.

« Geo layout » : permet le simple positionnement des nœuds en fonction des latitudes, longitudes, à fournir dans deux colonnes de la table des nœuds.

Filtres

Ils permettent de conserver et d’afficher seulement certains nœuds ou liens du graphe : Topologie > plage de degrés > réduire la plage pour limiter la taille du réseau.

Statistiques

Plusieurs statistiques peuvent être sélectionnées dans la fenêtre « Statistiques ». Elles permettent d’enrichir les attributs des données par des valeurs calculées sur le graphe, sur les nœuds ou sur les liens.

  • A l’échelle du graphe on peut par exemple considérer sa connexité: un graphe est connexe s’il existe un chemin entre tout couple de sommets. C’est le cas pour TRM par construction.

Si on définit un chemin comme une suite consécutive d’arcs dans un graphe orienté, dans le cas d’un graphe non orienté on parle de chaîne, la longueur d’un chemin est son nombre d’arêtes. La distance entre deux nœuds est donnée par la longueur minimum des chemins (nombre minimum d’arêtes) qui les relient. On a alors les statistiques suivantes

  • Le diamètre d’un graphe (ou excentricité maximale) est la valeur maximale des distances entre les nœuds.
  • Le rayon d’un graphe est l’excentricité minimale de ces sommets.

Pour TRM : Diameter : 12 Radius : 0 Average Path length : 4.167

Au niveau d’un noeud on peut calculer :

  • l’excentricité d’un nœud : sa distance maximale à tous les autres nœuds.
  • le degré, la centralité d’intermédiarité, ou d’autres mesures de centralité des noeuds sont également disponibles

Si par ailleurs, si vous pensez avoir un intérêt à identifier des groupes (communautés), allez dans la fenêtre « Statistiques » et sélectionnez le traitement intitulé « Modularité ». La modularité est la différence entre la proportion des liens dans la communauté moins la valeur qu’aurait été cette même proportion si le même nombre de liens étaient disposés au hasard entre les nœuds du graphe.

Appliquez ensuite le résultat des calculs depuis la fenêtre « Aspect » à l’ensemble de vos nœuds en sélectionnant comme attribut « Modularity class ». En maximisant la modularité, on obtient un partitionnement du graphe, autrement dit on optimise le nombre d’arêtes intra-communautaires important et un nombre d’arêtes inter-communautaires faible.

Pour TRM : Number of Communities : 5

graphe1

Affichage des Labels

Utiliser la barre d’outils au pied de l’écran qui peut être déployée en cliquant sur l’icône à droite.

img3

 

Exportation

img4

Peaufiner votre visualisation dans la fenêtre « Prévisualisation ». Une fois satisfait de votre graphique vous pouvez l’exporter comme image au format PDF, PNG ou SVG.

Vous pouvez aussi l’exporter sous forme de page Web dynamique : Fichier> Export > sigmajs template. Cela permet de créer un dossier « Network » sur votre ordinateur qui sera consultable dans un navigateur Internet (double clic sur le fichier index.html qui se trouve dans ce dossier).

 

Robert Pastorelli, attaché de l’Insee

 

Bibliographie indicative :

Graphes, données en réseau

http://cedric.cnam.fr/vertigo/Cours/RCP216/coursFouilleGraphesReseauxSociaux.html

https://halshs.archives-ouvertes.fr/halshs-00839905/document

Gephi

http://www.clementlevallois.net/gephi/tuto/fr/gephi_tutorial%20foundations%20_fr.pdf

http://www.clementlevallois.net/gephi.html

http://www.martingrandjean.ch/gephi-introduction/

Filtres, spatialisation

http://master-iesc-angers.com/tutoriel-sur-les-fonctionnalites-avancees-de-gephi-usage-des-filtres-pour-obtenir-des-cartographies-plus-lisibles/

https://gephi.org/tutorials/gephi-tutorial-layouts.pdf

http://www.medialab.sciences-po.fr/publications/Jacomy_Heymann_Venturini-Force_Atlas2.pdf

Exemples d’utilisation

http://www.erwanlenagard.com/general/tutoriel-suivre-et-modeliser-une-conversation-sur-twitter-en-temps-reel-1157

le réseau d’acteurs de la scène énergétique : https://cybergeo.revues.org/27460

Le code civil français : http://lexmex.fr/

Publicités

2 commentaires

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s