Introduction à la data visualisation

Pouvoir visualiser ses données lorsqu’on les manipule est une nécessité. Observer des graphes nous permet d’anticiper certains problèmes et de mieux peaufiner nos futures analyses. Dans cet article introductif, nous présenterons ce qu’est la data visualisation, différents types de visualisations, quand et comment les utiliser, et les librairies python de visualisation des données les plus populaires.

Qu’est-ce que la data visualisation a.k.a dataviz ?

La visualisation de données (ou dataviz) est un ensemble de techniques utilisées pour communiquer des informations sous forme d’objets visuels. On peut utiliser par exemple des points, des lignes ou des barres…
En effet, l’objectif est de transmettre clairement les informations aux utilisateurs. C’est l’une des étapes de l’analyse des données ou de la science des données (la plus importante à mon avis).
Selon Vitaly Friedman (2008), « l’objectif principal de la visualisation de données est de communiquer des informations clairement et efficacement par des moyens graphiques. »

Exemple de dataviz – source : http://www.juneliang.com/desertification

En data science, la data visualisation est présente à chaque étape d’un projet. En effet, la visualisation nous permet de comprendre nos données, analyser nos modèles et même pouvoir monitorer nos produits en production. L’importance de la visualisation des données n’est plus donc à démontrer.
Ainsi, nous présenterons les visualisations de données les plus courantes. Avant cela, nous introduirons les 3 libraires Python de data visualisation les plus populaires.

Top 3 des librairies Python de data visualisation

Matplotlib – La base pour la data visualisation en Python

Matplotlib est une bibliothèque pour la création de visualisations statiques, animées et interactives en Python. Comme matplotlib a été la première bibliothèque de visualisation de données en Python, plusieurs autres bibliothèques de visualisation utilisent matplotlib comme base.

Seaborn – les dataviz Matplotlib en plus beau

Seaborn exploite la puissance de matplotlib pour créer de magnifiques visualisations en quelques lignes de code. La principale différence réside dans les styles et les palettes de couleurs offerts par Seaborn, qui sont conçus pour être plus esthétiques et modernes.

Plotly – pour des visualisations plus interactives

Le point fort de Plotly est la création de graphiques interactifs, mais propose aussi des visualisations difficiles à trouver dans la plupart des bibliothèques, comme les courbes de niveau, les dendrogrammes, les graphiques en 3D…

Différents types de dataviz par catégories

Corrélations

Scatter plot ( nuage de points)

Illustration scatter plot

En statistiques, un nuage de points est une représentation de données dépendant de plusieurs variables. Ainsi, il permet de mettre en évidence le degré de corrélation entre au moins deux variables liées.

En effet, les observations des nuages de points permettent de déterminer :

Des tendances
Certaines dépendances.
Des répartitions plus ou moins homogènes.
Des données aberrantes s’écartant de l’écart type.

Heat Map (Carte de chaleur)

Illustration heatmap

Une heatmap ou carte de chaleur permet de visualiser des données au travers de variations de couleurs. En effet, les heatmaps permettent de montrer la variance entre plusieurs variables, d’indiquer si certaines variables sont similaires les unes aux autres, et de détecter s’il existe des corrélations entre elles…

Distributions

Density Plot (Densité )

Density plot

Un diagramme de densité est une représentation de la distribution d’une variable numérique. Il utilise une estimation de la densité du noyau pour représenter la fonction de densité de probabilité de la variable.
Il s’agit d’une version lissée de l’histogramme.
Les diagrammes de densité sont utilisés pour étudier la distribution d’une ou de plusieurs variables. En data visualisation, un premier réflexe sera d’utiliser un diagramme de densité.

Histogramme

Un histogramme permet de visualiser la distribution des données sur un intervalle continu ou une certaine période de temps. Chaque barre d’un histogramme représente la fréquence tabulée à chaque intervalle/tranche.

Les histogrammes permettent d’estimer où les valeurs sont concentrées, quels sont les extrêmes et s’il y a des lacunes ou des valeurs inhabituelles. Ils sont également utiles pour donner un aperçu de la distribution des probabilités.

Box plot – Boîte à moustaches

Présentation d’un boxplot

Dans les représentations graphiques de données statistiques, la boîte à moustaches (aussi appelée diagramme en boîte, boîte de Tukey ou box-and-whisker plot, plus simplement box plot en anglais) est un moyen rapide de figurer le profil essentiel d’une série statistique quantitative.

Le Box plot (ou boîte à moustaches) est probablement l’un des types de graphiques les plus courants. Il donne un joli résumé d’une ou plusieurs variables numériques. La ligne qui divise la boîte en deux parties représente la médiane des données. La fin de l’encadré montre les quartiles supérieur et inférieur. Les lignes extrêmes montrent la valeur la plus élevée et la plus basse en excluant les valeurs aberrantes.

Ranking

Radar

Le diagramme en radar, en étoile ou encore en toile d’araignée sert à représenter sur un plan en deux dimensions au moins trois ensembles de données multivariées.

Par exemple, un diagramme en radar permettrait d’étudier la caractéristique d’un ou plusieurs individus pour plusieurs variables numériques.

Illustration de la comparaison de deux individus (source)

Il est possible de représenter plusieurs individus sur un même graphique mais attention, le graphique peut rapidement devenir illisible. Essayez plutôt d’afficher autant de graphiques que de personnes, cela permet de comparer facilement la forme de chacun.

Au-delà des individus les digrammes en radar permettent de comparer pleins d’autres choses (voitures, maisons, entreprises, serveurs,…).

Bar plot

source : datavizpyr

Un Bar plot ou diagramme à barres (ou en barres), également appelé diagramme à bâtons (ou en bâtons), est un graphique qui présente des variables catégorielles avec des barres rectangulaires avec des hauteurs ou des longueurs proportionnelles aux valeurs qu’elles représentent. Les barres peuvent être tracées verticalement ou horizontalement. Un diagramme à barres montre des comparaisons entre des catégories discrètes. Un axe du diagramme montre les catégories spécifiques comparées et l’autre axe représente une valeur mesurée.

Les diagrammes à barres se distinguent des histogrammes, car ils n’affichent pas de développements continus sur un intervalle. Les données discrètes des diagrammes à barres sont des données catégorielles et répondent donc à la question « combien » dans chaque catégorie.

Évolution

Line Plot – la dataviz la plus rependue

Un graphique linéaire ou Line Plot est un type de graphique qui affiche des informations sous la forme d’une série de points de données appelés « marqueurs » reliés par des segments de ligne droite. Il s’agit d’un type de graphique de base courant dans de nombreux domaines. Il est similaire à un diagramme de dispersion, sauf que les points de mesure sont ordonnés (généralement en fonction de leur valeur sur l’axe des x) et reliés par des segments de ligne droite. Un graphique linéaire est souvent utilisé pour visualiser une tendance dans les données sur des intervalles de temps – une série temporelle – ainsi la ligne est souvent tracée chronologiquement. Dans ce cas, on parle de diagrammes de flux.

Area plot

Les graphiques de zone sont des graphiques linéaires mais avec la zone sous la ligne remplie d’une certaine couleur ou texture. Les graphiques de surface sont dessinés en traçant d’abord des points de données sur une grille de coordonnées cartésiennes, en joignant une ligne entre les points et en remplissant finalement l’espace sous la ligne complétée.

Comme les graphiques linéaires, les graphiques de surface sont utilisés pour afficher l’évolution des valeurs quantitatives sur un intervalle ou une période de temps. Ils sont le plus souvent utilisés pour montrer des tendances, plutôt que de transmettre des valeurs spécifiques.

Ressources Complémentaires

Handbook of Data Visualization : Chen, Chun-houh, Härdle, Wolfgang Karl, Unwin, Antony (Eds.)

Conclusion

Nous avons présenté dans cet article, différents types de dataviz (line plot, scatter plot, …). L’idée était de comprendre ces différentes approches de visualisation de données afin de les utiliser dans les meilleures conditions. On se rend compte que chaque visualisation a un but plus ou moins précis d’où l’intérêt de bien schématiser son problème (classement, corrélation, distributions, …). Cela nous permettra ainsi de guider le choix de nos visualisations. N’hésitez pas à laisser des commentaires pour les questions et suggestions.

Vous voulez publier sur ledatascientist.com ? C’est par ici