Boîte à outils Python du Data Scientist

Python est un langage de programmation qui est plus en plus utilisé dans divers secteurs. Ce langage est devenu ce qu’il est aujourd’hui grâce à ça simplicité, mais grâce aux milliers de développeurs qui s’y intéressent. Ceux-ci forment une communauté puissante qui enrichit chaque jour le langage par la contributions aux différents projets. On peut donc observer qu’il existe des beaucoup de bibliothèques et d’outils Python dans divers domaines et facilitant ainsi les process clés dans ces-dits domaines.

Aujourd’hui je vous fais une liste non exhaustive de bibliothèques Python que la plupart des Data Scientist utilisent et qui changent la vie.

Ne vous inquiétez surtout pas une série de tutoriels arrive bientôt pour une prise en main rapide et complète de ces différents outils.

PS : Si vous lisez cet article et que vous ne connaissez pas du tout Python cliquez-ici pour découvrir mon langage de programmation préféré.

Visualisation

Il s’agit d’une application web qui vous permet de créer et partager des  documents qui contiennent du « Code en live », c’est-à-dire, des scripts (ou bouts de script) qui sont exécutables en un clic et dont le résultat est joliment affiché.

Jupyter est la version web de IPython qui lui marche en console. JN est très apprécié des Data Scientist du fait qu’il soit très ergonomique, facile à utiliser et adapté à la visualisation et au pre-processing de données.

Cet outils est superbe Il vous permet d’avoir un visuel sur votre Datasets grace ses « DataFrames » qui sont rien d’autres que des tableaux à 2 dimensions. Déjà en une ligne vous avez tout votre Dataset, peu importe son format, qui est chargé et vous pouvez le parcourir et faire des stats sur les différentes valeurs de vos champs… Bref, Pandas est un outil merveilleux. Je vous le recommande vivement si vous ne l’utilisez pas déjà.

Matplotlib est une bibliothèque de visualisation assez simple à utiliser. Elle permet de faire des graphiques (Histogrammes, Courbes, Nuages des points, etc).

Elle vous permettra de voir les tendances et les patterns qui sont présents dans vos datasets.

Je vous la recommande fortement, elle est très utile 😉

Comme la précédente il s’agit d’une bibliothèque de visualisation mais qui fait des graphiques de meilleures qualités. Elle est basées sur Matplotlib. C’est la bibliothèques des amateurs esthétismes.

Bokeh sert à la visualisation comme les deux bibliothèques précédemment citées. Mais elle est faite pour le web et pour les datasets en streaming (datasets évoluants dans le temps). C’est-à-dire, qu’elle permet de réaliser divers graphiques sur des pages web. Elle sert en général pour des tableaux de bord.

Dash est bien plus qu’une « bibliothèque Python qui fait des graphes ». Il s’agit, d’un Framework basé sur React, Flask et Ploty.js qui permet, avec du script Python relativement simple, de créer de magnifiques interfaces web. Dash peut être une super solution quand il vous faut regrouper plusieurs graphes de très bonne qualité visuelle , qui peuvent potentiellement évoluer (streaming), dans des pages web.

Machine learning

Le machine leaning est un domaine très utilisé en data science. En effet, ce domaine offre une ribambelle de méthodes de prédictions qui égayent les journées des Datascientists. Il existe pas mal d’outils Python qui peuvent vous aider entant que Datascienist.

SK-Learn est une bibliothèque Python  plutôt complète dans le sens où elle facilite l’implémentation de méthodes de Machine Learning. Elle dispose d’une documentation bien fournie et facile à comprendre. Il s’agit sans doute de la bibliothèque de ML la plus populaire. Je vous recommande de vous y intéresser.

C’est 4 bibliothèques servent au Deep Learning. Pytorch, Tensorflow et Theano sont plutôt « Bas niveau » et donc sont à préférer lorsqu’on veut implémenter des modèles « customisés » tandis que Keras est relativement simple. Keras utilise comme back-end Tensorflow ou Theano. Keras vous permet d’implémenter un réseau de neurones seulement quelques lignes.

Traitement du langage naturel

Une bibliothèque complète qui offres des outils très puissants pour vos applications de TLN. Elle est presque indispensable quand on fait du TLN. Il est très souvent utilisé avec un des outils de ML précédemment cités au moins pour du pré-processing.

Mathématiques

Vous n’êtes pas sans savoir qu’on fait beaucoup de calculs quand on fait de la Data Science. Et heureusement qu’avec Python vous avez accès à des outils qui simplifient la vie.

Scipy est à la fois un écosystème qui contient plusieurs biblios Python tels que Numpy, Pandas, IPython… et une biblio ( Scipy Library) qui met rassemble plusieurs algorithmes et fonctions mathématiques utiles dans plusieurs domaines (Traitement du signal, Optimisation, Statistique, etc)

Si vous avez déjà fait du calcul numérique avec Python vous connaissez forcément Numpy. Il s’agit d’un package de calcule scientifique basé sur des tableaux à N-dimensions et plutôt simple à utiliser. Si vous voulez mon avis : Numpy est l’un des premiers outils à maîtriser quand on veut faire de la Data Science avec Python.

Acquisition de données

Est un Framework permettant facilitant la mise création et mise en place de spiders (crawler). Grâce à ses puissants middlewares, Scrapy vous épargne l’ordonnancement de vos requêtes, la gestion des erreurs, des « retry »… et vous offre des parsers plutôt simple. Scrapy est simple à prendre en main et peut s’avérer très intéressant qu’on a besoin de données sur le web.

Voici, ainsi présentées les bibliothèques Python les plus utilisées par les datascientists. Bien évidemment ils existent beaucoup d’autres outils qui sont très importants, mais on ne peut tous les mentionner. Ces quelques lignes ne sont qu’une présentation succinctes de ces outils, une série de tutoriels pour présenter chacun d’entre eux en long et en large.

N’hésitez pas à réagir à cet article, tout retour de votre est grandement apprécié.

Merci 🙂

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.