Comment je peux devenir un data scientist ?
Pour tous ceux qui veulent se lancer dans le domaine de la data, comment devenir un data scientist est souvent récurrente. Ce qu’on sait c’est qu’il faut apprendre beaucoup de choses comme la programmation, les statistiques, et bien d’autres choses. C’est déjà bien mais en plus de savoir qu’est-ce qu’il faut apprendre, il faut savoir par où il faut commencer et les différentes étapes à franchir. Swami Chandrasekaran nous propose une fiche de route à suivre afin d’atteindre notre but: devenir un data scientist.

Cette RoadMap se présente en 10 sections:
-
-
Les Fondamentaux pour devenir un data scientist
Cette section présente vraiment les connaissances de bases à avoir notamment en mathématiques. En effet, il faut savoir ce qu’est une matrice, comprendre les principes de l’algèbre fondamentale. Aussi connaitre comprendre les différents principes des bases de données , et bien d’autres.
-
Les Statistiques
Ici, on s’attaque aux notions de bases en statistiques pour l’analyse données. Il faut vraiment ne pas négliger cette étape car si on veut devenir un data scientist, les statistiques nous permettent rapidement de comprendre les différents jeux de données (voir l’approche CRISP-DM)
-
La programmation
Evident ! On ne va pas analyser les données sur une feuille de papier 🙂
-
L’Apprentissage machine (Le fameux Machine Learning)
Le machine Learning est une branche de l’intelligence artificielle qui se base sur des approches statistique pour donner aux ordinateurs la capacité d’apprendre à partir des données. Cette étape est donc la suite logique des sections précédentes.
Cliquez pour en savoir plus sur l’intelligence artificielle. -
Text Mining / NLP
Ici il s’agit de comprendre comment on peut extraire des connaissances en faisant de la fouille de texte. Cela permet notamment de faire des ChatBots, des assistants vocaux et même des moteurs de recherches.
-
Visualisation de données
Après avoir créé des modèles très complexes, on a pu trouver « quelque chose ». Cependant, il faut pouvoir présenter ces résultats à des personnes qui n’ont jamais fait de la Data Science. On pourra faire des jolis dessins ;), des graphes, …, ou des tableaux de bord pour que les utilisateurs puissent faire de la prise de décisions avec un outil comme Tableau par exemple.
-
Big Data
A ce niveau il s’agira d’acquérir la capacité de traiter les gros volumes de données. En effet, si on prend un exemple d’un jeu de données de 20 Go je doute vraiment qu’on pourra utiliser seulement des outils classiques. C’est là une des raisons parmi tant d’autres. Vous devez apprendre les concepts de bases tels MapReduce, HDFS …, et aussi Apache Spark !
-
Ingestion de données
L’ingestion de données regroupe les phases de recueil et d’importation des données pour utilisation immédiate ou stockage dans une base de données. Une définition plus étayé ici
-
Munging de données
Apprendre à faire des traitements divers sur les données tels structurer les données, améliorer un jeu de données,…
-
Boîte à outils
Avoir les connaissances théoriques c’est une bonne chose, savoir les mettre en pratique c’est encore mieux ! Mais maitriser la large gamme d’outils disponibles sur le marché vous permettront d’être au dessus. En fait, il faut vraiment faire de la veille à ce niveau car les nouvelles solutions sont « le plus souvent mieux optimisées ,avec de nouvelles fonctionnalités ». En gros vous serez plus productif.
-
Merci pour ce cheminement très claire et détaillé
Depuis un certain temps je m’intéresse à ce domaine et je ne savais pas par où commencer