Data Science

DBT (Data Build Tool) – Introduction

dbt est un outil de transformation de donnée qui permet aux équipes analytiques (Data engineer, Data analyst , Data scientist,..) de déployer du code rapidement et de manière collaborative. Dans cet article, nous allons vous présenter DBT, quelques fonctionnalités, et surtout pourquoi et quand l’utiliser ! C’est quoi DBT ? DBT (Data Build Tool) est …

DBT (Data Build Tool) – Introduction Lire la suite »

Multithreading en Python

Vous êtes-vous déjà trouvé dans une situation où vous devez attendre longtemps pendant le traitement de vos données ? Honnêtement, cela m’arrive souvent. Certains brandirons les drapeaux Spark /MapR. Cependant, dans cet article, nous allons apprendre à utiliser rien que les ressources locales (ordinateur/serveur) disponibles pour paralléliser nos calculs.Ainsi, dans cet article, nous présentons les …

Multithreading en Python Lire la suite »

Génération de données

Générer des données factices (dummy data) avec Faker

Il arrive assez souvent que l’on ait besoin de données factices (dummy data). Que ce soit pour des tests, pour anonymiser des données sensibles ou pour ajouter du « bruit » dans un jeu de données d’entraînement, il peut être intéressant d’avoir accès à un jeu de fausses données ayant la même forme que les données réelles. …

Générer des données factices (dummy data) avec Faker Lire la suite »

dataprep

Dataprep: une librairie python pour accélérer votre analyse de données

Le processus de préparation des données commence par trouver les bonnes données. Cela peut provenir d’un catalogue de données existant ou d’un entrepôt. Une fois les données collectées, il est important de découvrir et d’explorer les données à préparer et à traiter. Cette étape est essentielle et permet de connaître les données et de comprendre …

Dataprep: une librairie python pour accélérer votre analyse de données Lire la suite »

Photo by Clint Adair on Unsplash

Appliquer la théorie des graphes avec NetworkX

La théorie des graphes est un aspect des mathématiques qui a beaucoup d’applications dans divers domaines. Que ce soit en biologie, en réseau informatique, en analyse de réseaux sociaux, la modélisation par la théorie des graphes s’avère très efficace. En règle générale, les problèmes qui mettent en scène des réseaux (ensemble d’ »entités » entre lesquelles il …

Appliquer la théorie des graphes avec NetworkX Lire la suite »

Déployer rapidement des modèles de ML avec FastAPI

Le déploiement de modèle de Machine learning (ML) est l’une des étapes les plus importantes dans un projet de ML. Pourquoi ? La réponse est bien évidente, car déployer un modèle consiste tout simplement à rendre ce modèle disponible dans un environnement (ex. de production) où il pourra fournir des prédictions à d’autres systèmes. En …

Déployer rapidement des modèles de ML avec FastAPI Lire la suite »

chien

Classification d’objets avec GluonCV

Le Deep Learning a permis une avancée notable dans plusieurs domaines de recherche dont le Computer Vision (Vision par Ordinateur in french 😄). Dans cet article, pour poursuivre la série, je vous présente l’une des applications du Computer Vision : la classification d’objets avec la librairie Python GluonCV. Pourquoi classer des objets ? La tâche de classification d’objets est l’une des …

Classification d’objets avec GluonCV Lire la suite »

NER avec BERT

NER (Reconnaissance d’Entité Nommées) avec CamemBERT

Dans cet article, nous faisons une implémentation de NER avec CamemBERT (une version française de BERT). Le NER (Named Entity Recognition) ou REN (Reconnaissance d’Entité Nommées) en français est une tâche de NLP qui a pour but d’étiqueter un mot (ou groupe de mots) d’un texte, à partir un ensemble d’étiquettes prédéfinies. Exemple : But …

NER (Reconnaissance d’Entité Nommées) avec CamemBERT Lire la suite »

Support Vector Machines (SVM) en python

Un Support Vector Machines (SVM) est un modèle de machine learning très puissant et polyvalent, capable d’effectuer une classification linéaire ou non linéaire, une régression et même une détection des outliers. C’est l’un des modèles les plus populaires de l’apprentissage automatique et toute personne intéressée par l’apprentissage automatique devrait l’avoir dans sa boîte à outils. …

Support Vector Machines (SVM) en python Lire la suite »