Data Engineering

DBT (Data Build Tool) – Introduction

dbt est un outil de transformation de donnée qui permet aux équipes analytiques (Data engineer, Data analyst , Data scientist,..) de déployer du code rapidement et de manière collaborative. Dans cet article, nous allons vous présenter DBT, quelques fonctionnalités, et surtout pourquoi et quand l’utiliser ! C’est quoi DBT ? DBT (Data Build Tool) est …

DBT (Data Build Tool) – Introduction Lire la suite »

Multithreading en Python

Vous êtes-vous déjà trouvé dans une situation où vous devez attendre longtemps pendant le traitement de vos données ? Honnêtement, cela m’arrive souvent. Certains brandirons les drapeaux Spark /MapR. Cependant, dans cet article, nous allons apprendre à utiliser rien que les ressources locales (ordinateur/serveur) disponibles pour paralléliser nos calculs.Ainsi, dans cet article, nous présentons les …

Multithreading en Python Lire la suite »

Introduction à Kubernetes l’orchestrateur de conteneurs

De plus en plus d’applications modernes sont construites à l’aide de conteneurs, qui sont des microservices packagés avec leurs dépendances et leurs configurations. Kubernetes est un logiciel open-source qui permet de déployer et de gérer ces conteneurs à l’échelle. Dans cet article, nous présenterons Kubernetes, les motivations de cette solution (Pourquoi Kubernetes ?) , certains …

Introduction à Kubernetes l’orchestrateur de conteneurs Lire la suite »

Déployer rapidement des modèles de ML avec FastAPI

Le déploiement de modèle de Machine learning (ML) est l’une des étapes les plus importantes dans un projet de ML. Pourquoi ? La réponse est bien évidente, car déployer un modèle consiste tout simplement à rendre ce modèle disponible dans un environnement (ex. de production) où il pourra fournir des prédictions à d’autres systèmes. En …

Déployer rapidement des modèles de ML avec FastAPI Lire la suite »

Logo MapReduce

Le paradigme MapReduce

Depuis l’apparition du Big Data, les méthodes, architectures et outils de traitement de gros volumes de données n’ont cessé d’émerger : MapReduce, Hadoop, Spark, etc. MapReduce, créé par le géant Google, va être très vite adopté comme framework pour faire les opérations de calculs distribués et de parallélisation. Dans cet article, nous allons à la …

Le paradigme MapReduce Lire la suite »

Déployer un modèle de machine learning

Déployer un modèle de Machine Learning avec Flask

C’est bien d’implémenter un modèle de machine learning performant. Mais ce dernier n’aura pas grand intérêt s’il ne peut être utilisé dans « une application ». En effet, après l’entraînement d’un modèle, ce dernier n’est pas tout à fait prêt à être utilisé. Il nous faut le écrire du code supplémentaire afin qu’il puisse effectivement servir. Dans …

Déployer un modèle de Machine Learning avec Flask Lire la suite »

AWS

Déployer une application sur AWS avec Elastic Beanstalk

Le besoin des entreprises de réduire les coûts liés à leurs applications et de gagner en agilité renforce la nécessité de dis­poser des meilleures solutions de déploiements et d’hébergement de ces applications. C’est pourquoi de nombreuses entreprises adoptent aujourd’hui le cloud afin de fournir à leur client les meilleurs services tout en concentrant leurs efforts …

Déployer une application sur AWS avec Elastic Beanstalk Lire la suite »

Logo Scrapy

Créer un jeu de données avec Scrapy

L’importance de l’acquisition de données pour le Data Scientist n’est plus à démontrer. Le web étant une source intarissable de données de toutes sortes, le web scraping ou web crawling s’est imposé comme une technique incontournable d’acquisition de données. Scrapy est un framework Python permettant de faciliter les tâches de scraping. Dans cet article nous …

Créer un jeu de données avec Scrapy Lire la suite »

Photo by Markus Spiske on Unsplash

Hadoop pour les nuls – Présentation de l’écosystème

Hadoop ou Apache Hadoop est un framework libre et open source écrit en Java destiné à faciliter la création d’applications distribuées et permettant de traiter aisément des pétaoctets de données. Hadoop est un outil incontournable dans le monde du Big Data! Petite parenthèse pour le Big data Le Big Data est un terme utilisé pour …

Hadoop pour les nuls – Présentation de l’écosystème Lire la suite »