Dedocoton

Logo Doccano

Annotation de jeux de données avec Doccano

Pour faire de l’apprentissage supervisé, l’on a besoin d’un jeu de données annoté (ou labelisé). C’est-à-dire une liste d’exemples qui contient des entrées et leurs sorties correspondantes. Cependant, dans la vraie vie, il est presque rare d’obtenir de la donnée brute déjà annotée. Prenons l’exemple d’un modèle d’analyse de sentiment sur des commentaires laissés par …

Annotation de jeux de données avec Doccano Lire la suite »

Logo Scrapy

Créer un jeu de données avec Scrapy

L’importance de l’acquisition de données pour le Data Scientist n’est plus à démontrer. Le web étant une source intarissable de données de toutes sortes, le web scraping ou web crawling s’est imposé comme une technique incontournable d’acquisition de données. Scrapy est un framework Python permettant de faciliter les tâches de scraping. Dans cet article nous …

Créer un jeu de données avec Scrapy Lire la suite »

Classification

Introduction à la catégorisation de textes

La classification (ou catégorisation) de textes est l’une des tâches de traitement du langage naturel (NLP :  Natural Language Processing) les plus courantes. Elle consiste à associer un texte non-structuré à un tag, qui correspond à une classe bien précise. Si la catégorisation de textes nécessite beaucoup d’engouement, c’est à cause de ses nombreuses applications …

Introduction à la catégorisation de textes Lire la suite »

Problème du sac à dos

Programmation linéaire – Problème du sac à dos

L’optimisation consiste à trouver le minimum d’une fonction objectif qui décrit mathématiquement un problème. La programmation linéaire n’est rien de plus que de l’optimisation sur des fonctions objectifs décrites par les équations linéaires. Dans cet article nous verrons comment résoudre un problème d’optimisation linéaire. À travers, le très célèbre problème du sac à dos que …

Programmation linéaire – Problème du sac à dos Lire la suite »

docker_conteneur_logo

Comprendre Docker et les conteneurs

Docker est un  logiciel libre permettant de gérer des conteneurs. Un conteneur est une abstraction qui regroupe le code et toutes ses dépendances afin que l’application s’exécute rapidement et de manière fiable d’un environnement informatique à un autre. On peut donc voir un conteneur comme une (mini-) machine qu’on va configurer de sorte à ce …

Comprendre Docker et les conteneurs Lire la suite »

algorithme de clustering

Faire du Clustering avec l’algorithme K-means

K-means (k-moyens en français) est un algorithme de clustering. Le clustering est un type d’apprentissage non supervisé (contrairement à la regression linéaire par exemple qui est un type d’apprentissage supervisé). Il consiste à regrouper les éléments de notre jeu de donnée en groupes, appelés clusters. Le but est de faire ressortir les patterns cachés dans …

Faire du Clustering avec l’algorithme K-means Lire la suite »