Génération de données

Introduction au résumé automatique de texte

Je vous propose de jeter un coup d’œil à une de mes tâches de NLP préférées : le résumé automatique (text summarization en anglais). Comme son nom l’indique, cette tâche consiste à automatiser le résumé de texte en utilisant le machine learning.

Intérêt du résumé de texte automatique

Avec le web aujourd’hui, on n’a jamais eu autant d’informations écrites dans toute l’histoire de l’humanité. Des quintillion d’octets de données sont créés tous les jours. Il est du coup devenu facile de se perdre dans toute cette quantité d’information. Si on arrivait à réduire la longueur des textes tout en gardant l’information essentielle, on gagnerait du temps énormément de temps dans la recherche d’information. On passerait par exemple moins de temps à lire les news en ayant le juste minimum à savoir sans le détail superflu. On gagnerait ainsi en efficacité.

Avec les méthodes récentes de NLP et de machine learning, on arrive à créer des outils de résumé automatique plus ou moins décents.

Types de résumés

Il existe deux types principaux de résumés :

Résumé par extraction

Ce type de résumés consiste à extraire des passages clés du texte d’origine puis les mettre les uns à la suite des autres pour créer le texte résumé. Ainsi, les mots du résumé sont tous des mots du texte d’origine.

Exemple :

Texte d’origine :
Nous sommes en 50 avant Jésus-Christ. Toute la Gaule est occupée par les Romains… Toute ? Non ! Un village peuplé d’irréductibles Gaulois résiste encore et toujours à l’envahisseur. Et la vie n’est pas facile pour les garnisons de légionnaires romains des camps retranchés de Babaorum, Aquarium, Laudanum et Petibonum.

Résumé :
50 avant Jésus-Christ Gaule est occupée par Romains. Un village Gaulois résiste. Vie pas facile pour légionnaires romains.

Comme vous pouvez le voir, résumé par extraction ne respecte pas forcément la grammaire mais doit être compréhensible.

Réalisation

La réalisation de ce type de résumés se fait suivant les étapes suivantes : L’extraction de termes clés et la génération du résumé.

Dans la plupart des cas, la notion de « termes clés » est liée à la fréquence du terme dans le texte. On définit une métrique de fréquence (qui peut être le TF-IDF par exemple) puis on considère les termes les plus fréquents comme étant termes clés. L’étape de la génération du résumé peut consister tout simplement à juxtaposer les phrases contenant les termes clés.

Résumé par abstraction

Ce type de résumé, bien que conservant le sens du texte d’origine, ne garde pas nécessairement tous les mots du texte d’origine. Le résumé est donc une reformulation du texte d’origine en d’autres termes mais avec un sens qui reste presque le même.

Exemple :

Texte d’origine :

Nous sommes en 50 avant Jésus-Christ. Toute la Gaule est occupée par les Romains… Toute ? Non ! Un village peuplé d’irréductibles Gaulois résiste encore et toujours à l’envahisseur. Et la vie n’est pas facile pour les garnisons de légionnaires romains des camps retranchés de Babaorum, Aquarium, Laudanum et Petibonum.

Résumé :
En moins 50, les romains occupaient toute la Gaule sauf un village.

Le résumé par abstraction est donc plus « intelligent » que le résumé par extraction. Tout logiquement, il est aussi plus difficile à implémenter.

Réalisation

Une façon de réaliser ce type de résumé est d’utiliser les modèles pré-entraînés basés sur l’architecture Transformer tels que BERT. En effet, ce genre de modèles sont plus adaptés du fait de la représentation contextuelle qu’ils proposent.

Conclusion

Dans cet article, nous nous sommes intéressés au résumé automatique de texte. Il s’agit d’une tâche qui peut avoir un réel intérêt dans bien de domaines. Nous avons vu les types de résumés et des méthodes de réalisation possibles pour leurs modèles d’automatisation.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.