FrenchEnglishChinese (Simplified)Spanish

notre livre
Data Science, Intelligence Artificielle

Les techniques de base du NLP

Le traitement automatique du langage naturel ou Natural language processing (NLP) en anglais est un sous-domaine de l’Intelligence Artificielle dont le but est le développement d’outils de traitement de la langue naturelle pour diverses applications, comme les chatbots ou encore les assistants vocaux type Siri ou Alexa.

Chez 10h11, le NLP est un sujet qui passionne nos équipes et que nous avons intégré depuis plusieurs années dans notre Data Lab. Notre blog en est aussi un bon exemple puisque vous pouvez retrouver un article traitant des chaînes de caractères dans R ou encore, il y a quelques semaines, nous avions partagé un article présentant un algorithme permettant de créer des mots. Ci-dessous, nous allons détailler deux traitements fondamentaux du NLP, à savoir l’analyse de la fréquence des mots et l’analyse des sentiments.

NLP #01 • L’analyse de la fréquence des mots

L’analyse de la fréquence des mots est souvent résumée simplement comme le dénombrement des mots que nous pouvons retrouver dans un texte. Cependant, cette rapide définition ne tient pas compte de deux traitements qui doivent être appliqués en amont sur le texte, avant de procéder au processus de comptage : la lemmatisation et la suppression des stop-words.

La lemmatisation

Les mots (lemmes) d’une langue utilisent plusieurs formes en fonction de leur genre (masculin ou féminin), leur nombre (un ou plusieurs), leur personne (moi, toi, eux…), leur mode (indicatif, impératif…) donnant ainsi naissance à plusieurs formes pour un même lemme. La lemmatisation d’une forme d’un mot consiste à ne sélectionner uniquement que sa forme canonique. Celle-ci est définie comme suit :

  • pour un verbe : ce verbe à l’infinitif,
  • pour les autres mots : le mot au masculin singulier.

Par exemple, l’adjectif “petit” existe sous quatre formes : petit, petite, petits et petites. La forme canonique de tous ces mots est petit. Autre exemple, il existe beaucoup plus de formes du verbe “avoir” : ai, as, a, avons, ais, avons eu, ayez eu, eussions eu, aurions eu, etc. La forme canonique de eussions eu est avoir.

Les stopwords

En recherche d’information, un mot vide (ou stopword, en anglais) est un mot qui est tellement commun qu’il est inutile de l’indexer ou de l’utiliser dans une recherche. En français, des mots vides évidents sont par exemple « le », « la », « de », « du », « ce », etc. Un mot vide est un mot non significatif figurant dans un texte.

NLP signifie Natural Language Processing

NLP #02 • L’analyse des sentiments

En Data Science, le sentiment analysis est l’analyse des sentiments à partir de sources textuelles dématérialisées sur de grandes quantités de données (Big Data). Ce procédé apparaît au début des années 2000 et connaît un succès grandissant dû à l’abondance de données provenant de réseaux sociaux, notamment celles fournies par Twitter. L’objectif de l’analyse des sentiments est d’analyser une grande quantité de données afin d’en déduire les différents sentiments qui y sont exprimés. Les sentiments extraits peuvent ensuite faire l’objet de statistiques sur le ressenti général d’une communauté.

Avec l’analyse des sentiments nous pouvons étudier en particulier la tonalité d’un texte afin de constater s’il évoque un sentiment positif, négatif ou neutre. De plus, nous pouvons identifier plus en détail les émotions qu’un texte évoque.

Dans la réalisation d’analyses des sentiments, nous pouvons adopter deux approches différentes :

  • l’application de lexicons, comme par exemple le lexicon FEEL*,
  • ou l’application de techniques de Text Classification, sous-domaine de l’apprentissage automatique supervisé.

*FEEL est un lexique français contenant plus de 14000 mots distincts exprimant des émotions et des sentiments. Il suit le principe fondamental d’Ekman (1992) en deux polarités (positif et négatif) et six émotions (colère, dégoût, peur, joie, tristesse, surprise). Il a été créé en traduisant et en développant automatiquement le lexique émotionnel anglais NRC-Canada (Mohammad & Turney, 2013). Le processus a été supervisé et validé manuellement par un traducteur professionnel humain.). Pour plus d’informations, https://hal-lirmm.ccsd.cnrs.fr/lirmm-01348016

FrenchEnglishChinese (Simplified)Spanish

ACHETER LE LIVRE
Cart Overview