Parmi les divers domaines technologiques d’intelligence artificielle exploités aujourd’hui, le Natural Language Processing vise à traiter le langage naturel écrit ou parlé au travers d’outils informatiques.
Cette discipline, dont les concepts existent depuis les années 50, a connu ces deux dernières décennies des avancées importantes grâce au développement du Machine Learning.
Prenons un instant pour nous intéresser aux dernières techniques mises en œuvre et les applications qui en découlent.
Approches les plus populaires
Le but global du NLP est de répondre à des besoins linguistiques mais différentes approches de traitement sont possibles et, suivant le but recherché, certaines s’avèrent plus efficaces que d’autres.
Afin de pouvoir traiter les informations linguistiques par ordinateur, il faut que la machine puisse les manipuler en terme numérique. Pour cela plusieurs techniques de modélisation existent.
Une des plus utilisées aujourd’hui est le Word Embedding qui consiste à représenter les mots par un vecteur de nombres réels. Ce vecteur portera l’information du sens du mot et du contexte dans lequel il est employé, de tel sorte qu’on puisse calculer la proximité de chaque mot, ce qu’on appelle la distance dans le domaine du Machine Learning.
Mais on peut également appliquer la technique de la transformation à des phrases entières pour conserver l’information de tournure, ce qui est efficace pour l’analyse de sentiment. Des modèles plus complexes ambitionnent de représenter ces informations sous forme de graphe en conservant toute l’information de contexte.
Du coté des techniques de traitement, on a la classification de texte qui a pour but d’analyser des documents pour les grouper par thèmes. Ceci peut être accompli avec une liste de catégories connues, en apprenant à la machine à reconnaître des mots et des contextes liés à ces catégories. Mais elle peut également grouper des documents sans connaitre de catégories, en se basant sur de la similarité d’ensemble. On peut ainsi trier automatiquement n’importe quel groupe de documents dont on ne connait, à priori, pas le contenu.
Certains traitements visent la génération de texte qui se pratique aujourd’hui au travers de la modélisation contextuelle de langage. Celle-ci consiste à déterminer la probabilité qu’un mot en suit un autre tout en prenant en compte le contexte de la phrase et le contexte du discours. L’utilisation de réseaux neuronaux a facilité cette pratique notamment par les architectures de type encodeur / décodeur où la compréhension du contexte par la machine est faite de manière automatique au travers de l’apprentissage. Il est intéressant de noter que cette approche ne se base pas sur les règles de grammaire connues.
Le résumé de texte a pour but de faire comprendre au lecteur le sujet d’un texte en quelques phrases. Deux techniques principales sont utilisées pour cela.
La première consiste à extraire du texte les phrases clé en estimant pour chaque phrase son importance dans le contexte du document. On forme alors le résumé en ne gardant que les phrases les plus importantes du texte.
La deuxième technique estime le contenu du document au travers de modélisations particulières des textes ou au travers de modèles ayant appris à reconnaître des schémas et les mettre en relation avec des contextes connus. Une fois identifié, des méthodes de génération de texte restituent l’information. Ceci permet d’obtenir des résumés ayant une cohérence globale tout en corrigeant les éventuels problèmes grammaticaux.
Les systèmes de question / réponse utilisent des bases de connaissance comme pour fournir des réponses. Ce type de système a une complexité plus importante puisque l’information voulue est plus précise. Le procédé se décompose en plusieurs étapes : analyse de la question, du sujet et de l’intention, recherche des sources documentaires pertinentes, extraction de la réponse exacte dans ces sources. Les bases de connaissance utilisées peuvent être généralistes ou spécialisées et de taille conséquente. Les traitements peuvent nécessiter d’importantes ressources informatiques.
L’analyse de sentiment se repose sur la compréhension du contexte global de la discussion et s’intéresse plus aux tournures des phrases qu’à une analyse de sens simple. Des modélisations spécifiques permettent de classifier le sentiment ressenti dans ce dialogue issu de l’expérience apprise par la machine.
Applications
Les applications de ces techniques sont diverses et suscitent un intérêt évident. Plusieurs de ces technologies font déjà partie de notre vie courante.
Nous avons tous été en contact avec des appareils utilisant des interfaces passant par la parole, que ce soit par notre smartphone ou par les assistants personnels proposés par exemple par Google ou Amazon. La performance et l’efficacité de ces interfaces n’est plus à démontrer. L’utilisation de cette reconnaissance vocale ouvre la voie à l’ordinateur main libre et change notre façon d’intégrer les machines à notre vie de tous les jours.
Les progrès des moteurs de recherche du Web ou celles intégrées dans des applications spécialisées sont lié au NLP. La suggestion intelligente et personnalisée accélère la vitesse à laquelle nous arrivons à saisir des instructions.
On constate aujourd’hui la facilité d’accès à ces techniques et les progrès de compréhension des procédés. Tous ces traitements peuvent être rapidement mis en œuvre sur nos ordinateurs personnels, les données d’entrainement peuvent être obtenues en libre accès. Cette démocratisation fait que ces technologies s’intègrent de plus en plus facilement à la conception de systèmes d’entreprise.
On pourra notamment citer l’automatisation des taches et des processus d’entreprises qui utilisent l’analyse par ordinateur de contenus non formatés en s’appuyant sur des applications de type OCR ou RPA. La classification et le résumé de documents est un moyen d’enrichir et de valoriser automatiquement une base documentaire.
Conclusion
Le traitement automatique du langage naturel et un domaine à surveiller pour les différents avantages qu’il nous apporte dans notre vie de tous les jours ainsi que par son usage dans les environnements professionnels. Les progrès obtenus ces dernières années sont importants et on constate une multitude de pistes d’avancement. Au travers de ces avancées, la qualité de des informations auxquelles nous avons accès va continuer de s’enrichir.
La maîtrise de l’apprentissage des processus de compréhension et la capacité des machines de modéliser les informations et de les restituer peuvent servir à définir des concepts abstraits et établir des relations logiques. C’est une piste qui peut nous rapprocher de la pensée artificielle.