Définition de SpaCy :
SpaCy est une bibliothèque Python open source et gratuite, diffusée sous la licence MIT, destinée au traitement naturel du langage (ou NLP). Elle est rédigée en Cython et adaptée à la production grâce à une API succincte et simple d’utilisation.
Cette bibliothèque a d’abord été créée par Matt Honnibal de Explosion AI. Pour les spécialistes du langage Python, spaCy pourrait être comparé à NumPy en matière de NLP une bibliothèque de base, mais efficace et performante.
Cet outil permet de concevoir des applications capables de manipuler et de saisir d’importantes quantités de texte. Il peut notamment servir à concevoir des méthodes d’extraction d’informations, de compréhension du langage naturel ou pour pré-traiter des textes destinés au Deep Learning.
Les instruments et caractéristiques spaCy :
SpaCy est adapté à une multitude de tâches associées aux projets de machine Learning. Par exemple, il autorise la Tokenisation, la Lemmatisation, le tagging POS, la reconnaissance de mots ou d’entités, l’analyse des dépendances, la conversion mot/vecteur et diverses méthodes pour normaliser et nettoyer.
Si ces mots vous paraissent sans signification, ne vous inquiétez pas. C’est tout à fait compréhensible si vous ne vous êtes pas encore familiarisé avec le Traitement Naturel du Langage. Voici donc une vue plus détaillée des diverses caractéristiques spaCy.
La Tokenisation implique la transformation d’une partie du texte en mots, espaces, symboles, ponctuations et d’autres composants afin de créer des « tokens». C’est une phase cruciale pour la majorité des tâches de NLP.
La tokenisation est directement associée à la lemmatisation et facilite la réduction d’un mot à sa forme initiale. Il est possible de retirer les suffixes, préfixes et autres participes antérieures afin de retrouver la racine du mot. Ce procédé est extrêmement bénéfique, en particulier pour l’apprentissage automatique et plus spécifiquement pour la catégorisation du texte.
Le Tagging part-of-speech (POS) est une méthode destinée à attribuer des caractéristiques grammaticales comme les noms, les verbes, les adverbes ou les adjectifs aux mots. Les étiquettes POS des mots ont généralement la même structure syntaxique et sont bénéfiques pour les processus fondés sur des normes.
Le processus de reconnaissance d’entités a pour objectif de classer les entités désignées dans un document en diverses catégories préétablies.
Par exemple, cela pourrait concerner des individus, des lieux ou encore des échéances. Le modèle statistique de spaCy offre la possibilité d’organiser une grande diversité d’entités, incluant les individus, les entités, les créations artistiques et les nationalités.
L’analyse de dépendance est une technique qui guide l’évaluation de la dépendance d’une phrase. Cela permet de dévoiler sa structure grammaticale.
Cette méthode souligne les liens entre les mots clés et leurs relations de parenté.
Finalement, la représentation mot-vecteur permet aux machines de saisir et d’interpréter les relations entre les mots à l’instar des êtres humains. L’illustration numérique d’un mot souligne ses rapports avec d’autres mots.