L’automatisation de l’indexation des documents est un champ d’application de l’informatique et des sciences de l’information et bibliothéconomie qui exploite des techniques logicielles pour structurer une collection de documents, rendant ainsi la localisation ultérieure du contenu dans cette série plus aisée. La diversité des formats de documents (textuels, médias, audiovisuels, Web) engendre des méthodes très variées, en particulier concernant la représentation des données. Elles se basent toutefois sur un ensemble de théories partagées, comme l’extraction de caractéristiques, la segmentation de données (ou clustering), la quantification, et plus largement, la recherche d’information.
Cependant, l’utilisation des fichiers séquentiels indexés est largement répandue en informatique pour le stockage de données numériques (Consulter Fichier (informatique)).
De manière générale, un index est une liste de descripteurs à laquelle chaque élément est associée une liste de documents et/ou sections de documents à laquelle ce descripteur fait référence. Il se peut que ce retour soit pondéré. Dans le cadre de la recherche d’information pour un utilisateur, le système comparera la requête à l’index afin de générer une liste de réponses. En amont, les techniques employées pour créer automatiquement un index pour une collection de documents diffèrent grandement en fonction de la nature des contenus à indexer.
Indexation par type :
Indexation de documents
Un index basique à générer automatiquement pour un texte serait une liste triée de tous les mots présents dans les documents avec l’emplacement précis de chaque apparition ; cependant, un tel index est grand et surtout difficilement utilisable.
Ainsi, l’indexation automatique cherche généralement à trouver les termes qui s’alignent le mieux avec le contenu informatif d’un document. Il est généralement admis qu’un terme fréquemment présent dans un texte symbolise une notion primordiale. Par conséquent, la première méthode est d’identifier les mots représentatifs en fonction de leur fréquence. Toutefois, on constate que les mots qui apparaissent le plus souvent sont des mots de fonction (ou mots-outils, mots vides). En français, les termes tels que « de », « un », « les », et autres sont ceux qui apparaissent le plus souvent.
Il est clair qu’il n’est pas possible de conserver ces mots fréquemment utilisés, mais peu significatifs en termes de sens. C’est pour cette raison que des actions de filtrage de ces mots sont mises en place dans les moteurs de recherche. On nomme souvent ces listes de mots anti-lexiques ou plus couramment stoplist1.
Indexation d’images
Il existe deux méthodes pour effectuer l’indexation des images. Les images sont indexées en fonction de leurs métadonnées (EXIF, IPTC, XMP…), ce qui correspond à une indexation textuelle. L’indexation se fait en fonction du contenu graphique de l’image, c’est-à-dire les formes, les couleurs et les textures. Il s’agit d’une indexation d’image basée sur le contenu, connue sous le nom de Content Based Image Retrieval (CBIR) en anglais. On peut combiner ces deux sortes d’indexation d’images.
L’indexation d’images par leur contenu implique, suite à l’examen de tous les pixels ou d’une version réduite (masque), la conversion des données des pixels en une autre forme d’information afin de simplifier la recherche d’images (identiques ou similaires) sur le plan informatique, notamment en termes de taille.
Tout en gardant une sémantique proche de l’utilisateur, la réponse doit être concise et rapide. Les systèmes d’indexation d’images initiaux, comme le QBIC d’IBM, ont fait appel à la couleur. Par la suite, l’analyse des couleurs basée sur les histogrammes a connu des améliorations et une diversification.
Importance :
L’indexation des données vise à répondre à la question suivante : comment structurer de manière optimale un ensemble de documents pour faciliter ultérieurement la recherche de celui qui m’intéresse ?
Une approche courante consiste à marquer chaque document d’une suite de métadonnées (titre, catégorie(s), date de publication, auteur, etc.) manuellement. Cette méthode présente le mérite d’être aisée à appliquer et de délivrer des informations de valeur (en fonction des compétences de la personne responsable de l’annotation). Toutefois, cette approche présente des ambiguïtés (un même document pouvant être décrit de diverses manières ; on peut penser à l’ambiguïté liée aux styles musicaux), elle engendre des coûts (car il est nécessaire de rémunérer un annotateur pour qu’il gère tout nouveau document dans notre collection), et ne répond qu’aux requêtes textuelles.(au lieu d’une recherche à l’aide d’une image semblable, par exemple).
Pour remédier à ces faiblesses, une option est d’employer un vocabulaire contrôlé d’indexation structuré sous la forme d’un thésaurus documentaire. On peut élaborer des thésaurus de manière collaborative afin de garantir la cohérence dans le classement des documents. Un thésaurus précise non seulement les termes d’indexation, mais également les relations entre eux de manière standardisée. Cela permet, d’une part, de consulter des sources documentaires en spécifiant plusieurs conditions de liens lors d’une recherche (de manière donc sémantique). D’un autre côté, il s’agit de se dégager des contraintes telles que la synonymie ou le multilinguisme (dans le contexte d’un thésaurus en plusieurs langues).