L'indexation matière (ou indexation sujet) est une étape de la chaîne documentaire qui consiste à identifier et à exprimer le contenu d'un document au moyen d'un vocabulaire généralement normalisé. Exprimé selon les règles d'un langage naturel ou langage documentaire, le sujet abordé dans le document est alors intégré à la notice bibliographique. L'indexation est utilisée dans les métadonnées d'une page Web, dans des bases de données bibliographiques ou dans des catalogues de bibliothèque.
L'indexation est donc une étape importante du catalogage en ceci qu'elle offre un critère de recherche qui permet de trouver un document sans en connaître l'existence. Elle permet aux utilisateurs ayant des besoins d’information de repérer plus facilement les documents pertinents à leurs besoins[1]. Des normes nationales ou internationales encadrent le travail de l'indexeur. Néanmoins, ce travail nécessite une analyse et un choix, donc une part d'interprétation et de partialité dont la pertinence et l'efficacité dépendent de l'indexeur, du langage utilisé et de l'anticipation des besoins du lecteur.
L'indexation comprend minimalement deux étapes importantes : l’analyse du document et la représentation des sujets. L’analyse permet d’identifier et de sélectionner les concepts contenus dans un document. Ceux-ci sont ensuite représentés par des termes permettant leur repérage[2].
Le nombre d’étapes varient selon les auteurs consultés. L’analyse du document, la sélection des sujets et la traduction de ceux-ci en termes d’indexation sont des étapes généralement abordées[1],[2].
Dans un premier temps, l'analyse du document permet de dégager le ou les sujets principaux et secondaires qui y sont traités dans une perspective ou un point de vue donné. Pour ce faire, plusieurs parties du document peuvent être consultées. Par exemple, pour un document textuel, celles-ci peuvent être : le titre, le résumé, l’introduction, la conclusion, le titres des chapitres ou des sections, l’index, etc[1].
Ensuite, une sélection est faite dans ces sujets identifiés, en fonction du niveau de précision souhaité pour l'indexation. Le but est, par exemple, de ne retenir que les plus importants pour l'utilisateur concerné, ou les plus généraux pour ne pas alourdir inutilement la notice. La sélection de ceux-ci peut dépendre de plusieurs facteurs : l’indexeur, le service et l’organisation, les sujets habituellement recherchés par les utilisateurs et le vocabulaire qu’ils emploient lors de leurs recherches[2]. Les sujets principaux se retrouvent habituellement dans la notice bibliographique du document[1].
Une indexation exhaustive suppose que tous les sujets repérés lors de l’analyse sont sélectionnés. Bien que le rappel soit favorisé, il est possible d’obtenir davantage de bruit lors des recherches[1].
Dans la majorité des cas, l’indexation est sélective[3]. Le choix des sujets est effectué en fonction des comportements et des besoins des utilisateurs concernés ou en fonction de leur importance au sein du document. Bien que le rappel puisse être moindre, la précision est favorisée[1].
Enfin, les sujets choisis sont exprimés de façon plus ou moins standardisée en termes d’indexation. Ces derniers sont les clés d’accès aux documents pertinents pour les utilisateurs[1].
Quand peu de contraintes sont mises pour l'expression des sujets, on parle d'indexation en langage libre ou naturel. Les sujets ainsi exprimés sont appelés mots-clés. À l'opposé, la formulation du sujet peut également être soumise à un système de contraintes, destinées à standardiser la formulation. On parle alors d'indexation en langage contrôlé et les sujets ainsi exprimés sont nommés vedettes-matière. L'ensemble des contraintes posées à l'expression du sujet constituent les bases d'un langage documentaire.
Contraintes | Langage | Résultat |
---|---|---|
peu | libre | mot-clé |
oui | contrôlé | vedette-matière |
L’utilisation du langage libre ou contrôlé repose sur deux principes : l’unité de sens et la spécificité. Le principe de l’unité de sens suppose qu’au sein du même index, les termes choisis représentent toujours les mêmes sujets. En retour, les concepts sont toujours traduits par les mêmes termes d’indexation. Le principe de spécificité implique que les termes choisis ont la même extension sémantique que les sujets qu’ils représentent[1].
Le sujet traité par un document peut-être :
Dans le premier cas, un outil de langage contrôlé est souvent utilisé pour décrire l'objet, le concept, la notion. Dans les autres cas, la manière de désigner la personne, le lieu... peut être fixée par une norme.
Il existe différents outils d'indexation, constitués par les thésaurus documentaire et les autres langages contrôlés.
Au Canada francophone, il existe deux outils principaux :
En France, le Répertoire d'autorité matière encyclopédique et alphabétique unifié (RAMEAU), d'ailleurs issu du RVM, est couramment utilisé dans les bibliothèques municipales et universitaires. Il existe également un outil d'indexation des documents pour la jeunesse, dû à Martine Blanc-Montmayeur et qui porte son nom.
Des outils spécialisés comme AGROVOC existent aussi.
Le Service documentaire multimédia pour les livres jeunesse est un répertoire de vedettes-matière jeunesse. Il est diffusé par un site web accessible sur abonnement payant par nom d’utilisateur et un mot de passe.
Le système de recherche permet de chercher par Vedette exacte, Vedettes qui commencent par et Vedettes par mots-clés. Il est conseillé de faire les recherches par mots-clés, masculin-pluriel.
Ex:Requins
Ex:Pomme
Ex : Fruits
Ex : Écrits d'ouvriers EP -Littérature ouvrière -Littérature prolétarienne -Poésie ouvrière -Ouvriers, Écrits -Travailleurs, Écrits -Écrits de travailleurs
Ex : Enfants TG -Familles -Groupes d'âge
TS (107 termes spécifiques) -Artisanat pour enfants -Beaux-enfants -Bilinguisme chez l'enfant -Catéchèse des enfants -Derniers-nés, etc.
Ex : Anniversaire TA -Festivals -Jours fériés
Pour encadrer le travail des indexeurs, il existe des normes internationales et nationales qui présentent des modèles théoriques et des conseils généraux. Elles ne visent pas l’uniformité mondiale étant donné le caractère subjectif du processus d’indexation et l’influence des caractéristiques propres au milieu et aux utilisateurs sur les sujets représentés[1],[2].
Les normes utiles à connaître sont :
Afin de s’assurer que les résultats produits par le processus d’indexation sont pertinents et cohérents, la présence d’une politique d’indexation institutionnelle peut être utile aux indexeurs[1].