Als Indexierung (möglicher Anglizismus auch Tagging), auch Verschlagwortung (Österreich, Bayern: Beschlagwortung) oder Verstichwortung, bezeichnet man die Zuordnung von Deskriptoren zu einem Dokument zur Erschließung der darin enthaltenen Sachverhalte. Es lassen sich die kontrollierte Indexierung (mit einem Thesaurus oder Schlagwortkatalog bzw. Notationen einer Klassifikation) und die freie Indexierung bzw. freie Verschlagwortung (mit nicht vorgegebenen Deskriptoren) unterscheiden.
Als Mittel der Katalogisierung soll die Indexierung die Nutzung von verfügbarem Wissen (Bücher, Anleitungen etc.) ermöglichen. So zum Beispiel wird die Suchbarkeit in Katalogen erleichtert, indem durch die Suche bestimmter Schlagwörter ein Werk auffindbar gemacht wird. Oder auch ähnliche Werke werden verfügbar, wenn gleiche Kategorien vergeben werden.[1] Formal ausgedrückt wird die Nutzung durch Personen und auch Maschinen „Erleichtert oder sogar erst ermöglicht“, da „die Informationsobjekte formal und inhaltlich aufbereitet worden sind“, welche vorher nur als reines „Wissen“ existierten.[2]
Zu einer „Diskussion der Qualität der Metadaten“ führen aktuelle Herausforderungen hinsichtlich der Bestandserschließung für Bibliotheken, also die Katalogisierung zunehmender „unselbstständiger Literatur“ wie zum Beispiel Daten über Aufsätze, als auch der Anstieg der Produktion neuer Literatur.[3]
Nach verschiedenen Gesichtspunkten lassen sich jeweils unterschiedliche Indexierungsarten und -methoden unterscheiden:
Probleme der Indexierungskonsistenz gibt es sowohl bei maschinellen wie auch bei manuellen Indexierungen.[4]
Die Manuelle Indexierung, Intellektuelle Indexierung oder Verschlagwortung ist ein Verfahren der Sacherschließung von Dokumenten, bei der einem Dokument repräsentative Schlagwörter (engl. „Subjects“) durch einen Indexierer zugewiesen werden. Diese Zuweisung erfolgt auf Grundlage einer Analyse des Inhalts. Für die Inhaltsanalyse können unter anderem Titel, Zusammenfassungen und Kapitelüberschriften des Dokuments von besonderem Nutzen sein. Jedenfalls muss sichergestellt werden, dass wesentliche Informationen nicht übersehen werden. Nach der Analyse des Inhalts müssen angemessene Begriffe ermittelt werden, die den Inhalt des vorliegenden Dokuments wiedergeben. Die Begriffsermittlung kann durch Indexierungshilfen unterstützt werden. Nachdem die Begriffe, die den wesentlichen Inhalt des Dokuments wiedergeben, ermittelt wurden, müssen nun die Deskriptoren vergeben werden. Diese kann man entweder dem Vokabular einer Dokumentationssprache entnehmen (gebundenes Indexieren) oder aber selbst formulieren (freies Indexieren), falls keine Dokumentationssprache vorliegt.[5] Beim freien Indexieren muss der Indexierer eine konsistente Erschließung ohne Dokumentationssprache erreichen. Beim gebundenen Indexieren muss er hingegen die Dokumentbegriffe in eine Dokumentationssprache übersetzen. Die manuelle Indexierung wird von Experten mittels Indexierregeln, Terminologielisten und kontrollierten Vokabulars (Thesaurus) durchgeführt. Sie besitzt aber den Nachteil, dass sie aufwendig, langsam und teuer ist, ihre Qualität von der konsistenten Arbeitsweise des Personals abhängt und der vordefinierte Wortschatz statisch ist. Zudem muss der Benutzer das Indexierungsvokabular kennen, um Dokumente gezielt zu recherchieren. Eine begriffsorientierte Inhaltserfassung und eine große Variabilität im Ausdruck sind für die intellektuelle Indexierung essentiell.[6]
Beim Gemeinschaftlichen Indexieren mit Hilfe von Sozialer Software spricht man auch von Tagging anstelle von Indexierung und von Tags anstatt von Deskriptoren.
Ein simples Verfahren der automatischen Indexierung ist die Volltextindexierung, bei der bis auf Stoppwörter alle Wörter eines Textes in den Index aufgenommen werden. Möglicherweise werden Wörter mittels Stemming (dt. Reduktion) auf einen gemeinsamen Wortstamm zurückgeführt. Komplexere Methoden zur Analyse von Text und Sprachdaten sind hierbei Thema der Computerlinguistik.
Mit statistischen Indexierungsverfahren wird durch die Ermittlung von Worthäufigkeiten eine Auswahl getroffen und somit nur Wörter in den Index aufgenommen, die mit einer gewissen Frequenz im Text auftreten. Ein einfaches Verfahren der Termgewichtung ist die inverse Dokumenthäufigkeit. Bei diesem Verfahren wird die Häufigkeit eines Begriffs in einem Dokument ermittelt. Dieser Wert wird mit der Häufigkeit der Dokumente, in denen der Begriff vorkommt, ins Verhältnis gesetzt. So lässt sich leicht der Wert oder die Gewichtung des Begriffs als Deskriptor ablesen. Die Gewichtung eines Begriffs ist höher, je weniger Dokumente mit diesem Begriff es im Archiv gibt und je häufiger der Begriff im zu indexierenden Dokument vorkommt. An der Häufigkeit des Begriffs kann man die Signifikanz ablesen. In diesem Dokument wird zum Beispiel häufig „Begriff“ verwendet, denn dieses Wort ist wichtig für das Thema. Nur: „Begriff“ ist ein zu weiter Begriff per se. Daran kann man sehen, dass allein an der Häufigkeit nicht erkannt werden kann, ob es ein guter oder schlechter Deskriptor ist. Nur im Zusammenspiel mit dem o. g. Gewichtungsverfahren lassen sich signifikante Deskriptoren erstellen.
Besonders beim Bibliothekskatalog nennt man die automatische Indexerstellung – auch innerhalb mehrgliedriger Schlagwortketten einer syntaktischen Indizierung, die bei einer manuellen Verschlagwortung durch Fachpersonal vergeben wurden (Schlagwortkatalog) – Verstichwortung, woraus der Stichwortkatalog entsteht. Auch die automatische Extrahierung von Stichwörtern aus einem Volltext – etwa zur Indexerstellung – wird so genannt.
Zur Indexierung für online verfügbare Ressourcen wie Webseiten werden von Suchmaschinen sogenannte Webcrawler eingesetzt.
Im Vergleich zu statistischen Methoden oder dem Einsatz künstlicher Intelligenz, bietet der Einsatz einer Beschreibungslogik zur indexierung den Vorteil, dass die Einteilung immer nachvollziehbar ist. So können einzelne Zuweisungen von Deskriptoren analysiert werden. Die Beschreibungslogik kann hier durch einen Thesaurus beschrieben werden.[4]
Bei der computergestützten oder halbautomatischen Indexierung (auch Indizierung) werden Deskriptoren maschinell vorgeschlagen und manuell ausgewählt. Hierbei erfolgt die Indexierung durch Computer mit Vor- oder Nachbereitung durch Menschen bzw. in Interaktion mit Menschen.
Zur inhaltlichen Verschlagwortung von Bildern wird in vielen Museen die Klassifikation Iconclass eingesetzt. Auch die Schlagwortnormdatei findet zunehmend im Museumsbereich Verwendung. Viele Bildagenturen und Bildarchive verwenden den IPTC-IIM-Standard und die darin enthaltenen Regeln für Kategorien und Schlagwörter. Eine große Rolle spielen allerdings auch noch hausinterne Schlagwortlisten. Daneben gibt es verschiedene Verfahren, mit denen sich Bilder mittels Ähnlichkeitssuche und Relevance Feedback recherchieren lassen.
Fachkategorien digitaler Medien werden innerhalb der Deutschen Nationalbibliothek per rein automatisiertem Verfahren eingegliedert.[7][8] Innerhalb von Datenbanken für wissenschaftliche Artikel wie PubMed, werden beispielsweise Kategorien per Support Vector Machine zugeteilt.[4]
Eine systematische Methologie zur Validierung von Indexierungen wurde von Koraljka Golub vorgestellt.[9] Zum Beispiel kann mithilfe von Thesauri in einer maschinenlesbarer Sprache, wie zum Beispiel SKOS, Indexierungen maschinell automatisch auf Fehler überprüft werden.[4]
Bibliotheken ermöglichen Zugang zu ihrem Inventar, früher über Zettelkataloge, heutzutage über OPACs und zunehmend über Discovery-Systeme.[3]