Latent Dirichlet Allocation

Latent Dirichlet allocation (LDA) ist ein von David Blei, Andrew Ng und Michael I. Jordan im Jahre 2003 vorgestelltes Bayessches Netz (und somit ein generatives Probabilistisches graphisches Modell) für die Themenmodellierung, welches der Einordnung von Dokumenten in Themen dient und einen wichtigen Teilbereich der Computerlinguistik darstellt.[1] Das Modell ist identisch zu einem 2000 publizierten Modell zur Genanalyse von J. K. Pritchard, M. Stephens und P. Donnelly.[2]

In der Themenmodellierung werden Daten als Sammlungen von Beobachtungen betrachtet, die in Form von Dokumenten organisiert sind. Dokumente sind in diesem Fall gruppierte, diskrete und ungeordnete Beobachtungen (im Folgenden „Wörter“ genannt). In den meisten Fällen bestehen diese Dokumente aus Texten, in denen Wörter gruppiert werden, wobei die Reihenfolge der Wörter keine Rolle spielt. Jedes Wort wird einem bestimmten Thema des Dokuments zugeordnet, und jedes Dokument enthält eine kleine Anzahl von Themen. Es können jedoch auch andere Datenarten verarbeitet werden, wie beispielsweise Pixel aus Bildern, wobei die zugrunde liegende Struktur der Themenzuordnung beibehalten wird.[3][4]

Generierender Prozess

[Bearbeiten | Quelltext bearbeiten]
Darstellung des LDA-Modells in Plate notation.

LDA modelliert Dokumente durch ein Bayessches Netz:

Zunächst wird die Anzahl der Themen durch den Benutzer festgelegt.

Die Dokumentensammlung enthält unterschiedliche Terme, die das Vokabular bilden. Zunächst werden Multinomialverteilungen über alle Terme aus Dirichlet-Verteilungen gezogen, diese Verteilungen werden „Themen“ (englisch topics) genannt.

Für jedes Dokument wird eine Verteilung über die Themen aus einer Dirichlet-Verteilung gezogen. Ein Dokument enthält also mehrere Themen. Durch eine generierende Dirichlet-Verteilung mit Parametern kann die Annahme ausgedrückt werden, dass Dokumente nur wenige Themen enthalten. Diese Annahme ist die einzige Neuerung von LDA im Vergleich zu vorherigen Modellen[5] und hilft bei der Auflösung von Mehrdeutigkeiten (wie etwa beim Wort „Bank“). Die Steigerung der Themen-Qualität durch die angenommene Dirichlet-Verteilung der Themen ist deutlich messbar.

Anschließend wird für jedes Wort aus einem Dokument ein Thema gezogen und aus diesem Thema ein Term. Für die Zufallsvariablen bedeutet das:

Das LDA Modell im Bild lässt sich in folgende Formel für die Wahrscheinlichkeit übersetzen:

mit:

  • die Anzahl der Dokumente
  • die Anzahl der Wörter in einem Dokument
  • α ist der Parameter der Prior-Dirichlet-Verteilung der Themen pro Dokument
  • β ist der Parameter der Prior-Dirichlet-Verteilung der Wörter pro Thema
  • ist die Themenverteilung für Dokument i
  • ist die Wortverteilung für Thema k
  • ist das Thema des j-ten Wortes in Dokument i
  • ist das j-te Wort in Dokument i

In LDA wird jedes Dokument als eine Mischung von verborgenen Themen (engl. latent topics) betrachtet. Jedes Wort im Dokument ist einem Thema zugeordnet. Diese Themen, deren Anzahl zu Beginn festgelegt wird, erklären das gemeinsame Auftreten von Wörtern in Dokumenten. So kommen in Zeitungsartikeln die Wörter „Euro, Bank, Wirtschaft“ oder „Politik, Wahl, Parlament“ jeweils häufig gemeinsam vor. Diese Mengen an Wörtern haben dann jeweils eine hohe Wahrscheinlichkeit in einem Thema. Wörter können auch in mehreren Themen eine hohe Wahrscheinlichkeit haben.[1]

LDA wird u. a. zur Analyse großer Textmengen, zur Textklassifikation, Dimensionsreduzierung oder dem Finden von neuen Inhalten in Textkorpora eingesetzt. Andere Anwendungen finden sich im Bereich der Bioinformatik zur Modellierung von Gensequenzen.

Weitere Anwendungsbereiche

[Bearbeiten | Quelltext bearbeiten]

Latent Dirichlet Allocation (LDA) findet nicht nur in der Themenmodellierung von Texten Anwendung, sondern hat sich auch in verschiedenen anderen Disziplinen als wertvolles Werkzeug erwiesen.

In der klinischen Psychologie etwa wird LDA zunehmend eingesetzt, um häufige Themen und Muster in komplexen psychologischen Daten zu identifizieren. So kann das Modell in Studien eingesetzt werden, um beispielsweise negative Selbstbilder von Jugendlichen mit sozialen Ängsten zu analysieren und zu kategorisieren. Dies ermöglicht es, tiefere Einblicke in die psychologischen Muster und Themen zu gewinnen, die mit bestimmten mentalen Gesundheitszuständen verbunden sind.[6]

Überwachtes Latent Dirichlet Allocation mit Kovariaten (SLDAX), wurde speziell entwickelt, um latent identifizierte Themen in Texten mit anderen manifesten Variablen zu kombinieren. Dieses Modell ermöglicht es, Textdaten als Prädiktoren in statistische Regressionsanalysen zu integrieren und so psychologische Ergebnisse genauer zu prognostizieren. Der Vorteil von SLDAX gegenüber herkömmlichen Zweistufenansätzen besteht darin, dass es verzerrte Schätzungen und falsche Standardfehler vermeidet und eine genauere Analyse psychologischer Texte ermöglicht.[7][8]

Sozialwissenschaften

[Bearbeiten | Quelltext bearbeiten]

Auch in den Sozialwissenschaften, insbesondere in der Analyse von großen Datensätzen aus sozialen Medien, hat sich LDA als nützlich erwiesen. So können öffentlich zugänglichen Twitter-Daten, bei der LDA verwendet wurde, um die Kommunikation über gesellschaftlich relevante Themen wie den Konsum von verschreibungspflichtigen Medikamenten zu untersuchen. Durch die Analyse solcher großen Textkorpora lassen sich Muster und Themen extrahieren, die sonst möglicherweise unbemerkt bleiben würden. Diese Art der Analyse bietet wertvolle Einblicke in die öffentliche Diskussion und Wahrnehmung von Themen in Echtzeit.[9][10]

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. a b David M. Blei, Andrew Y. Ng, Michael I Jordan: Latent Dirichlet Allocation. In: Journal of Machine Learning Research. 3. Jahrgang, Nr. 4–5, Januar 2003, S. 993–1022, doi:10.1162/jmlr.2003.3.4-5.993 (mit.edu).
  2. J. K. Pritchard, M. Stephens, P. Donnelly: Inference of population structure using multilocus genotype data. In: Genetics. 155. Jahrgang, Nr. 2, Juni 2000, ISSN 0016-6731, S. 945–959 (genetics.org).
  3. Fei-Fei Li, P. Perona: A Bayesian Hierarchical Model for Learning Natural Scene Categories. Band 2. IEEE, 2005, ISBN 978-0-7695-2372-9, S. 524–531, doi:10.1109/CVPR.2005.16 (ieee.org).
  4. Robert Lieck, Fabian C. Moss, Martin Rohrmeier: The Tonal Diffusion Model. In: Transactions of the International Society for Music Information Retrieval. Band 3, Nr. 1, 16. Oktober 2020, ISSN 2514-3298, doi:10.5334/tismir.46 (ismir.net).
  5. Mark Girolami, Kaban, A.: On an Equivalence between PLSI and LDA. Proceedings of SIGIR 2003. Association for Computing Machinery, New York 2003, ISBN 1-58113-646-3 (englisch, bham.ac.uk [PDF]).
  6. Kenny Chiu, David M. Clark, Eleanor Leigh: Characterising Negative Mental Imagery in Adolescent Social Anxiety. In: Cognitive Therapy and Research. Band 46, Nr. 5, Oktober 2022, ISSN 0147-5916, S. 956–966, doi:10.1007/s10608-022-10316-x, PMID 36156987, PMC 9492563 (freier Volltext) – (springer.com).
  7. Jon Mcauliffe, David Blei: Supervised Topic Models. In: Advances in Neural Information Processing Systems. Nr. 20, 2007, S. 121–128 (neurips.cc).
  8. Kenneth Tyler Wilcox, Ross Jacobucci, Zhiyong Zhang, Brooke A. Ammerman: Supervised latent Dirichlet allocation with covariates: A Bayesian structural and measurement model of text and covariates. In: Psychological Methods. Band 28, Nr. 5, Oktober 2023, ISSN 1939-1463, S. 1178–1206, doi:10.1037/met0000541 (apa.org).
  9. Caitlin Doogan Poet Laureate, Wray Buntine, Henry Linger: A systematic review of the use of topic models for short text social media analysis. In: Artificial Intelligence Review. Band 56, Nr. 12, Dezember 2023, ISSN 0269-2821, S. 14223–14255, doi:10.1007/s10462-023-10471-x, PMID 37362887, PMC 10150353 (freier Volltext) – (springer.com).
  10. Maria A Parker, Danny Valdez, Varun K Rao, Katherine S Eddens, Jon Agley: Results and Methodological Implications of the Digital Epidemiology of Prescription Drug References Among Twitter Users: Latent Dirichlet Allocation (LDA) Analyses. In: Journal of Medical Internet Research. Band 25, 28. Juli 2023, ISSN 1438-8871, S. e48405, doi:10.2196/48405, PMID 37505795, PMC 10422173 (freier Volltext) – (jmir.org).