Nell'apprendimento automatico e nell'elaborazione del linguaggio naturale, un topic model è un tipo di modello statistico per scoprire gli "argomenti" (topic) astratti che si verificano in una raccolta di documenti. Questi vengono frequentemente utilizzati per la scoperta di strutture semantiche nascoste in un testo o in una raccolta di testi. Intuitivamente, dato che un documento riguarda un argomento particolare, ci si aspetterebbe che nel documento compaiano parole particolari più o meno frequentemente: "cane" e "osso" appariranno più spesso nei documenti sui cani, "gatto" e "miagolio" appariranno nei documenti sui gatti e "il" e "è" appariranno approssimativamente allo stesso modo in entrambi. Un documento in genere riguarda più argomenti in proporzioni diverse; quindi, in un documento che parla del 10% di gatti e del 90% di cani, ci sarebbero probabilmente circa 9 volte più parole di cane rispetto a parole di gatto. Questi algoritmi cercano gruppi di parole simili. Un modello di argomento cattura questa intuizione in un quadro matematico, che consente di esaminare una serie di documenti e scoprire, sulla base delle statistiche delle parole in ciascuno, quali potrebbero essere gli argomenti e qual è l'equilibrio degli argomenti di ciascun documento.
I topic models sono considerati probabilistici, considerato che si riferiscono ad algoritmi statistici per scoprire le strutture latenti. I topic models sono stati utilizzati per rilevare strutture istruttive in dati come informazioni genetiche, immagini e reti. Hanno anche applicazioni in altri campi come la bioinformatica[1] e la visione artificiale[2].
I topic models vengono utilizzati anche in altri contesti. Ad esempio, sono emersi utilizzi di topic models in biologia e bioinformatica[3]. In questo caso gli argomenti da inferire sono variabili biologiche, come funzioni o processi cellulari. Recentemente è stato proposto di utilizzare topic model per studiare dati di RNA-Sequencing di sample di tumori.[4]