تخصیص پنهان دیریکله (به انگلیسی: Latent Dirichlet Allocation) یا LDA یک مدل تولیدی در آمار است. این مدل برای مدل سازی تعدادی متغیرهای پنهان (عناوین) در مجموعهای از متنها که شامل کلمات هستند به وجود آمدهاست. در حقیقت در یک متن شامل تعدادی کلمه میتوان به هر کلمه تعدادی عنوان با احتمال مشخص نسبت داد که در نهایت با ترکیب با هم یک متن و عنوان آن را تشکیل میدهند.[۱]
در واقع میتوان هر متن را به عنوان یک توزیع مخلوط از عناوین دید. این مشابه آنالیز پنهان مفهومی احتمالی با این تفاوت که در LDA یک توزیع احتمال پیشین از نوع توزیع دریکله در نظر گرفته میشود. اگرچه LDA با توزیع دریکله یکنواخت معادل با آنالیز پنهان مفهومی احتمالی است.[۲]
هر عنوان مجموعه ای از کلمات را با احتمال مشخصی ایجاد میکند. کلماتی که تعلق خاصی به برخی از عناوین ندارند (مانند the در انگلیسی) میتوان آنها را با احتمال یکنواختی در هرکدام از عناوین قرار داد؛ یا اینکه آنها را دستهٔ خاصی قرار داد. باید توجه کرد که تعریف صریحی برای عنوان از دیدگاههای معناشناسی یا معرفتشناسی مشخص نمیشود. بلکه اختصاص عناوین با یادگیری با نظارت برخی از کلمات و اختصاص آنها به عناوین و میزان رخدادهای آنها انجام میشود.
نکتهٔ دیگر این است که در این مدل چیزی برای مدلسازی ترتیب یا همبستگی عناوین در نظر گرفته نمیشود، و هر متن به عنوان کیسه کلمات در نظرگرفته شده و فرض تعویض پذیری (تئوری دی فینتی) انجام میشود.
در شکل مدل LDA نمایش داده شدهاست. M تعداد متنها و N تعداد کلمات در هر متن است. پارامترهای مدل عبارتند از:
تنها متغیرهای مشاهده شده بقیه متغیر پنهان پنهان هستند.
اکنون میتوان کل دادهها را ایجاد شده از طریق مدل فرض شده بر اساس متغیرهای پنهان در نظر گرفت:
۱. انتخاب توزیع دیریکله به ازای .
۲. انتخاب توزیع به ازای .
۳. به ازای هر کلمه
{{cite journal}}
: Unknown parameter |month=
ignored (help)
{{cite conference}}
: Unknown parameter |coauthors=
ignored (|author=
suggested) (help)