جنگل تصادفی یا جنگلهای تصمیم تصادفی (به انگلیسی: Random forest) یک روش یادگیری گروهی برای دستهبندی، رگرسیون میباشد، که بر اساس ساختاری متشکل از شمار بسیاری درخت تصمیم، بر روی زمان آموزش و خروجی کلاسها (کلاسبندی) یا برای پیشبینیهای هر درخت به شکل مجزا، کار میکنند. جنگلهای تصادفی برای درختان تصمیم که در مجموعهٔ آموزشی دچار بیش برازش میشوند، مناسب هستند. عملکرد جنگل تصادفی معمولاً بهتر از درخت تصمیم است، اما این بهبود عملکرد تا حدی به نوع داده هم بستگی دارد.[۱][۲][۳]
نخستین الگوریتم برای جنگلهای تصمیم تصادفی را «تین کم هو» با بهرهگیری از روش زیرفضاهای تصادفی پدیدآورد.[۴][۵] نسخههای بعدی آن توسط لیو بریمن ارتقا یافت.[۶]
یادگیری ماشین و دادهکاوی |
---|
پژوهشهای «بریمن» روی کار «امیت و گمن» اثر گذاشت، کسانی که پژوهش براساس دسته تصادفی که نود را تقسیم میکند (در مبحث بزرگ شدن تک درخت) ارائه کردند در این روش، پیش از این که هر درخت یا هر گره را جاسازی کنند، جنگلی از درختان بزرگ میشود و گزینش از بین گونهای از درختان که برای گزینش تصادفی زیرفضاهایی از داده آموزش دیدهاند، صورت میگیرد. در پایان ایده بهبود بخشیدن به گرههای تصادفی (که انتخاب هر گره به شکل تصادفی بوده) به جای بهبودی قطعی توسط «دیتریش» بیان شد دستاوردهای دربارهٔ جنگل تصادفی نخستین بار به دست «لئو بریمن» مقاله شد.
این مقاله روشهایی از چگونگی ساخت جنگل بدون کنترل درختها با بهرهگیری از CART را بیان میکند که با متد بگینگ و بهبودی نود تصادفی ترکیب شدهاست. به علاوه، این مقاله بسیاری از نتایج اولیه به دست آمده که شناخته شده بودند و چه آنهایی که به چاپ رسیده بودند را ترکیب میکرد که این ترکیبات پایه و اساس تمرینات امروزی جنگلهای تصادفی را شامل میشود این الگوریتم توسط «لئو بریمن و عادل کالچر» توسعه یافت که جنگل تصادفی نیز جزو دستاوردهای ایشان بود ایده بگینگ برای ساخت مجموعهای از درختهای تصمیم و انتخاب تصادفی نخست توسط «هو» و سپس «امیت و گمان» کامل شد. این تمرینات امروزی عبارتند از:
همچنین این گزارش نخستین فرجام تئوری برای جنگلهایی که از راه نقص سازماندهی تعمیم یافته بودند را بیان میکند که بستگی به قدرت درختها و ارتباط آنها دارد.
درخت تصمیم روش مشهوری برای انواع مختلفی از وظایف یادگیری ماشین به حساب میآید. با این حال در بسیاری موارد دقیق نیستند.[۱][۳]
در کل، معمولاً درخت تصمیمی که بیش از حد عمیق باشد الگوی دقیق نخواهد داشت: دچار بیش برارزش شده، و دارای سوگیری پایین و واریانس بالا میباشد. جنگل تصادفی روشی است برای میانگین گیری با هدف کاهش واریانس با استفاده از درختهای تصمیم عمیقی که از قسمتهای مختلف داده آموزشی ایجاد شده باشند. در این روش معمولاً افزایش جزئی سوگیری و از دست رفتن کمی از قابلیت تفسیر اتفاق افتاده اما در کل عملکرد مدل را بسیار افزایش خواهد داد.[۱][۲]
به علاوه به کمک انحراف معیار پیشبینیها از درختهای رگرسیون مستقل میتوان تخمینی از عدم قطعیت پیشبینی داشت:
تعداد نمونهها در فرمول بالا () یک متغیر آزاد است که معمولاً به کمک روشهایی مانند اعتبارسنجی متقابل یا مشاهدهٔ out-of-bag errorها مقدار بهینه را برای فرمول بالا میتوان بهدستآورد.
مجموعه داده را با نمایش میدهیم، و درخت تصادفی با ایجاد داده جدید از ایجاد میکنیم. مدل نهایی با میانگین گرفتن یا رأیگیری بین درختان کار میکند.[۷] جزئیات این الگوریتم ذیلاً آمدهاست:
برای تا :
در مسئله رگرسیون مدل نهائی، میانگین تمامی درختها است[۷] یعنی . از طرفی دیگر در مسئله دستهبندی یا Classification با رأیگیری بین درختان به جواب نهائی میرسیم.[۷]
این نوع ترکیب مدلها جواب بهتری به ما میدهد زیرا گوناگونی و تنوع مدلها را افزایش میدهد بدون این که بایاس را افزایش دهد! این بدین معناست که زمانی که پیشبینی تکی از یک درخت دارای نویز بالایی درون مجموعه دسته آموزش دیده اش باشد، در میانگین بسیاری از درختها این نویز وجود نخواهد داشت. به شکل ساده آموزش درختان به صورت تکی میتواند درختهای در ارتباط قوی تری را ارائه دهد. بوت استرپ کردن نمونه، روشی برای یکپارچهتر کردن درختها با نمایش مجموعه دادههای آموزش دیده گوناگون است.
روندی که گفته شد الگوریتم اصلی بگینگ برای درختان را توصیف میکند. جنگل تصادفی تنها یک اختلاف با این طرح کلی دارد: و آن این که از یک الگوریتم یادگیری درخت اصلاح شدهاستفاده میکند که در هر تقسیم کاندیدها در فرایند یادگیری، زیر مجموعهای تصادفی از ویژگیهای آن را پردازش میکنند. این پردازش گاهی «کیسهگذاری ویژگی» نامیده میشود. دلیل انجام این کار این است که ارتباط درختها در یک نمونه بوت استرپ معمولی را نشان میدهد. اگر یک یا چند ویژگی پیشبینیکنندهها، برای متغیر پاسخ (خروجی هدف) بسیار قوی باشد، این ویژگی در بسیاری از درختهای B که سبب ارتباط آنها میشود، انتخاب خواهد شد. آنالیز چگونگی کارکرد بگینگ و مجموعه دستههای تصادفی، کمک میکند تا بتوان به دقتهای با شرایط گوناگون دست یافت که توسط «هو» نیز ارائه شده بودند.
برای برداشتن یک گام دیگر در جهت تصادفیسازی به مدل درختان بینهایت تصادفی یاExtra-trees میرسیم. این مدل نیز مانند جنگل تصادفی از تجمیع تعدادی درخت مستقل استفاده میکند اما با دو تفاوت اساسی: اول آنکه هر درخت توسط تمام دادهٔ آموزش (و نه یک نمونهٔ bootstrap) train میشود و دوم آنکه در مرحلهٔ split کردن مقدار cut-point از یک توزیع احتمالاتی یکنواخت روی دامنهٔ مقادیر ممکن استفاده میشود که این برخلاف روش مرسوم که استفاده از معیارهایی مانند بهرهٔ اطلاعاتی یا ناخالصی جینی برای تعیین عدد cut-point است. تصادفیسازی این بخش آموزش را تسریع میبخشد.
جنگل تصادفی میتواند برای رتبهبندی اهمیت متغیرها در یک رگرسیون یا مسئلهٔ طبقهبندی به کار رود. تکنیکی که در ادامه آمدهاست در مقاله اصلی «بریمن» آورده شده بود و در پکیج R جنگل تصادفی اجرا میشود. نخستین گام در اهمیت اندازهگیری متغیرها در مجموعه دادهها که با نمایش میدهیم، fit کردن جنگل تصادفی روی داده هاست. در هنگام انجام این فرایند جایگذاری، out-of-bag error برای هر داده ضبط میشود و به از آن روی کل جنگل میانگین گرفته میشود.
برای اندازهگیری اهمیت امین ویژگی بعد از آموزش، مقدار اُمین ویژگی permuted از میان دادههای آموزش دیده و out-of-bag error دوباره روی این مجموعه داده محاسبه خواهد شد. اهمیت نمرهٔ اُمین ویژگی برابر است با میانگین این ارورها قبل و بعد از جایگشت روی تمام جنگل. این نمره با انحراف معیار اختلافها، نرمالایز میشود. ویژگیهایی که مقادیر بسیاری برای این نمره تولید میکنند نسبت به آن ویژگیهایی که مقدار کوچکی تولید میکنند بسیار با اهمیت تر هستند.[۲]
این روش تعیین اهمیت متغیر شامل برخی اشکالات میشود. برای دادهای که شامل متغیرهای بخشبندی شده با سطوح مختلف شمارههاست، جنگل تصادفی به این خاصیتشان بر اساس بالا یا پایین بودن سطح بایاس دارد و هرچه سطح بالاتر باشد بیشتر به سمت آنان سوگیری دارد. متدهایی همانند partial permutations و درختان در حال رشد بیطرف، میتواند برای حل مشکل به کار گرفته شوند. اگر داده شامل گروههایی از ویژگیهای مرتبط به هم با شبیهسازی برای خروجی باشد، در این حالت گروههای کوچک نسبت به گروههای بزرگ برتری دارند.
ارتباط بین جنگل تصادفی و الگوریتم کی-نزدیکترین همسایه (K-NN) در سال ۲۰۰۲ توسط «لین» و «جو» استخراج شد. به نظر میرسد که هردوی آنها میتوانند به عنوان طرح پروزنترین همسایه نامگذاری شوند.
اینها مدلهایی برای ساخت دادههای آموزش دیده {(xi,yi)} هستند که پیشبینیهای تازه y را برای x' با نگاه به همسایگی از نقاط، از طریق تابع وزن به صورت زیر درمیآورد:
در اینجا وزن غیر منفی از امین نقطه آموزش دیدهٔ همسایه با نقطهٔ جدید است. برای هر جمع وزنها باید برابر با یک باشد. تابعهای وزن در زیر آورده شدهاند:
۱. در k-NN وزنها اگر یکی از نقطهٔ نزدیک به باشد و درغیر این صورت صفر.
۲. در درخت اگر یکی از نقطهٔ نزدیک در برگ یکسان از باشد، و در غیر این صورت صفر.
به سبب این که میانگین جنگل مجموعهای از درختهای را با تابع وزن فردی پیشبینی میکند، پیشبینیهایش به صورت زیر در میآید:این نشان میدهد که جنگل تصادفی یک طرح همسایههای وزندار است با وزنهایی که برابر با میانگین وزنهای هر درخت هستند. همسایههای از این دید معادل هستند با نقاط که در هر درخت برگ مشترک دارند. همسایههای بهطور پیچیدهای به ساختار هر درخت و در نتیجه ساختار کل دادهٔ آموزش وابسته است. «لین» و «جو» نشان دادند که شکل همسایگی ای که جنگل تصادفی از آن بهره گرفتهاست با اهمیت محلی هر ویژگی مطابق است.
پیشبینیکنندههای جنگل تصادفی بهطور طبیعی و به عنوان بخشی از فرایند ساختشان به یک معیار عدم تشابه میان مشاهدات تبدیل میشوند. میتوان یک معیار عدم تشابه جنگل تصادفی را به صورت زیر تعریف کرد: ایدهٔ اصلی این است که از یک پیشبینیکننده جنگل تصادفی استفاده کنیم که میان دادهٔ مشاهدهشده و دادهٔ مصنوعی که به خوبی تولید شده تمایز بگذارد. منظور از دادهٔ مشاهده شده دادهٔ اصلی و بدون برچسب است و دادهٔ ساختگی نیز از یک توزیع مرجع گرفته میشود. یک عدم تشابه جنگل تصادفی میتواند به این علت که نسبت به تبدیلهای یکنوا روی ورودی بدون تغییر است و به خوبی از پس دادههای با انواع متغیر مختلط برمیآید و از لحاظ مشاهدات قوی است مورد توجه باشد. این معیار به سادگی از پس تعداد زیادی متغیر نیمهپیوسته برمیآید که این موضوع به دلیل ویژگی ذاتی انتخاب متغیرش است. بهطور مثال معیار Addcl 1 به مشارکت متغیرها بر اساس میزان مستقل بودنشان از دیگر متغیرها وزن میدهد. معیار عدم تشابه جنگل تصادفی در کاربردهای گوناگونی به کار رفتهاست.[۸]
یک نمونهٔ آموزش از متغیرهای جفت مستقل که روی مفروض است. میخواهیم را به کمک تابع رگرسیون پیشبینی کنیم. یک جنگل رگرسیون تصادفی را به صورت تجمیعی از درخت رگرسیون تصادفی در نظر بگیرید. حال اگر مقدار پبشبینیشده به ازای نقطهٔ را توسط درخت اُم با نشان دهیم که متغیرهای تصادفی مستقلاند که روی توزیع یک متغیر تصادفی قرار دارند و از نمونهٔ مستقلاند. این متغیر تصادفی میتواند برای توصیف میزان تصادفی بودنی که از splitها و فرایند نمونهگیری تأثیر میگیرد باشد. درختها برای شکلدادن تخمین متناهی درخت با هم ترکیب میشوند. برای درختهای رگرسیون داریم که سلول دارای طراحی شده با میزان تصادفی بودن و مجموعه دادهٔ و است. بری ارتقای روشهای جنگل تصادفی و بهبود تخمینهای نادرست اسکورنت KeRF زیر را پیشنهاد داد:[۹]
در انواع دیگری از جنگلهای تصادفی از مدلهای دیگری به عنوان تخمینگر پایه استفاده میشود. بهطور مثال رگرسیون لوجستیک چندجملهای و دستهبند بیز ساده.
در میان ابزارهای پشتیبانی تصمیم، درخت تصمیم و دیاگرام تصمیم دارای مزایایی هستند:
با آنکه جنگلهای تصادفی عموام به دقت بالاتری نسبت به یک درخت تصمیم میرسند، اما آنها ویژگی ذاتی قابلتفسیر بودن موجود در درختهای تصمیم را ندارند. درختهای تصمیم در میان گروه نسبتاً کوچکی از مدلهای یادگیری ماشین هستند که به سادگی تفسیر میشوند. تفسیرپذیری یکی از مورداستقبالترین ویژگیهای یک مدل است. این مدلها به توسعهدهندگان این امکان را میدهد که از واقعگرایانه بودن تصمیماتی که مدل میگیرد اطمینان حاصل کنند و همچنین به کاربران اطمینان بیشتری در اعتماد به تصمیمات گرفتهشده توسط مدل را میدهد.[۱۰] به علاوه، در مسائل با متغیرهای categorical متعدد، جنگل تصمیم ممکن است نتواند دقت مدل پایه را افزایش دهد. بهطور کلی در حالاتی که با افزایش تعداد یک تخمینگر نتوان به دقت بهتری رسید استفاده از آن توجیهی ندارد.[۱۱]
درخت تصمیم در بهینهسازی مشارکت اوراق بهادار مورد استفاده قرار گیرد. مثال زیر اوراق بهدار ۷ طرح مختلف را نشان میدهد. شرکت ۱۰۰۰۰۰۰۰۰ برای کل سرمایهگذاریها دارد. خطوط پر رنگ نشان دهنده بهترین انتخاب است که موارد ۱، ۳، ۵، ۶ و۷ را در بر میگیرد و هزینهای برابر ۹۷۵۰۰۰۰ دارد و سودی برابر ۱۶۱۷۵۰۰۰ برای شرکت فراهم میکند. مابقی حالات یا سود کمتری دارد یا هزینه بیشتری میطلبد.[۱۲]
در بازی بیست سؤالی، بازیکن باید یک درخت تصمیم در ذهن خود بسازد که به خوبی موارد را از هم جدا کند تا با کمترین سؤال به جواب برسد. در صورتی بازیکن به جواب میرسد که درخت ساخته شده بتواند به خوبی موارد را از هم جدا کند.
{{cite journal}}
: نگهداری CS1: url-status (link)
{{cite journal}}
: Check date values in: |date=
(help)
{{cite journal}}
: Unknown parameter |name-list-format=
ignored (|name-list-style=
suggested) (help)
{{cite journal}}
: Unknown parameter |name-list-format=
ignored (|name-list-style=
suggested) (help)
{{cite journal}}
: Check date values in: |date=
(help)
{{cite journal}}
: Check date values in: |date=
(help)
{{cite journal}}
: Cite journal requires |journal=
(help); Check date values in: |date=
(help)
{{cite journal}}
: External link in |journal=
(help); Unknown parameter |coauthors=
ignored (|author=
suggested) (help)