یادگیری گروهی

در یادگیری ماشین و امار، یادگیری گروهی (به انگلیسی: Ensemble learning) به روشی گفته می‌شود که از الگوریتم های متفاوت برای پیشبینی نهایی خروجی ها استفاده می‌‌شود، در یادگیری گروهی چند الگوریتم بطور موازی خروجی را پیشبینی می‌کنند و خروجی نهایی آن خروجی ای می‌شود که بیشترین تکرار را در بین خروجی های پیشبینی شده داشته است^[۱]، البته مدل های متفاوتی از یادگیری گروهی وجود دارد که در بعضی از آن ها خروجی های پیشبینی شده توسط هر الگوریتم وزن متفاوتی دارند یا مدل هایی که به طور موازی خروجی را پیشبینی نمی‌کنند و از نتایج مدل قبل نیز بهره می‌برند. انتظار می‌رود که یادگیری گروهی نتایج بهتری در مقایسه با روش های پیشین که تنها از یک الگوریتم استفاده می‌کردند داشته باشد، به این فرض که بالاتر ذکر شد خرد جمعی (به انگلیسی: ^[۲]Wisdom of the Crowd) می‌گویند.

انواع روش های یادگیری گروهی

کیسه بندی

کیسه بندی (به انگلیسی:(Bootstrap aggregating (Bagging) یکی از روش های یادگیری گروهی است، در این روش برای ساختن مجموعه داده های تمرین برای هرکدام از مدل ها از مجموعه داده های اصلی انتخاب با جایگذاری صورت می‌گیرد(درنتیجه در هر انتخاب شانس حضور همه داده ها برابر است و در مجموعه نهایی هر داده ممکن است صفر، یک یا چند بار بیاید)، همچنین هر مدل تنها بر روی زیر مجموعه ای از ویژگی ها آموزش می‌بیند تا با بیشتر شدن تنوع و واریانس از بیش برازش (به انگلیسی: Overfitting) جلوگیری شود. استنتاج نهایی برای پیشبینی خروجی توسط رای اکثریت (به انگلیسی:Majority Voting) صورت می‌گیرد.

برای ارزیابی مدل از روش ارزیابی خارج از کیسه (به انگلیسی: Out-Of-Bag Evaluation) استفاده می‌شود^[۳]، از آنجا که داده های مدل ها زیر مجموعه ای از داده های اصلی بوده تعدادی از داده ها هرگز توسط مدل مشاهده نشده و برای ارزیابی می‌توان از آن ها استفاده کرد.

احتمال مشاهده نشدن داده توسط مدل:

$P(Not\ in\ Train\ set)=(1-{\frac {1}{n}})^{n}$

اگر تعداد داده زیاد شود( $n\longrightarrow \infty$ ):

$\lim _{n\to \infty }P(Not\ in\ Train\ set)=\lim _{n\to \infty }(1-{\frac {1}{n}})^{n}={\frac {1}{e}}\approx 0.368$

در نتیجه با زیاد شدن تعداد داده ها تقریبا $37\%$ آن ها در داده های آموزش مشاهده نشده و از آن ها برای ارزیابی می‌توان استفاده کرد.

در تصویر زیر یک نمونه از طبقه بندی با یادگیری گروهی آمده است، در این مثال از چهار درخت تصمیم (به انگلیسی: Decision Tree) با عمق ۱‌ (هرکدام فقط بر اساس یک ویژگی داده را تقسیم بندی می‌کنند) استفاده شده است و در نهایت از رای اکثریت برای طبقه بندی نهایی استفاده شده است.

افزایشی

افزایشی (به انگلیسی:Boosting) یکی از روش های یادگیری گروهی است، در این روش دیگر مدل ها موازی آموزش داده نمی‌شوند و هر مدل از اشتباهات مدل قبل سعی می‌کند عبرت بگیرد بدین صورت که داده ها در ابتدا همه وزن یکسانی دارند و پس از پایان آموزش هر مدل وزن داده ها بروزرسانی می‌شود و داده هایی که اشتباه طبقه بندی شده باشند وزن بیشتری به آن ها اختصاص می‌یابد تا مدل های بعدی اهمیت بیشتری به آن ها بدهند. از معایب روش افزایشی نسبت به روش کیسه بندی افزایش احتمال بیش برازش می‌باشد^[۴].

کاهش واریانس

مزیت استفاده از روش‌های یادگیری گروهی کاهش واریانس در مبادله بایاس و واریانس می‌باشد. بایاس ایجاد شده توسط روش‌های یادگیری گروهی را می‌تواند با استفاده از تخمین‌گر های بهتر (بایاس کم) کاهش داد.

اثبات

با توجه به فرض‌های زیر:

${\begin{array}{l}Var(X_{i})=\sigma ^{2}\\\max(Corr(X_{i},X_{j}))=\rho \\{\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}\end{array}}$

خواهیم داشت:

${\begin{array}{l}Var({\overline {X}})={\frac {1}{n^{2}}}Var\left(\sum _{i=1}^{n}X_{i}\right)\\Var(X)=E\left[X^{2}\right]-(E[X])^{2}\Longrightarrow Var\left(\sum _{i=1}^{n}X_{i}\right)=E\left[\left(\sum _{i=1}^{n}X_{i}\right)^{2}\right]-\left(E\left[\sum _{i=1}^{n}X_{i}\right]\right)^{2}\\E\left[\left(\sum _{i=1}^{n}X_{i}\right)^{2}\right]=E\left[\sum _{i=1}^{n}\sum _{j=1}^{n}X_{i}X_{j}\right]=\sum _{i=1}^{n}\sum _{j=1}^{n}E[X_{i}X_{j}]\\\left(E\left[\sum _{i=1}^{n}X_{i}\right]\right)^{2}=\left(\sum _{i=1}^{n}E[X_{i}]\right)^{2}=\sum _{i=1}^{n}\sum _{j=1}^{n}E[X_{i}]E[X_{j}]\\E\left[\left(\sum _{i=1}^{n}X_{i}\right)^{2}\right]-\left(E\left[\sum _{i=1}^{n}X_{i}\right]\right)^{2}=\sum _{i=1}^{n}\sum _{j=1}^{n}(E[X_{i}X_{j}]-E[X_{i}]E[X_{j}])\\=\sum _{i=1}^{n}\sum _{j=1}^{n}Cov(X_{i},X_{j})\\=\sum _{i=1}^{n}Var(X_{i})+\sum _{i\neq j}^{n}Cov(X_{i},X_{j})\leqslant n\sigma ^{2}+n(n-1)\sigma ^{2}\rho \\\Longrightarrow Var({\overline {X}})\leqslant {\frac {\sigma ^{2}}{n}}+{\frac {n-1}{n}}\sigma ^{2}\rho \\\Longrightarrow {\begin{cases}n\rightarrow \infty :Var({\overline {X}})\leqslant \sigma ^{2}\rho <\sigma ^{2}\\\rho \rightarrow 0:Var({\overline {X}})\leqslant {\frac {\sigma ^{2}}{n}}<\sigma ^{2}\end{cases}}\end{array}}$

پس در دو حالتی که:

۱- تعداد تخمین‌گر ها زیاد شود

۲- همبستگی بین تخمین‌گر ها به صفر میل کند

واریانس کاهش پیدا می‌کند.

جستار های وابسته

منابع

↑ Polikar, R. (2006). "Ensemble based systems in decision making". IEEE Circuits and Systems Magazine. 6 (3): 21–45. doi:10.1109/MCAS.2006.1688199. ISSN 1558-0830.
↑ Yi, Sheng Kung Michael; Steyvers, Mark; Lee, Michael D.; Dry, Matthew J. (2012-04). "The Wisdom of the Crowd in Combinatorial Problems". Cognitive Science (به انگلیسی). 36 (3): 452–470. doi:10.1111/j.1551-6709.2011.01223.x. {{cite journal}}: Check date values in: |date= (help)
↑ Brodeur, Zachary P.; Herman, Jonathan D.; Steinschneider, Scott (2020-08). "Bootstrap Aggregation and Cross‐Validation Methods to Reduce Overfitting in Reservoir Control Policy Search". Water Resources Research (به انگلیسی). 56 (8). doi:10.1029/2020WR027184. ISSN 0043-1397. {{cite journal}}: Check date values in: |date= (help)
↑ Schapire, Robert E. (1990-06-01). "The strength of weak learnability". Machine Learning (به انگلیسی). 5 (2): 197–227. doi:10.1007/BF00116037. ISSN 1573-0565.

[1] Polikar, R. (2006). "Ensemble based systems in decision making". IEEE Circuits and Systems Magazine. 6 (3): 21–45. doi:10.1109/MCAS.2006.1688199. ISSN 1558-0830.

[2] Yi, Sheng Kung Michael; Steyvers, Mark; Lee, Michael D.; Dry, Matthew J. (2012-04). "The Wisdom of the Crowd in Combinatorial Problems". Cognitive Science (به انگلیسی). 36 (3): 452–470. doi:10.1111/j.1551-6709.2011.01223.x. {{cite journal}}: Check date values in: |date= (help)

[3] Brodeur, Zachary P.; Herman, Jonathan D.; Steinschneider, Scott (2020-08). "Bootstrap Aggregation and Cross‐Validation Methods to Reduce Overfitting in Reservoir Control Policy Search". Water Resources Research (به انگلیسی). 56 (8). doi:10.1029/2020WR027184. ISSN 0043-1397. {{cite journal}}: Check date values in: |date= (help)

[4] Schapire, Robert E. (1990-06-01). "The strength of weak learnability". Machine Learning (به انگلیسی). 5 (2): 197–227. doi:10.1007/BF00116037. ISSN 1573-0565.

[۱]

[۲]

[۳]

[۴]