در یادگیری ماشین و امار، یادگیری گروهی (به انگلیسی: Ensemble learning) به روشی گفته میشود که از الگوریتم های متفاوت برای پیشبینی نهایی خروجی ها استفاده میشود، در یادگیری گروهی چند الگوریتم بطور موازی خروجی را پیشبینی میکنند و خروجی نهایی آن خروجی ای میشود که بیشترین تکرار را در بین خروجی های پیشبینی شده داشته است[۱]، البته مدل های متفاوتی از یادگیری گروهی وجود دارد که در بعضی از آن ها خروجی های پیشبینی شده توسط هر الگوریتم وزن متفاوتی دارند یا مدل هایی که به طور موازی خروجی را پیشبینی نمیکنند و از نتایج مدل قبل نیز بهره میبرند. انتظار میرود که یادگیری گروهی نتایج بهتری در مقایسه با روش های پیشین که تنها از یک الگوریتم استفاده میکردند داشته باشد، به این فرض که بالاتر ذکر شد خرد جمعی (به انگلیسی: [۲]Wisdom of the Crowd) میگویند.
کیسه بندی (به انگلیسی:(Bootstrap aggregating (Bagging) یکی از روش های یادگیری گروهی است، در این روش برای ساختن مجموعه داده های تمرین برای هرکدام از مدل ها از مجموعه داده های اصلی انتخاب با جایگذاری صورت میگیرد(درنتیجه در هر انتخاب شانس حضور همه داده ها برابر است و در مجموعه نهایی هر داده ممکن است صفر، یک یا چند بار بیاید)، همچنین هر مدل تنها بر روی زیر مجموعه ای از ویژگی ها آموزش میبیند تا با بیشتر شدن تنوع و واریانس از بیش برازش (به انگلیسی: Overfitting) جلوگیری شود. استنتاج نهایی برای پیشبینی خروجی توسط رای اکثریت (به انگلیسی:Majority Voting) صورت میگیرد.
برای ارزیابی مدل از روش ارزیابی خارج از کیسه (به انگلیسی: Out-Of-Bag Evaluation) استفاده میشود[۳]، از آنجا که داده های مدل ها زیر مجموعه ای از داده های اصلی بوده تعدادی از داده ها هرگز توسط مدل مشاهده نشده و برای ارزیابی میتوان از آن ها استفاده کرد.
احتمال مشاهده نشدن داده توسط مدل:
اگر تعداد داده زیاد شود():
در نتیجه با زیاد شدن تعداد داده ها تقریبا آن ها در داده های آموزش مشاهده نشده و از آن ها برای ارزیابی میتوان استفاده کرد.
در تصویر زیر یک نمونه از طبقه بندی با یادگیری گروهی آمده است، در این مثال از چهار درخت تصمیم (به انگلیسی: Decision Tree) با عمق ۱ (هرکدام فقط بر اساس یک ویژگی داده را تقسیم بندی میکنند) استفاده شده است و در نهایت از رای اکثریت برای طبقه بندی نهایی استفاده شده است.
An example of the aggregation process for an ensemble of decision trees. Individual classifications are aggregated, and an overall classification is derived.
افزایشی (به انگلیسی:Boosting) یکی از روش های یادگیری گروهی است، در این روش دیگر مدل ها موازی آموزش داده نمیشوند و هر مدل از اشتباهات مدل قبل سعی میکند عبرت بگیرد بدین صورت که داده ها در ابتدا همه وزن یکسانی دارند و پس از پایان آموزش هر مدل وزن داده ها بروزرسانی میشود و داده هایی که اشتباه طبقه بندی شده باشند وزن بیشتری به آن ها اختصاص مییابد تا مدل های بعدی اهمیت بیشتری به آن ها بدهند. از معایب روش افزایشی نسبت به روش کیسه بندی افزایش احتمال بیش برازش میباشد[۴].
مزیت استفاده از روشهای یادگیری گروهی کاهش واریانس در مبادله بایاس و واریانس میباشد. بایاس ایجاد شده توسط روشهای یادگیری گروهی را میتواند با استفاده از تخمینگر های بهتر (بایاس کم) کاهش داد.