نظریه یادگیری آماری چارچوبی برای یادگیری ماشینی است که از زمینه های آمار و آنالیز تابعی گرفته می شود.[۱][۲][۳] نظریه یادگیری آماری با مسئله استنباط آماری یافتن یک تابع پیش بینی بر اساس داده ها سر و کار دارد. تئوری یادگیری آماری منجر به کاربردهای موفقی در زمینه هایی مانند بینایی کامپیوتر، بازشناسی گفتار و بیوانفورماتیک شده است.
اهداف یادگیری درک و پیش بینی است. یادگیری به دسته های زیادی تقسیم می شود، از جمله یادگیری نظارتشده، یادگیری خودران، یادگیری ماشین برخط و یادگیری تقویتی. از دیدگاه تئوری یادگیری آماری، یادگیری تحت نظارت به بهترین وجه قابل درک است.[۴] یادگیری تحت نظارت شامل یادگیری از مجموعه دادههای آموزشی است. هر نقطه در آموزش یک جفت ورودی-خروجی است، جایی که ورودی به یک خروجی نگاشت می شود. مسئله یادگیری شامل استنباط تابعی است که بین ورودی و خروجی نگاشت می شود، به طوری که تابع آموخته شده بتواند برای پیش بینی خروجی از ورودی های آینده استفاده شود.
بسته به نوع خروجی، مسائل یادگیری تحت نظارت یا مسائل رگریسون یا مسائل طبقهبندی هستند. اگر خروجی یک محدوده پیوسته از مقادیر را بگیرد، مسئله رگرسیون است. مسائل طبقه بندی آنهایی هستند که خروجی آنها عنصری از مجموعه ای مجزا از برچسب ها خواهد بود. طبقه بندی برای کاربردهای یادگیری ماشین بسیار رایج است. به عنوان مثال، در تشخیص چهره، تصویری از چهره یک فرد ورودی است و برچسب خروجی نام آن شخص خواهد بود. ورودی با یک بردار چند بعدی بزرگ نشان داده می شود که عناصر آن پیکسل ها را در تصویر نشان می دهند. پس از یادگیری یک تابع بر اساس داده های مجموعه آموزشی، آن تابع بر روی یک مجموعه آزمایشی از داده ها، داده هایی که در مجموعه آموزشی ظاهر نشده اند، اعتبارسنجی می شود.
را فضای برداری همه ورودیهای ممکن و را فضای برداری همه خروجیهای ممکن در نظر بگیرید. تئوری یادگیری آماری این دیدگاه را ارائه میدهد که توزیع احتمال ناشناختهای در فضای وجود دارد، یعنی یک ناشناختهای وجود دارد. مجموعه آموزشی از نمونه از این توزیع احتمال تشکیل شده است و علامت گذاری شده است.
هر یک بردار ورودی از داده های آموزشی است و خروجی مربوط به آن است.
طبق این تعریف، مسئله استنتاج عبارت است از یافتن تابع به طوری که . بگذارید فضایی از توابع باشد که فضای فرضیه نامیده میشود. فضای فرضیه فضای توابعی است که الگوریتم در آن جستجو می کند. بگذارید تابع هزینه باشد، معیاری برای تفاوت بین مقدار پیشبینیشده و مقدار واقعی . ریسک مورد انتظار تعریف شده است:
تابع هدف،آن تابع است که برآورده میکند:
از آنجایی که توزیع احتمال ناشناخته است، باید یک معیار تقریبی برای ریسک مورد انتظار استفاده شود. این مقدار بر اساس مجموعه آموزشی، نمونه ای از این توزیع احتمال ناشناخته است. به آن ریسک تجربی می گویند:
الگوریتم یادگیری که تابع را انتخاب میکند که ریسک تجربی را به حداقل میرساند، حداقلسازی ریسک تجربی نامیده میشود.
انتخاب تابع هزینه یک عامل تعیین کننده بر روی تابع است که توسط الگوریتم یادگیری انتخاب خواهد شد. تابع هزینه همچنین بر نرخ همگرایی یک الگوریتم تأثیر می گذارد. مهم است که تابع هزینه, محدب باشد. [۵]
بسته به اینکه مشکل مربوط به رگرسیون یا طبقه بندی باشد، از توابع هزینه متفاوتی استفاده می شود.
متداول ترین تابع هزینه برای رگرسیون، تابع هزینه مربعات است (همچنین به عنوان نرم درجه دو شناخته می شود). این تابع هزینه آشنا در کمترین مربعات معمولی استفاده می شود. به این صورت:
هزینه قدر مطلق (همچنین به عنوان نرم درجه یک نیز شناخته می شود) گاهی اوقات استفاده می شود:
به نوعی، تابع مشخصه0-1 طبیعی ترین تابع هزینه برای طبقه بندی است. اگر خروجی پیش بینی شده با خروجی واقعی یکسان باشد، مقدار 0 را می گیرد و اگر خروجی پیش بینی شده با خروجی واقعی متفاوت باشد، مقدار 1 را می گیرد. برای طبقه بندی دودویی با ، این تابع برابر است با:
که در آن تابع پلهای یکه است.