Частина з циклу |
Машинне навчання та добування даних |
---|
Тео́рія статисти́чного навча́ння (англ. statistical learning theory) — це система машинного навчання, що тягнеться з галузей статистики та функціонального аналізу.[1][2] Теорія статистичного навчання займається задачею знаходження передбачувальної функції на основі даних. Теорія статистичного навчання привела до успішних застосунків у таких областях як комп'ютерний зір, розпізнавання мовлення, біоінформатика та бейсбол.[3]
Цілями навчання є передбачення та розуміння. Навчання поділяється на багато категорій, включно з керованим, некерованим, інтерактивним навчанням, та навчанням з підкріпленням. З точки зору теорії статистичного навчання найзрозумілішим є кероване навчання.[4] Кероване навчання включає навчання з тренувального набору даних. Кожна точка тренувального набору є парою входу-виходу, де вхід відображується на вихід. Задача навчання полягає у виведенні такої функції відображення між входом та виходом, яку можна застосовувати для передбачення виходу з майбутнього входу.
В залежності від типу виходу, задачі керованого навчання є задачами або регресії, або класифікації. Якщо вихід набуває неперервного діапазону значень, це є задачею регресії. Якщо взяти за приклад закон Ома, регресію може бути виконувано з напругою як вхід та струмом як вихід. Регресія встановить, що функційним взаємозв'язком між напругою та струмом є така , що
Задачі класифікації — це такі, для яких вихід буде елементом із дискретної множини міток. Серед застосувань машинного навчання класифікація є дуже поширеною. Наприклад, у розпізнаванні облич зображення обличчя особи буде входом, а вихідною міткою буде ім'я особи. Вхід представлятиметься великим багатовимірним вектором, чиї елементи представлятимуть пікселі цього зображення.
Після навчання функції на основі тренувального набору даних цю функцію перевіряють на перевірному наборі даних: даних, яких не було в тренувальному наборі.
Нехай буде векторним простором усіх можливих входів, а — векторним простором усіх можливих виходів. Теорія статистичного навчання розглядає можливість існування якогось невідомого розподілу ймовірності над простором добутку , тобто, що існує якийсь невідомий . Тренувальний набір робиться з зразків із цього розподілу ймовірності, й записується як
Кожен є вхідним вектором з тренувальних даних, а є виходом, що йому відповідає.
За такого формулювання задача виведення складається з пошуку такої функції , що . Нехай буде простором функцій , що називається простором гіпотез. Простір гіпотез є простором функцій, пошук яким здійснюватиме алгоритм. Нехай буде функціоналом втрат, метрикою різниці між передбаченим значенням та справжнім значенням . Очікуваний ризик визначається як
Цільова функція, найкраща можлива функція , яку може бути обрано, задається такою , яка задовольняє
Оскільки розподіл імовірності є невідомим, для очікуваного ризику мусить застосовуватися замінна міра. Ця міра ґрунтується на тренувальному наборі, вибірці з цього невідомого розподілу ймовірності. Вона називається емпіричним ризиком
Алгоритм навчання, який обирає таку функцію , яка мінімізує емпіричний ризик, називається мінімізацією емпіричного ризику.
Вибір функції втрат є визначальним чинником для функції , яку буде обрано алгоритмом навчання. Функція втрат також впливає й на темп збіжності алгоритму. Важливо, щоби функція втрат була опуклою.[5]
В залежності від того, чи відноситься задача до задач регресії, чи класифікації, застосовуються різні функції втрат.
Найзвичнішою функцією втрат для регресії є квадратична функція втрат (англ. square loss function, відома також як норма L2). Ця знайома функція втрат використовується у звичайній регресії найменших квадратів[en]. Вона виглядає так:
Іноді використовуються й втрати абсолютного значення (англ. absolute value loss, відомі також як норма L1):
Характеристична функція 0-1 є в певному сенсі найприроднішою функцією втрат для класифікації. Вона набуває значення 0, якщо передбачений вихід є таким самим, як і справжній, і набуває значення 1, якщо передбачений вихід відрізняється від справжнього. Для бінарної класифікації з це є
де є функцією Гевісайда.
Головною проблемою, яка виникає в задачах машинного навчання, є перенавчання. Оскільки навчання є задачею передбачення, метою є не знайти функцію, яка найщільніше допасовується до (попередньо спостережуваних) даних, а знайти таку, яка найточніше передбачуватиме вихід від майбутнього входу. Мінімізація емпіричного ризику запускає цей ризик перенавчання: шукаючи функцію, яка точно відповідає даним, але не передбачує добре майбутній вихід.
Перенавчання є симптомом нестійких розв'язків: невелике збурення в даних тренувального набору спричинюватиме великі відхилення в навченій функції. Може бути показано, що якщо може бути гарантовано стійкість розв'язку, то узагальнення та послідовність також гарантовано.[6][7] Регуляризація може розв'язувати проблему перенавчання й надавати задачі стійкості.
Регуляризації можна досягати обмеженням простору гіпотез . Поширеним прикладом може слугувати обмеження лінійними функціями: це можна розглядати як зведення задачі до стандартної задачі лінійної регресії. також може бути обмежено многочленами степеню , показниковими функціями, або обмеженими функціями на L1. Обмеження простору гіпотез дозволяє уникати перенавчання, оскільки обмежує вигляд потенційних функцій, і відтак унеможливлює вибір функції, що давала би як завгодно близький до нуля емпіричний ризик.
Одним із прикладів регуляризації є Регуляризація Тихонова. Вона складається з мінімізування
де є зафіксованим додатним параметром, параметром регуляризації. Регуляризація Тихонова забезпечує існування, унікальність та стійкість розв'язку.[8]