У машинском учењу, оптимизација хиперпараметара [1] или подешавање је проблем избора скупа оптималних хиперпараметара за алгоритам учења. Хиперпараметар је параметар чија вредност се користи за контролу процеса учења.
Оптимизација хиперпараметара проналази низ хиперпараметара помоћу којих се добија оптимални модел који минимизира функцију губитка. [2] Функција циља узима низ хиперпараметара и враћа повезани губитак. [2] Унакрсна валидација се често користи за процену перформанси, па се на основу ње врши одабир вредности хиперпараметара из одређеног скупа тако да одабране вредности максимизирају перформансе. [3]
Традиционална метода за оптимизацију хиперпараметара је претрага мреже (енгл. grid search) или претрага параметара односно претрага грубом силом над ручно дефинисаним подскупом скупа хиперапараметара коришћеним у алгоритму учења. Алгоритам претраге мреже мора бити праћен неком метриком за мерење перформанси, која се уобичајено мери унакрсном валидацијом над скупом за тренирање.[4][5]
С обзиром да параметри могу да имају реалне или неограничене вредности, може бити неопходно ручно поставити границе и извршити дискретизацију пре примене претраге мреже.
На пример, SVM класификатор са RBF језгром има најмање два хиперпараметра која треба да се подесе како би перформансе над непознатим подацима биле добре: регуларизациона константа C и хиперпараметар језгра γ. Оба параметра су континуална, тако да се за извођење претраге мреже бира коначан скуп вредности за сваки, рецимо
Метода претраге мреже онда тренира SVM са паром (C, γ) у облику Декартовог производа ова два скупа и процењује перформансе на валидационим скупу (или унакрсном валидацијом на подацима за тренирање, у ком случају се више SVM-ова тренира по пару). На крају, алгоритам претраге мреже даје она подешавања која су постигла најбољи резултат у процесу валидације.
Мана методе претраге мреже је проблем димензионалности. Са друге стране овај проблем се лако може паралелизовати јер су подешавања хиперпараметара које метода процењује обично независна једна од других. [3]
Слуачајна претрага је процес који замењује исцрпљујуће набрајање свих комбинација тако што се оне бирају насумично. Предност у односу на претрагу мреже јесте то што случајна претрага може да истражи много више вредности за континуалне хиперпараметре него што би то претрага мреже могла. Може надмашити претрагу мреже, посебно када само мали број хиперпараметара утиче на коначне перформансе алгортима машинског учења.[3] У овом случају се каже да проблем оптимизације има ниску унутрашњу димензионалност.[6] Случајна претрага се такође може лако паралелизовати и она додатно дозвољава укључивање претходног знања, одређивањем расподеле из које се узоркује. Упркос својој једноставности, случајна претрага остаје једна од важних основа у односу на коју се пореде перформансе нових метода за оптимизацију хиперпараметара.
Бајесова оптимизација је метода глобалне оптимизације за black-box функције. Код оптимизације хиперпараметара, Бајесова оптимизација гради модел вероватноће функције. У пракси се показало[7][8][9][10] да Бајесова оптимизација даје боље резултате са мање евалуација у поређењу са претрагом мреже и случајном претрагом, захваљујући способности да пре спровођења експеримената размишља о њиховом квалитету.
За одређене алгоритме учења, могуће је израчунати градијент у односу на хиперпараметре и након тога оптимизовати хиперпараметре користећи алгоритам опадајућег градијента. Прва употреба ових техинка била је усмерена на неуронске мреже.[11] Од тада, ове методе су проширене на друге моделе, као што су метода потпорних вектора[12] или логистичка регресија.[13]
Еволуциона оптимизација је методологија за глобалну оптимизацију black-box функција. Код оптимизације хиперпараметара, еволуциона оптимизација користи еволуционе алгоритме за претрагу простора хиперпараметара за задати алгоритам.[8]
У току тренирања заснованог на популацији (енгл. Population Based Training - PBT) уче се и вредности хиперпараметара и тежине мреже. Више процеса учења ради независно, користећи различите хиперпараметре.
Класа алгоритама за оптимизацију хиперпараметара заснованих на раном заустављању је специјално направљена за велике просторе претраге континуалних и дискретних хиперпараметара, посебно за случај када су захтеви у погледу времена и ресурса потребних за процену перформанси скупа хиперпараметара високи.
RBF[14] и спектралне[15] методе су такође развијене.
Када се врши оптимизација хиперпараметара, скуп хиперпараметара се често прилагођава на скупу података за тренирање и бира на основу перформанси генерализације или резултата на валидационом скупу података. Међутим, овај поступак је у ризику од преприлагођавања (енгл. overfitting) хиперпараметара на валидационом скупу. Стога, оцена перформанси генерализације на валидационом скупу (у случају унакрсне валидације може бити неколико скупова) не може бити истовремено коришћена за процену перформански генерализације коначног модела.