Reálná funkce jedné reálné proměnné zvaná ReLU (zkratka REctified Linear Unit)[1] nebo usměrňovač (rectifier) či rampa (ramp function) se používá především v kontextu umělých neuronových sítí jako aktivační funkce. Je definována jako kladná část svého argumentu:
kde x je vstup do neuronu. Její průběh popisuje také výstupní napětí ideálního usměrňovače v elektrotechnice v závislosti na vstupním napětí. Jako aktivační funkci ji zavedl Kunihiko Fukushima v roce 1969 v kontextu extrakce vizuálních prvků v hierarchických neuronových sítích.[2] Později se ukázalo, že má i biologickou motivaci a matematické odůvodnění.[3] V roce 2011 se zjistilo, že ReLU umožňuje lepší trénování hlubších sítí ve srovnání s předtím používanými aktivačními funkcemi, např. logistickou funkcí (která je inspirována teorií pravděpodobnosti; viz logistická regrese) nebo praktičtější hyperbolickou funkcí. ReLu a její varianty tak patří k nejoblíbenějším aktivačním funkcím pro hluboké učení a uplatňují se například v počítačovém vidění, rozpoznávání řeči[4] a výpočetní neurovědě.[5]
Řídká aktivace: Například v náhodně inicializované síti je aktivováno pouze asi 50 % skrytých jednotek (mají nenulový výstup).
Lepší šíření gradientu: Méně problémů s mizejícím gradientem ve srovnání se sigmoidálními aktivačními funkcemi, které saturují v obou směrech.
Efektivní výpočet: Pouze porovnávání, sčítání a násobení.
Invariantní vůči měřítku: .
V roce 2011 se ukázalo, že použití ReLU jako nelinearity umožňuje trénovat hluboké neuronové sítě s učitelem bez nutnosti předtrénování bez učitele. ReLU ve srovnání se sigmoidou nebo podobnými aktivačními funkcemi umožňují rychlejší a efektivnější trénování hlubokých neuronových architektur na velkých a komplexních souborech dat.
Funkce ReLU není diferencovatelná v nule; je však diferencovatelná všude jinde a hodnota derivace v nule může být libovolně zvolena 0 nebo 1.
Necentrovaná.
Neohraničená.
Neurony s ReLU mohou být někdy vytlačeny do stavů, ve kterých se stanou neaktivními v podstatě pro všechny vstupy (dying ReLU problem). V tomto stavu neprotékají neuronem zpět žádné gradienty, a tak neuron uvízne v trvale neaktivním stavu a „umírá“. Jde o variantu problému mizejícího gradientu. V některých případech může takto odumřít velké množství neuronů dané sítě, a to snižuje kapacitu modelu. Tento problém obvykle nastává, když je rychlost učení nastavena příliš vysoko. Může být zmírněn použitím tzv. netěsných (leaky) ReLU, které přiřazují malý kladný sklon pro x < 0; výkon sítě je však nižší.
Parametrické ReLU (PReLU) posouvá tuto myšlenku dále tím, že převádí koeficient netěsnosti do parametru, který se učí spolu s dalšími parametry neuronové sítě.
Tato aktivační funkce je znázorněna na obrázku na začátku tohoto článku. Má „hrbol“ nalevo od x = 0 a slouží jako výchozí aktivace například pro model BERT .
která se nazývá funkce softplus nebo SmoothReLU. Pro velký záporný argument je to zhruba , takže malé kladné číslo, zatímco pro velké kladné je to zhruba , takže těsně nad .
Zobecnění softplus na více vstupních proměnných je LogSumExp s prvním argumentem nastaveným na nulu:
Funkce LogSumExp je
a jeho gradient je softmax; softmax s prvním argumentem nastaveným na nulu je vícerozměrné zobecnění logistické funkce. LogSumExp i softmax se používají ve strojovém učení.
ELU (Exponential Linear Units, exponenciální lineární jednotky) mají střední aktivaci bližší nule, což urychluje učení. Bylo prokázáno, že ELU mohou dosáhnout vyšší přesnost klasifikace než ReLU.
V těchto vzorcích je hyperparametr, který se ladí s omezující podmínkou .
Na ELU lze pohlížet jako na vyhlazenou verzi posunuté ReLU (SReLU), která má tvar se stejnou interpretací .
kde je hyperparametr, který určuje rozsah zakřivené oblasti v blízkosti . (Například dává ReLU a dává funkci označovanou anglicky jako metallic means, kovové průměry.) Squareplus sdílí mnoho vlastností se softplus: Je monotónní, všude kladný, konverguje k 0 pro , konverguje k identitě pro a je hladký. Squareplus však lze vypočítat pouze pomocí algebraických funkcí, takže se dobře hodí pro situace, kde jsou omezené výpočetní zdroje nebo instrukční sady. Squareplus navíc nevyžaduje žádnou zvláštní pozornost k zajištění numerické stability, když je velké.
↑LIU, Danqing. A Practical Guide to ReLU [online]. 2017-11-30 [cit. 2024-03-26]. Dostupné online. (anglicky)
↑Competition and cooperation in neural nets: proceedings of the U.S.-Japan joint seminar held at Kyoto, Japan, February 15-19, 1982. Příprava vydání Shun-Ichi Amari, M. A. Arbib. Berlin Heidelberg: Springer 441 s. (Lecture notes in biomathematics). ISBN978-3-540-11574-8, ISBN978-0-387-11574-0.
↑HAHNLOSER, R. H.; SARPESHKAR, R.; MAHOWALD, M. A. Digital selection and analogue amplification coexist in a cortex-inspired silicon circuit. Nature. 2000-06-22, roč. 405, čís. 6789, s. 947–951. PMID: 10879535. Dostupné online [cit. 2024-03-26]. ISSN0028-0836. DOI10.1038/35016072. PMID10879535.
↑HANSEL, D.; VAN VREESWIJK, C. How noise contributes to contrast invariance of orientation tuning in cat visual cortex. The Journal of Neuroscience: The Official Journal of the Society for Neuroscience. 2002-06-15, roč. 22, čís. 12, s. 5118–5128. PMID: 12077207
PMCID: PMC6757721. Dostupné online [cit. 2024-03-26]. ISSN1529-2401. DOI10.1523/JNEUROSCI.22-12-05118.2002. PMID12077207.