Ова активациона функција се почела појављивати у контексту екстракције визуелних карактеристика у хијерархијским неуронским мрежама почевши од краја 1960-их година. [3][4] Касније се тврдило да има јаке биолошке мотиве и математичка оправдања. [5] 2011. године је откривено да омогућава бољу обуку дубљих мрежа, [6] у поређењу са широко коришћеним активационим функцијама од пре 2011. године, на пример, логистички сигмоид (који је инспирисан теоријом вероватноће ; погледајте и логистичку регресију ) и његов практичнији [7] еквивалент, хиперболичка тангента . Исправљач је, од 2017. године, најпопуларнија активациона функција за дубоке неуронске мреже . [8]
Ретка активација: На пример, у насумично иницијализованој мрежи, само око 50% скривених јединица је активирано (имају не-нултну излазну вредност).
Боље ширење градијента: Мање проблема са нестајајућим градијентом у поређењу са функцијама сигмоидалне активације које се засићују у оба смера. [9]
Ефикасно рачунање: Само поређење, сабирање и множење.
Инваријантна размера: .
Активационе функције за исправљање су коришћене за раздвајање специфичне ексцитације и неспецифичних инхибиција у неурално апстрактној пирамиди, која је обучена на надгледајући начин да научи неколико задатака компјутерске визије. [15] У 2011. години, [9] показало се да употреба исправљача као нелинеарности омогућава обуку дубоко надгледаних неуронских мрежа без потребе за претходном обуком без надзора . Исправљене линеарне јединице, у поређењу са сигмоидном функцијом или сличним активационим функцијама, омогућавају бржи и ефикаснији тренинг дубоких неуронских архитектура на великим и сложеним скуповима података.
Није диференцијабилан на нули; међутим, може се разликовати било где другде, а вредност деривата на нули може се произвољно изабрати да буде 0 или 1.
Није нултно-центриран.
Неограниченост
Проблем умирања ReLU-а: ReLU (Rectified Linear Unit) неурони понекад могу бити гурнути у стања у којима постају неактивни за суштински све улазе. У овом стању, ниједан од градијената не тече уназад кроз неурон, тако да се неурон заглави у трајно неактивном стању и „умире“. Ово је облик проблема нестајања градијента . У неким случајевима, велики број неурона у мрежи може да се заглави у мртвим стањима, ефективно смањујући капацитет модела. Овај проблем се обично јавља када је стопа учења постављена превисоко. Може се ублажити коришћењем пропуштајућих ReLU-ова, који додељују мали позитиван нагиб за х < 0; међутим, перформансе су смањене.
Параметризовани ReLU-ови (PReLUs) развијају ову идеју даље тако што претварају коефицијент цурења у параметар који се учи заједно са другим параметрима неуронске мреже. [16]
Имајте на уму да су за а ≤ 1 ове две функције еквивалентне максималној вредности функције која се налази испод
GELU представља глатку апроксимацију исправљача. Има немонотонски „bump“ када је х < 0, и служи као подразумевана активација за моделе као што је БЕРТ . [18]
Апроксимација исправљача глатког и лаганог облика представља наведену аналитичку функцију која је представљена функцијом испод:
и та функција се назива softplus[21][9] или SmoothReLU . [22] За велике негативне вредности је отприлике једнако дакле нешто изнад 0, док за велике позитивне вредности је отприлике једнако тек мало изнад .
Параметар оштрине може бити укључено:
Извод softplus-а једнак је логистичкој функцији . Почевши од параметарске верзије,
Мултиваријабилна генерализација softplus-а са једном променљивом је [1]LogSumExp са првим аргументом који је постављен на нулу:
Функција LogSumExp је
а његов градијент представља [2]softmax ; softmax са првим аргументом који је постављен на нулу је мултиваријабилна генерализација логистичке функције. И LogSumExp и softmax се користе у машинском учењу.
Експоненцијалне линеарне јединице покушавају да учине средње активације буду ближе нули, што убрзава процес учења. Показало се да ELU могу постићи већу тачност класификације од ReLU-ова. [23]
где је хиперпараметар који треба подесити, и је ограничење.
ELU се може посматрати као да је изглађена верзија помереног ReLU (SReLU), који има облик функције с обзиром на исто тумачење .
^Liu, Danqing (30. 11. 2017). „A Practical Guide to ReLU”. Medium (на језику: енглески). Приступљено 8. 4. 2021.CS1 одржавање: Формат датума (веза)
^Fukushima, K. (1969). „Visual feature extraction by a multilayered network of analog threshold elements”. IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322—333. doi:10.1109/TSSC.1969.300225.
^Fukushima, K.; Miyake, S. (1982). „Neocognitron: A self-organizing neural network model for a mechanism of visual pattern recognition.”. In Competition and Cooperation in Neural Nets. Lecture Notes in Biomathematics. Springer. 45: 267—285. ISBN978-3-540-11574-8. doi:10.1007/978-3-642-46466-9_18.
^Hahnloser, R.; Sarpeshkar, R.; Mahowald, M. A.; Douglas, R. J.; Seung, H. S. (2000). „Digital selection and analogue amplification coexist in a cortex-inspired silicon circuit”. Nature. 405 (6789): 947—951. Bibcode:2000Natur.405..947H. PMID10879535. doi:10.1038/35016072.
^. Архивирано из оригинала|archive-url= захтева |url= (помоћ)|archive-url= захтева |archive-date= (помоћ). г.Недостаје или је празан параметар |title= (помоћ)
^ абвг. Архивирано из оригинала|archive-url= захтева |url= (помоћ)|archive-url= захтева |archive-date= (помоћ). г.Недостаје или је празан параметар |title= (помоћ)Xavier Glorot, Antoine Bordes and Yoshua Bengio (2011). Deep sparse rectifier neural networksАрхивирано на сајту Wayback Machine (13. децембар 2016) (PDF). AISTATS. Rectifier and softplus activation functions. The second one is a smooth version of the first.{{cite conference}}: CS1 maint: uses authors parameter (link)
^. Архивирано из оригинала|archive-url= захтева |url= (помоћ)|archive-url= захтева |archive-date= (помоћ). г.Недостаје или је празан параметар |title= (помоћ)
^He, Kaiming; Zhang, Xiangyu. „Delving Deep into Rectifiers: Surpassing Human-Level Performance on Image Net Classification”. arXiv:1502.01852 [cs.CV].
^He, Kaiming; Zhang, Xiangyu. „Delving Deep into Rectifiers: Surpassing Human-Level Performance on Image Net Classification”. arXiv:1502.01852 [cs.CV].He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015). "Delving Deep into Rectifiers: Surpassing Human-Level Performance on Image Net Classification". arXiv:1502.01852 [cs.CV].
^Hendrycks, Dan; Gimpel, Kevin. „Gaussian Error Linear Units (GELUs)”. arXiv:1606.08415 [cs.LG].
^Hendrycks, Dan; Gimpel, Kevin. „Gaussian Error Linear Units (GELUs)”. arXiv:1606.08415 [cs.LG].Hendrycks, Dan; Gimpel, Kevin (2016). "Gaussian Error Linear Units (GELUs)". arXiv:1606.08415 [cs.LG].
^Dugas, Charles; Bengio, Yoshua; Bélisle, François; Nadeau, Claude; Garcia, René (2000-01-01). „Incorporating second-order functional knowledge for better option pricing”(PDF). Proceedings of the 13th International Conference on Neural Information Processing Systems (NIPS'00). MIT Press: 451—457. „Since the sigmoid h has a positive first derivative, its primitive, which we call softplus, is convex.”