En l'aprenentatge automàtic, la xarxa d'autopista va ser la primera xarxa neuronal de feedforward molt profunda que funcionava amb centenars de capes, molt més profundes que les xarxes neuronals anteriors.[1] Utilitza connexions de salt modulades per mecanismes de gating apresos per regular el flux d'informació, inspirades en xarxes neuronals recurrents de memòria a curt termini (LSTM).[2][3] L'avantatge de la xarxa d'autopistes respecte d'altres arquitectures d'aprenentatge profund és la seva capacitat per superar o prevenir parcialment el problema del gradient de desaparició,[4] millorant així la seva optimització. Els mecanismes de gating s'utilitzen per facilitar el flux d'informació a través de les moltes capes ("autopistes de la informació").[1]
Les xarxes d'autopistes han trobat ús en les tasques d'etiquetatge de seqüències de text i de reconeixement de veu.
El 2014, l'estat de l'art estava entrenant xarxes neuronals profundes amb 20 a 30 capes. L'apilament de massa capes va provocar una forta reducció de la precisió de l'entrenament, conegut com el problema de la "degradació". El 2015 es van desenvolupar dues tècniques per entrenar aquestes xarxes: la xarxa d'autopistes (publicada al maig) i la xarxa neuronal residual, o ResNet (desembre). ResNet es comporta com una xarxa d'autopistes oberta.
El model té dues portes a més de la porta: la porta de transformació i la porta de transport . Les dues últimes portes són funcions de transferència no lineals (específicament sigmoides per convenció). La funció pot ser qualsevol funció de transferència desitjada.
La porta de transport es defineix com:
mentre que la porta de transformació és només una porta amb una funció de transferència sigmoide.
L'estructura d'una capa oculta a la xarxa d'autopistes segueix l'equació:
Sepp Hochreiter va analitzar el problema del gradient de desaparició el 1991 i li va atribuir el motiu pel qual l'aprenentatge profund no va funcionar bé.[5] Per superar aquest problema, les xarxes neuronals recurrents de memòria a curt termini (LSTM) [6] tenen connexions residuals amb un pes d'1,0 a cada cel·la LSTM (anomenada carrusel d'error constant) per calcular. . Durant la retropropagació a través del temps, aquesta es converteix en la fórmula residual per a xarxes neuronals anticipades. Això permet entrenar xarxes neuronals recurrents molt profundes amb un període de temps molt llarg t. Una versió posterior de LSTM publicada l'any 2000 [7] modula les connexions LSTM d'identitat mitjançant les anomenades "portes oblidades" de manera que els seus pesos no estan fixats a 1.0 però es poden aprendre. En els experiments, les portes oblidats es van inicialitzar amb pesos de biaix positius, [7] s'obrien així, abordant el problema del gradient de desaparició. Mentre les portes oblidades del LSTM del 2000 estiguin obertes, es comporta com el LSTM del 1997.
La xarxa d'autopistes de maig de 2015 aplica aquests principis a les xarxes neuronals anticipades. Es va informar que era "la primera xarxa de feedforward molt profunda amb centenars de capes".[8] És com un LSTM de 2000 amb portes oblidades desplegades en el temps, [9] mentre que les xarxes residuals posteriors no tenen cap equivalent de portes oblidades i són com la LSTM original de 1997 desplegada.[10] Si les connexions de salt a les xarxes d'autopistes són "sense portes" o si les seves portes es mantenen obertes (activació 1.0), es converteixen en xarxes residuals.
La connexió residual és un cas especial de la "connexió de drecera" o "connexió de salt" de Rosenblatt (1961) [11] i Lang i Witbrock (1988) [12] que té la forma . Aquí la matriu de pes inicialitzada aleatòriament A no ha de ser el mapeig d'identitat. Cada connexió residual és una connexió de salt, però gairebé totes les connexions de salt no són connexions residuals.
El document original de Highway Network no només va introduir el principi bàsic per a xarxes de feedforward molt profundes, sinó que també va incloure resultats experimentals amb xarxes de 20, 50 i 100 capes, i esmentava experiments en curs amb fins a 900 capes. Les xarxes amb 50 o 100 capes tenien un error d'entrenament menor que els seus homòlegs de xarxa senzilla, però cap error d'entrenament menor que el seu homòleg de 20 capes (al conjunt de dades MNIST). No es va informar cap millora en la precisió de les proves amb xarxes de més de 19 capes (al conjunt de dades CIFAR-10. El document ResNet, però, va proporcionar una forta evidència experimental dels beneficis d'aprofundir més de 20 capes. Va argumentar que el mapeig d'identitat sense modulació és crucial i va esmentar que la modulació en la connexió de salt encara pot conduir a la desaparició de senyals en la propagació cap endavant i cap enrere. També és per això que les portes oblidats del LSTM del 2000 [13] es van obrir inicialment mitjançant pesos de biaix positius: mentre les portes estiguin obertes, es comporta com el LSTM del 1997. De la mateixa manera, una xarxa d'autopistes les portes de la qual s'obren mitjançant pesos de biaix fortament positius es comporta com una ResNet. Les connexions de salt que s'utilitzen a les xarxes neuronals modernes (per exemple, Transformers) són principalment mapes d'identitat.