Mecanisme de gating

A les xarxes neuronals, el mecanisme de gating és un motiu arquitectònic per controlar el flux de senyals d'activació i gradient. S'utilitzen de manera més destacada en xarxes neuronals recurrents (RNN), però també han trobat aplicacions en altres arquitectures.[1]

Els mecanismes de gating són la peça central de la memòria a llarg termini (LSTM).[2] Es van proposar per mitigar el problema del gradient de desaparició que sovint es troben els RNN habituals.

Una unitat LSTM conté tres portes:

  • Una porta d'entrada, que controla el flux de nova informació a la cel·la de memòria
  • Una porta d'oblit, que controla quanta informació es conserva del pas de temps anterior
  • Una porta de sortida, que controla quanta informació es passa a la capa següent.

Les equacions per a LSTM són: [3]

Aquí, representa la multiplicació per elements.

La unitat recurrent gated (GRU) simplifica el LSTM.[4] En comparació amb el LSTM, el GRU només té dues portes: una porta de restabliment i una porta d'actualització. GRU també fusiona l'estat de la cel·la i l'estat ocult. La porta de restabliment correspon aproximadament a la porta d'oblit, i la porta d'actualització correspon aproximadament a la porta d'entrada. S'elimina la porta de sortida.

Hi ha diverses variants de GRU. Una variant concreta té aquestes equacions: [5]

Unitat lineal tancada

[modifica]

Gated Linear Units (GLU) [6] adapten el mecanisme de gating per utilitzar-lo en xarxes neuronals d'alimentació anticipada, sovint dins d'arquitectures basades en transformadors. Es defineixen com:

on

són la primera i la segona entrada, respectivament. representa la funció d'activació del sigmoide.

Substituint amb altres funcions d'activació condueix a variants de GLU:

on ReLU, GELU i Swish són funcions d'activació diferents (vegeu aquesta taula per a les definicions).

En els models de transformadors, aquestes unitats de porta s'utilitzen sovint en els mòduls d'alimentació anticipada. Per a una entrada vectorial única, això resulta en:

El mecanisme de gating s'utilitza a les xarxes d'autopistes, que es van dissenyar desenrotllant un LSTM.

Channel gating [7] utilitza una porta per controlar el flux d'informació a través de diferents canals dins d'una xarxa neuronal convolucional (CNN).

Referències

[modifica]
  1. «Gating Mechanisms in Neural Networks» (en anglès). [Consulta: 31 gener 2025].
  2. Sepp Hochreiter; Jürgen Schmidhuber Neural Computation, 9, 8, 1997, pàg. 1735–1780. DOI: 10.1162/neco.1997.9.8.1735. PMID: 9377276.
  3. Zhang, Aston. «10.1. Long Short-Term Memory (LSTM)». A: Dive into deep learning (en anglès). Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press, 2024. ISBN 978-1-009-38943-3. 
  4. Cho, Kyunghyun; van Merrienboer, Bart; Bahdanau, DZmitry; Bougares, Fethi; Schwenk, Holger Association for Computational Linguistics, 2014. arXiv: 1406.1078.
  5. Zhang, Aston. «10.2. Gated Recurrent Units (GRU)». A: Dive into deep learning (en anglès). Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press, 2024. ISBN 978-1-009-38943-3. 
  6. Dauphin, Yann N.; Fan, Angela; Auli, Michael; Grangier, David (en anglès) Proceedings of the 34th International Conference on Machine Learning, 17-07-2017, pàg. 933–941. arXiv: 1612.08083.
  7. Hua, Weizhe; Zhou, Yuan; De Sa, Christopher M; Zhang, Zhiru; Suh, G. Edward Advances in Neural Information Processing Systems, 32, 2019. arXiv: 1805.12549.