La barreja d'experts (MoE) és una tècnica d'aprenentatge automàtic on s'utilitzen múltiples xarxes d'experts (aprenents) per dividir un espai problemàtic en regions homogènies.[1] Es diferencia de les tècniques de conjunt en què, per a MoE, normalment només s'executen un o uns quants models experts per a cada entrada, mentre que en les tècniques de conjunt, tots els models s'executen a cada entrada.
En barreja d'experts, sempre tenim els següents ingredients, però es construeixen i es combinen de manera diferent.
Tant els experts com la funció de ponderació s'entrenen minimitzant algun tipus de funció de pèrdua, generalment per descens de gradients. Hi ha molta llibertat a l'hora d'escollir la forma precisa d'experts, la funció de ponderació i la funció de pèrdua.
La xarxa meta-pi, informada per Hampshire i Waibel, [2] utilitza com a sortida. El model s'entrena realitzant un descens de gradient sobre la pèrdua d'error quadrat mitjà . Els experts poden ser funcions arbitràries.
Les mescles adaptatives d'experts locals [3][4] utilitzen un model de mescles gaussianes. Cada expert simplement prediu una distribució gaussiana i ignora totalment l'entrada. Concretament, el -è expert prediu que la sortida és , on és un paràmetre aprendre. La funció de ponderació és una funció lineal-softmax:
Les mescles jeràrquiques d'experts [5][6] utilitzen múltiples nivells de gating en un arbre. Cada gating és una distribució de probabilitat sobre el següent nivell de gatings, i els experts es troben als nodes de la fulla de l'arbre. Són semblants als arbres de decisió.
La secció anterior descrivia el MoE tal com s'utilitzava abans de l'era de l'aprenentatge profund. Després d'un aprenentatge profund, MoE va trobar aplicacions per executar els models més grans, com una forma senzilla de realitzar càlculs condicionals: només s'utilitzen parts del model, les parts escollides segons quina és l'entrada.
El primer article que aplica MoE a l'aprenentatge profund és que proposa utilitzar una xarxa de gating diferent a cada capa d'una xarxa neuronal profunda. Concretament, cada gating és una xarxa lineal-ReLU-lineal-softmax, i cada expert és una xarxa lineal-ReLU.
L'objectiu clau del disseny per al MoE en l'aprenentatge profund és reduir el cost informàtic. En conseqüència, per a cada consulta, només s'hauria de consultar un petit subconjunt d'experts. Això fa que el MoE en aprenentatge profund sigui diferent del MoE clàssic. En el MoE clàssic, la sortida de cada consulta és una suma ponderada de les sortides de tots els experts. En el MoE d'aprenentatge profund, la sortida de cada consulta només pot incloure les sortides d'uns pocs experts. En conseqüència, l'opció clau de disseny a MoE es converteix en l'encaminament: donat un lot de consultes, com dirigir les consultes als millors experts.
Les capes de MoE s'utilitzen en models de transformadors molt grans, per als quals aprendre i inferir sobre el model complet és massa costós. Normalment són poc tancats, amb escàs 1 o 2. En els models de transformador, les capes MoE s'utilitzen sovint per seleccionar les capes d'alimentació anticipada (normalment una xarxa lineal-ReLU-lineal), que apareixen a cada bloc de transformador després de l'atenció multicapçalera. Això es deu al fet que les capes de feedforward ocupen una part creixent del cost informàtic a mesura que els models creixen. Per exemple, en el model Palm-540B, el 90% dels paràmetres es troben a les seves capes de feedforward.[7]