La intel·ligència artificial explicable (XAI) es refereix a mètodes i tècniques en l'aplicació de la intel·ligència artificial (IA) que permeten als usuaris humans entendre i interpretar els resultats obtinguts. Contrasta amb el concepte de "caixa negra" dins l'aprenentatge automàtic, on fins i tot els dissenyadors d'un algorisme no poden explicar per què aquest arriba a una decisió específica.[1] La XAI es considera una implementació del dret social a l'explicació.[2]
El disseny d'algorismes en IA sovint contraposa la precisió d'un model amb la seva interpretabilitat.[3] Per exemple, els models d'aprenentatge profund obtenen resultats punters degut a la seva complexitat, però aquesta mateixa fa impossible seguir el raonament de la màquina, pas a pas. En canvi, els arbres de decisió es poden entendre fàcilment, però obtenen pitjors resultats. En aquest sentit, els algorismes d'aprenentatge automàtic es poden classificar en models de caixa blanca, si són interpretables per experts, i models de caixa negra, si no ho són.[4] En certes aplicacions (com ara filtres de càmera), entendre el raonament de la màquina no és essencial i podem prioritzar la precisió del model, però en altres (com ara el diagnòstic mèdic o l'avaluació de risc en una assegurança), hi ha riscs ètics i legals si no entenem el procés de decisió, així que hem de considerar l'interpretabilitat. Tot i així, cal remarcar que l'interpretabilitat pot ser beneficiosa fins i tot sense riscos, ja que permet justificar les decisions preses en el disseny, i validar el correcte funcionament de l'algorisme.[5]
La XAI no es limita a l'elecció d'uns models sobre uns altres. Els models de caixa negra es poden estudiar bé considerant l'estructura interna de l'algorisme (per exemple, Grad-CAM per a xarxes neuronals convolucionals[6]), o bé considerant-lo com una autèntica caixa negra (per exemple, l'aproximació local LIME).[7]