L'aprenentatge de regles d'associació és un mètode d'aprenentatge automàtic basat en regles per descobrir relacions interessants entre variables en grans bases de dades. Es pretén identificar regles fortes descobertes en bases de dades utilitzant algunes mesures d'interès. En qualsevol transacció determinada amb una varietat d'elements, les regles d'associació estan destinades a descobrir les regles que determinen com o per què es connecten determinats elements.[1]
Basant-se en el concepte de regles fortes, Rakesh Agrawal, Tomasz Imieliński i Arun Swami [2] van introduir regles d'associació per descobrir regularitats entre productes en dades de transaccions a gran escala registrades per sistemes de punts de venda (POS) als supermercats. Per exemple, la regla trobat a les dades de vendes d'un supermercat indicaria que si un client compra ceba i patates junts, és probable que també compri botifarres. Aquesta informació es pot utilitzar com a base per prendre decisions sobre activitats de màrqueting com, per exemple, preus promocionals o ubicacions de productes.
A més de l'exemple anterior de l'anàlisi de cistella de mercat, les regles d'associació s'utilitzen avui en dia en moltes àrees d'aplicació, com ara la mineria d'ús web, la detecció d'intrusions, la producció contínua i la bioinformàtica. En contrast amb la mineria de seqüències, l'aprenentatge de regles d'associació normalment no té en compte l'ordre dels elements ni dins d'una transacció ni entre transaccions.
El propi algorisme de regles d'associació consta de diversos paràmetres que poden dificultar l'execució per a aquells que no tenen experiència en mineria de dades, amb moltes regles difícils d'entendre.[3]
Seguint la definició original d'Agrawal, Imieliński, Swami [4] el problema de la mineria de regles d'associació es defineix com:
SIgui un conjunt de atributs binaris anomenats elements.
Sigui un conjunt de transaccions anomenat base de dades .
Cada transacció en té un identificador de transacció únic i conté un subconjunt d'elements .
Una regla es defineix com una implicació de la forma:
, on .
A Agrawal, Imieliński, Swami [5] només es defineix una regla entre un conjunt i un únic element, per
Cada regla està composta per dos conjunts diferents d'elements, també coneguts com a conjunts d'elements, i , on s'anomena antecedent o costat esquerre (LHS) i consegüent o a mà dreta (RHS). L'antecedent és aquell element que es pot trobar a les dades mentre que el conseqüent és l'element trobat quan es combina amb l'antecedent. La declaració sovint es llegeix com si aleshores , on l'antecedent ( ) és el si i el conseqüent ( ) és el llavors . Això simplement implica que, en teoria, sempre es produeix en un conjunt de dades, doncs també ho farà.