La selecció de característiques és el procés de selecció d'un subconjunt de característiques rellevants (variables, predictors) per utilitzar-les en la construcció de models. La estilometria i l'anàlisi de microarrays d'ADN són dos casos en què s'utilitza la selecció de característiques. S'ha de distingir de l'extracció de característiques.[1]
Les tècniques de selecció de característiques s'utilitzen per diversos motius:
simplificació dels models per fer-los més fàcils d'interpretar pels investigadors/usuaris,[2]
La premissa central quan s'utilitza una tècnica de selecció de característiques és que les dades contenen algunes característiques que són redundants o irrellevants i, per tant, es poden eliminar sense incórrer en molta pèrdua d'informació.[9]Redundant i irrellevant són dues nocions diferents, ja que
una característica rellevant pot ser redundant en presència d'una altra característica rellevant amb la qual està fortament correlacionada.
L'extracció de característiques crea noves característiques a partir de les funcions de les característiques originals, mentre que la selecció de característiques retorna un subconjunt de les característiques. Les tècniques de selecció de característiques s'utilitzen sovint en dominis on hi ha moltes característiques i comparativament poques mostres (o punts de dades).
Un algorisme de selecció de característiques es pot veure com la combinació d'una tècnica de cerca per proposar nous subconjunts de característiques, juntament amb una mesura d'avaluació que puntua els diferents subconjunts de
característiques. L'algorisme més senzill és provar cada possible subconjunt de característiques trobant la que minimitzi la taxa d'error. Es tracta d'una cerca exhaustiva de l'espai i és insoluble computacionalment per a tots els conjunts de característiques menys el més petit. L'elecció de la mètrica d'avaluació influeix molt en l'algorisme, i són aquestes mètriques d'avaluació les que distingeixen entre les tres categories principals d'algoritmes de selecció de característiques: embolcalls, filtres i mètodes incrustats.