L'article necessita algunes millores de redacció. Hi ha fragments mal redactats.
Random forest (o random forests) també coneguts com '"Boscos Aleatoris"' son una combinació d'arbres predictors en estadística en el qual cada arbre depèn dels valors d'un vector aleatori provat independentment i amb la mateixa distribució per a cadascun d'aquests. És una modificació substancial de bagging que construeix una llarga col·lecció d'arbres no correlacionats fent una mitjana de tots els seus valors.[1][2]
L'algorisme per induir un random forest va ser desenvolupat per Leo Breiman[3] i Adele Cutler. El terme apareix en la primera proposta de random decision forests, formulada per Tin Kam Ho de Bell Labs el 1995. El mètode combina la idea de bagging de Breiman i la selecció aleatòria d'atributs, introduïda independentment per Ho, Amit i Geman, per construir una col·lecció d'arbres de decisió amb variació controlada.[4][5]
La selecció d'un subconjunt aleatori d'atributs és un exemple del mètode random subspace, el que, segons la formulació de Ho, és una manera de dur a terme la discriminació estocàstica proposada per Eugenio Kleinberg.[6]
En molts problemes el rendiment de l'algorisme random forest és molt similar a la del boosting, i és més simple d'entrenar i ajustar. Com a conseqüència, el random forest és popular i àmpliament utilitzat per milions de programadors i enginyers en la programació d'aprenentatge automàtic.
La idea essencial del bagging és fer una mitjana de molts models sorollosos però aproximadament imparcials, i per tant reduir la variació. Els arbres són els candidats ideals pel bagging, atès que ells poden registrar estructures d'interacció complexa en les dades, i si creixen suficientment profund, tenen relativament baixa parcialitat.
Cada arbre és construït usant el següent algorisme:
Sigui N el nombre de casos de prova, M és el nombre de variables en el classificador.
Sigui m el nombre de variables d'entrada a ser usat per determinar la decisió en un node donat; m ha de ser molt menor que M
Triar un conjunt d'entrenament per a aquest arbre i usar la resta dels casos de prova per estimar l'error.
Per a cada node de l'arbre, triar aleatòriament m variables en les quals basar la decisió. Calcular la millor partició del conjunt d'entrenament a partir de les m variables.
Per a la predicció d'un nou cas, és empès cap avall per l'arbre. Després se li assigna l'etiqueta del node terminal on acaba. Aquest procés és iterat per tots els arbres en l'assemblat, i l'etiqueta que obtingui la major quantitat d'incidències és reportada com la predicció.
Manejar centenars de variables d'entrada sense excloure cap.
Donar estimacions de quines variables són importants en la classificació.[1][2]
Tenir un mètode eficaç per estimar dades perdudes i mantenir l'exactitud quan una gran proporció de les dades està perduda.
Computar els prototips que donen informació sobre la relació entre les variables i la classificació.
Computar les proximitats entre els parells de casos que poden usar-se en els grups, localitzant valors atípics, o (ascendint) donant vistes interessants de les dades.
Oferir un mètode experimental per detectar les interaccions de les variables.
S'ha observat que els algorismes de Random forests sobreajusten en certs grups de dades amb tasques de classificació/regressió sorolloses.[8]
A diferència dels arbres de decisió, la classificació feta per random forests és difícil d'interpretar.[9]
Per a les dades que inclouen variables categòriques amb diferent nombre de nivells, el random forests es parcialitza a favor d'aquests atributs amb més nivells. Per tant, la posició que marca la variable no és fiable per a aquest tipus de dades. Mètodes com les permutacions parcials s'han usat per resoldre el problema[10]
Si les dades contenen grups d'atributs correlacionats amb similar rellevància per al rendiment, llavors els grups més petits estan afavorits sobre els grups més grans.[11]
Per formar una visualització intuïtiva de l'espai-model representat per un random forests, es va crear un set de dades que consisteix en 200 punts aleatoris (100 punts verds i 100 punts vermells). Els punts verds eren obtinguts a partir d'una distribució Gaussiana amb un centroide en (0,1), i els punts vermells eren obtinguts d'una distribució de Gaussiana amb un centroide en (1,0). En tots dos casos, la variació era circular amb un radi mitjà d'1.
El model del random forest, consistent de 50 arbres entrenats usant aquestes dades. La puresa del color indica la porció dels 50 arbres que van votar d'acord. Un over-fit (sobre ajust) significatiu pot ser observat en la visualització de Random Forest després de l'entrenament.
En contrast, es presenta la visualització d'un model de regressió logístic (menys propens al sobre ajustament), que també va ser entrenat usant aquestes mateixes dades.