Ikasketa automatikoa eta Datu-meatzaritza |
---|
![]() |
Erabaki-zuhaitzen bidezko ikaskuntza eredu iragarle moduan erabaki-zuhaitza erabiltzen duen teknika da. Estatistikan, datu-meatzaritzan eta ikasketa automatikoan asko erabiltzen den eredu iragarlea da. Erabaki-aldagaia (edo klase-aldagaia) diskretua denean (balio kopuru finitua hartzen duenean) erabaki-zuhaitzak sailkatze-zuhaitz izena hartzen du eta jarraia denean (aldagaiak balio erreala hartzen duenean), erregresio-zuhaitz izena.
Artikulu hau datu-meatzaritzan erabiltzen diren erabaki-zuhaitzei buruzkoa da.
Erabaki-zuhaitzen bidezko ikaskuntza datu-meatzaritzan oso erabilia den teknika bat da[1]. Eredu iragarlea izanik, kasu (instantzia, prototipo) berri baten aurrean bere klase-aldagaiaren balioari buruzko iragarpena egiteko balioko duen eredua sortzea da helburua. Kasuei buruzko informazioa aldagai iragarleek jasotzen dute. Eskuineko irudian erabaki-zuhaitz baten adibidea ikus daiteke. Barne-erpin bakoitza aldagai iragarle bati egiten zaion testari dagokio. Hosto bakoitzean klase-aldagairako iragarritako balioa zehazten da. Sailkatu beharreko kasu berri baten aurrean, aldagai iragarleen balioen arabera hosto batera edo bestera iritsi eta klase-aldagairako balio bat edo beste iragarriko dira.
Erabaki-zuhaitzen bidezko ikaskuntza gainbegiratutako sailkatzaileen artean dagoen teknikarik eraginkorrenetakoa da. Datu-multzo batetik abiatuz, ikaskuntza fasean zuhaitza entrenatu egiten dela esaten da (entrenamendu fasea). Horretarako, hasierako datu-multzoaren partizio bat sortuko da (hainbat azpi-multzo disjuntu) aldagai iragarleei (atributuei) egindako test-en bitartez. Prozesu hori behin eta berriz errepikatuko da modu errekurtsiboan datuen azpimultzo bakoitzarentzat. Azpimultzoko datu guztiek klase-aldagaian balio bera dutenean errekurtsiotik irten eta hostoa kokatuko da (klase-aldagaiarentzat balio jakin bat). Sailkapen-zuhaitzen indukziorako algoritmoari erabaki-zuhaitzen goitik-beherako indukzioa edo top-down induction of decision trees (TDIDT) deitzen zaio. Algoritmo irenskorra[2] da; erpinetan lokalki optimoak diren erabakiak hartzen dira, baina hortik ezin da ondorioztatu optimoa den zuhaitza induzituko denik.
Datu-meatzaritzan erabiltzen diren erabaki-zuhaitzak bi mota nagusitan bereiz daitezke:
Ingelesezko Classification And Regression Tree (CART) termino orokorrak bi motako erabaki-zuhaitzak biltzen ditu, haien artean badituztelako antzekotasunak, baina baita desberdintasun nabariak ere (adarkatzeko baldintzetan, adibidez)[3].
Bestalde, badira erabaki-zuhaitz bat baino gehiago induzitzeko teknikak. Hona hemen horietako batzuk:
Erabaki-zerrenda erabaki-zuhaitz berezi bat da. Zuhaitz-mota horretan barne-erpin bakoitzak zehazki bi ume ditu: hosto bat eta beste barne-erpin bat (erpin sakonenak izan ezik, horrek hosto bat besterik ez du izango haren ume izango dena). Erabaki-zerrenda zuhaitz sinplea dela esan daiteke eta entrenamendu-metodo ez-irenskorrak erabiltzea posiblea gertatzen da.
Sailkatze-zuhaitzen indukzioa entrenamendu fasean egiten den prozesua da. Horretarako beharrezkoa da datu-multzoan klasea esleitua duten kasuak izatea. Kasu horiek hainbat aldagai iragarleren bidez deskribatuak agertzen dira datu-basean. Erabaki-zuhaitzeko barne-erpin bakoitzak aldagai iragarleei egindako test bat adierazten du eta bertatik ateratzen den adar bakoitzak testaren emaitza diren balio posibleak dira. Hostoek klase-aldagairako balio bat finkatzen dute.
Zuhaitzak sortzeko indukzio-algoritmoek urrats bakoitzean datu-multzoa ondoen banatzen duten aldagai iragarlea aukeratzen dute. Banaketa hori ondoen egiten duen aldagai iragarlea zein den erabakitzeko garaian, algoritmoek metrika desberdinak erabiltzen dituzte. Metrika hori eta inausketarako estrategiak izan ohi da indukzio-algoritmoen arteko desberdintasun nabarmenena.
Erabaki-zuhaitzak induzitzeko hainbat algoritmo existitzen dira. Hona hemen ezagunenetako batzuk:
ID3 eta CART modu independentean asmatu ziren 1970eko hamarkadan, baina antzeko metodoak dira.
Datu-meatzaritzako beste metodoekin alderatuta, erabaki-zuhaitzek hainbat abantaila dituzte:
Datu-meatzaritzarako software-pakete askok eskaintzen dituzte erabaki-zuhaitzen indukzio-algoritmoen inplementazioak. Software libre batzuk: Weka (software libreko datu-meatzaritzako suite bat, erabaki zuhaitzak induzitzeko algoritmo anitz eskaintzen ditu), scikit-learn (software libreko ikaskuntza liburutegi bat Python programazio-lengoaiarako), R programazio-lengoaia (konputazio estatistikorako software ingurune bat), Orange, KNIME, etab. Pribatibo batzuk: Matlab, RapidMiner.