Informazio erauzketa

Informazio erauzketa (ingelesez, Information Extraction edo IE) informatikaren alor bat da, ordenagailu batek irakur ditzakeen dokumentuetatik informazio zehatz batzuk formatu egituratu edo erdi-egituratuan ateratzea helburu duena. Bilatutako informazioa edukiko duten esaldi mota batzuk detektatzeko patroiak eta tresna sintaktiko-semantikoak erabiltzen dira entitate, erlazio edota gertaerei buruzko informazioa lortzeko, domeinu mugatu baten dokumentuen artean. Domeinu batzuk hauek dira: enpresa-erabakiak, administrazioa, medikuntza, sal-erosketak, zaintza teknologikoa, iritzi-meatzea (opinion mining), militarra... Gehienetan Intranet mailan erabiltzen da, dokumentu multzo mugatu baten gainean, bilaketa eremua ez da izaten Internet osoa.

Hizkuntza-teknologiaren erabilera

[aldatu | aldatu iturburu kodea]

Gaur egun hizkuntzaren prozesamenduko teknikak erabiltzen dira, urrats hauen arabera:

  • Iragazketa
  • Morfologia eta tagging.
  • Entitateen/terminoen ezagutza eta sailkapena.
  • Azaleko sintaxia. Azkarra, azalekoa edo partziala gehienetan.
  • Patroien gauzatzea
    • Lan handia izaten da hori.
    • Adibidez, salerosketa eragiketak erauzteko patroi bat hau izan liteke:
      <pertsona> <sal-eros-aditza> <kopurua> <izen-unitateak>
    • Domeinuz aldatzea zaila izaten da, patroi gehienak aldatu behar izaten dira eta. IE moldagarria ikerketa arlo bat da (Adaptive IE).
  • Semantika, Inferentzia, pragmatikaren beharra
    • korreferentzia, anafora (bera, hura, horrek)‏...
    • ontologien erabilpena
  • Datu-basea osatzea

Gero eta maizago jotzen da Wikipediara IEko sistemetan laguntza bila, ezagutzaren bila. Laburpengintza automatikoa ere erabil daiteke tresna laguntzaile gisa.

IEko sistemen ebaluazioa

[aldatu | aldatu iturburu kodea]

Lortutako informazio guztiak ez dira beti zuzenak izango, eta lortu behar ziren hainbat datu eruzi gabe geratuko dira. IE sistema perfektu batek datu egokiak bakarrik erauzi beharko lituzke, eta dokumentuetan dauden guztiak. Alabaina, sistema perfektuak ez dira existitzen eta IE sistema bat ebaluatzen denean bi neurri kalkulatzen dira:

  • Doitasuna (Precision): lortutako datuen artean zenbat diren zuzenak
  • Estaldura (Recall): lortu ez dena

Adibidez, Message Understanding Conference (MUC) edo Mezuak Ulertzeko Hitzaldia honako aspektu hauetan aritu den lehiaketa da:

  • MUC-1 1987, MUC-2 1989: Ontzi-eragiketentzako mezuak.
  • MUC-3 1991: Latinoamerikar herrialdeetako terrorismoa.
  • MUC-5 1993: Mikroelektronika.
  • MUC-6 1995: Gerentzia-aldaketen inguruko artikulu berriak.
  • MUC-7 1998: Satelite-jaurtiketen txostenak.

Ikus, gainera

[aldatu | aldatu iturburu kodea]

Kanpo estekak

[aldatu | aldatu iturburu kodea]
  • Xerlok Elekak produktua garatutako Xerlok produktua, sistematikoki eta egunero hainbat egunkaritako bertsio elektronikoetan enpresa edo entitate bati buruz egiten diren aipamenak bilatzen dituena. Euskara ere erabiltzen du bilaketetan.
  • (Ingelesez) Kyoto proiektuan Interneteko testuetatik erauzitako gertaerak.
  • (Ingelesez) MUC
  • (Ingelesez) Alias-I lehiaketa Hizkuntza presamenduko hainbat tresna biltzen dituen lista batekin.
  • (Ingelesez) Gabor Melli's page on IE IEren deskribapen zehatza.