Hizkuntzarteko informazio-berreskurapen

Hizkuntzarteko informazio-berreskurapena (ingelesez, Cross-language information retrieval (CLIR)) informazioaren berreskurapenaren atal bat da, erabiltzailearen kontsultaren hizkuntzaz ez dauden dokumentuak eskuratzen dituena. Adibidez, erabiltzaile batek ingelesezko kontsulta eginez, frantsesezko dokumentuak eskuratu ditzake.

Hizkuntza ingeniaritza funtsezkoa da: dokumentuen hizkuntza-errekonozitzaileak, hiztegi eleanitzak eta itzulpen-sistemak funtsezko elementuak izaten baitira. Orokorrean galderen itzulpena da gehien erabiltzen den eredua (dena den testuingurua txikia izan ohi denez zaila da ondo itzultzea), baina dokumentuen itzulpena edo dokumentuen errepresentazio neutroa (Wordnet erabiliz adibidez) izan daitezke beste aukera batzuk (abiadurari begira motelak dira baina azken biak).

Itzulpenaren kalitatea handitu ahala doitasuna handituko da estalduraren galerarik gabe. Kalitate txarreko muturrean hitzez hitzezko itzulpena egitea legoke hiztegietan kontsulta eginda, beste muturrean galdera osoa itzultzea itzulpen automatikoko sistemak aplikatuz, eta tartean itzulpen partzialak egitearen aukera.

Sistema hauen arkitekturan funtsezko urratsak hiru dira:

  • Galderaren itzulpena
  • Dokumentuen itzulpena

Azken urratsa hautazkoa izan daiteke, sistema batzuek aurkitutako dokumentuak jatorrizko hizkuntzan aurkezten dizkiote erabiltzaileari.

Hainbat teknika garatu izan dira beste hizkuntza batean dauden dokumentu erlazionatuak bilatzeko: dokumentuen sailkapen semantikoa, dokumentuen arteko antzekotasun semantikoa neurtzea, entitate edo terminoetan oinarritutako dokumentu multzokatzea (clustering)...

Euskara ere lantzen duen Dokusare sistema garatu du Elhuyarrek. [1]

Honen inguruko lehen tailerra Zurichen burutu zen, SIGIR-96 izeneko konferentzian. Bertako aurkezpenak Cross-Language Information Retrieval (Grefenstette, ed; Kluwer, 1998) ISBN 0-7923-8122-X liburuan daude. Hauek urtero burutu ziren 2000. urtera arte, Cross Language Evaluation Forum (CLEF) barnean.

Erreferentziak

[aldatu | aldatu iturburu kodea]
  1. Dokusare (CLIR)[Betiko hautsitako esteka] Euskarazko testuak ere lantzen dituen CLIR aplikazioa.

Ikus, gainera

[aldatu | aldatu iturburu kodea]

Kanpo estekak

[aldatu | aldatu iturburu kodea]