Kieltenvälinen tiedonhaku (engl. Cross-language information retrieval, CLIR) tarkoittaa sellaista tiedonhakua, jossa tiedonhakijan suorittama hakukysely on eri kielellä kuin tiedonhaun kohteena oleva dokumenttikokoelma. Kieltenvälinen tiedon tarve perustuu siihen, että tiedonhakijan on usein vaikeaa tuottaa hakukyselyjä vieraalla kielellä, vaikka hakutulosten tekstin ymmärtäminen olisikin melko ongelmatonta.[1]
Kieltenvälinen tiedonhaku mahdollistaa hakukyselyn tekemisen omalla äidinkielellä, mutta tulosten ei tarvitse rajoittua hakijan äidinkieleen. Näin kieltenvälinen tiedonhaku alentaa yleistä kynnystä hyödyntää mm. Internetissä olevaa tietoa. Mikäli hakijalla ei ole kielitaitoa lukea hakutuloksissa olevaa kieltä, voi hän hyödyntää konekääntämistä.[2]
Kieltenvälisestä tiedonhausta on hyötyä myös esimerkiksi tilanteessa, jossa on tarvetta löytää mahdollisimman laajasti tietoa tietystä asiasta, riippumatta siitä millä kielellä tieto on julkaistu.
Muun muassa Google tarjoaa kieltenvälistä tiedonhakua toiminnolla, jonka nimi on "Käännetyt vieraskieliset sivut". Käyttöliittymässä kertoo käyttäjälle, mikä haku on toisilla kielillä ja samalla hakutulokset näytetään omalle kielelle käännettyinä.
Nykyiset tiedonhakujärjestelmät perustuvat yleensä kyselyn ja sen kohteena olevan dokumenttikokoelman merkkijonojen täsmäyttämiseen. Kieltenvälisessä tiedonhaussa perinteisen yksikielisen tiedonhaun täsmäytysmenetelmät tulee yhdistää luonnollisten kielten käsittelymenetelmiin. Kieltenvälisen tiedonhaun keskeisiä menetelmiä täsmäyttämisen ohella ovat käännösmenetelmät ja käsitteiden monitulkintaisuuden vähentämistekniikat (disambiguaatio).
Kuten tiedonhaku yleensäkin, myös kieltenvälinen tiedonhaku haku perustuu kyselyn ja dokumenttien sisältämien termien merkkijonojen täsmäyttämiseen. Jotta täsmäyttäminen olisi mahdollista, on erikielisen kyselyn ja dokumentin kohdattava tiedonhakujärjestelmässä. Kieltenvälisessä tiedonhaussa mahdollisia täsmäytysstrategioita on jättää termit kokonaan kääntämättä, kääntää kysely dokumenttikokoelman kielelle, kääntää dokumentit kyselyn kielelle tai käyttää välikieltä, jolloin sekä kysely että dokumentit esitetään kolmannella, usein keinotekoisella kielellä.
Käytettäessä samankaltaisuustäsmäytystä oletetaan, että lähde- ja kohdekieliset termit muistuttavat toisiaan ja ne lisätään kyselyyn ilman käännöstä. Menetelmä on tehokas erityisesti hakutermien ollessa henkilön- tai paikannimiä. Myös monet tekniset termit ja sivistyssanat ovat usein eri kielissä samankaltaisia, esimerkiksi suomen kielen "kemoterapia"-sanalla on ilmeinen merkkijonotason yhteys englannin "chemotherapy" -sanaan. Menetelmää voi soveltaa myös lähisukukielten välisessä tiedonhaussa. Samankaltaisuustäsmäytystä voidaan tehostaa hyödyntämällä sumeita merkkijonomenetelmiä, kuten n-grammeja tai s-grammeja. Erityisen hankalaa termien täsmäyttäminen on toisistaan etäisten kielten yhteydessä (esim. englanti ja japani). Tällöin voi osin soveltaa foneettista translitterointia.[3]
Koska toistaiseksi konekäännösmenetelmät eivät pysty kääntämään luonnollista kieltä kelvollisiksi dokumenteiksi, on yksinkertaisempaa kääntää tiedonhakijan kysely.[4] Kyselyn kääntäminen onkin yleisin menetelmä kieltenvälisessä tiedonhaussa taloudellisuutensa vuoksi: hakujärjestelmän ei tarvitse muuttaa indeksoituja käänteistiedostojaan, ja kyselyn kääntäminen on dokumenttien kääntämistä laskennallisesti kustannustehokkaampaa. Erityisen ongelmallista on kyselyn automaattisen käännöksen tuottaminen, koska kyselyt muodostuvat yleensä yksittäisistä hakutermeistä eivätkä tarjoa riittävästi kontekstia termien monitulkintaisuuden vähentämiselle.[3]
Haun kohteena olevan dokumenttikokoelman kääntämistä on kieltenvälisessä tiedonhaussa tutkittu kyselyn kääntämistä vähemmän. Menetelmän tarjoamat edut ja haitat ovat päinvastaiset kuin kyselyn kääntämisessä: kääntäminen on työläämpää ja vaatii enemmän resursseja, mutta toisaalta dokumentit tarjoavat laajemman tekstikontekstin automaattista kääntämistä varten.[3]
Välikielimenetelmiä käytettäessä sekä kyselyn että dokumenttien käsitteet esitetään yleensä keinotekoisen välittäjäkielen avulla. Välikielimenetelmiä ovat mm. kontroloitujen sanastojen käyttäminen ja LSI (latent semantic indexing).[3]
Dokumentteja tai kyselyä käännettäessä on käytettävissä erilaisia käännösmenetelmiä. Kieltenvälisessä tiedonhaussa on hyödynnetty konekäännöstä sekä sanakirjapohjaisia ja rinnakkaisiin korpuksiin perustuvia käännösmenetelmiä. Kaikissa käännösmenetelmissä on omat hyötynsä ja haittansa. Nykyisten tilastollisiin menetelmiin perustuvien konekäännösohjelmien avulla päästään jo lähes yksikielisen tiedonhaun tarkkuuteen. Edullisuutensa vuoksi konekäännöksestä varmaan tuleekin yleisin käännösmenetelmä kieltenvälisessä tiedonhaussa.
Konekäännöstä voidaan hyödyntää kieltenvälisessä tiedonhaussa, mikäli käytettävissä on hyvä konekäännösohjelma. Ongelmana on, että yleensä CLIR-kontekstissa pyritään kääntämään kysely, joka ei tarjoa riittävää syntaktista tekstikontekstia konekäännöksen tuottamiseksi.[5] Konekäännös myös pyrkii valitsemaan kullekin termille yhden käännöksen, mikä hankaloittaa kyselyn laajentamista esim. synonyymien avulla.[3] Vaikka konekäännöksellä ei välttämättä saadakaan aikaan sujuvasti luettavaa tekstiä, on huomioitava, että hakujärjestelmien lingvistiset vaatimukset ovat alhaisemmat kuin tekstiä lukevan henkilön odotukset tekstin ymmärrettävyydeltä.
Kun käytössä ei ole yleisesti toimivaksi tunnustettua konekäännösohjelmaa, kaksikielinen koneluettava käännössanakirja on yleensä lähtökohtana. Koska hakujärjestelmät perustuvat kyselyn ja dokumenttien termien indeksointiin, on helpointa kääntää kysely dokumenttikokoelman kielelle korvaamalla kukin termi sanakirjassa esiintyvällä rinnakkaistermillä.[3] Sanakirjakäännös on suhteellisen edullinen ja tehokas menetelmä, mutta ei vailla ongelmia. Keskeisimpiä ongelmia ovat sanakirjojen puutteellinen kattavuus (kielen muutos, erisnimien ja erityisalojen termien puuttuminen), sanakirjakäännöksen lähtökohtainen monitulkintaisuus (sanakirjat tarjoavat termeille useita käännösvaihtoehtoja) sekä fraasien ja yhdyssanojen virheellinen kääntäminen.
Rinnakkaiskokoelmaa käytettäessä käännössanakirja korvataan kaksikielisellä kokoelmalla, joka on rinnastettu lause-, kappale- tai dokumenttitasolla erikielisiksi vastinpareiksi. Lähtökielisen sanan käännökset saadaan etsimällä niiden esiintymät rinnakkaiskokoelmasta ja keräämällä vastinlauseista tai -kappaleista usein esiintyvät kohdekieliset sanat. Käännös on tilastollinen ja tuottaa oikeiden tarkkojen käännösten lisäksi synonyymeja ja sanan kontekstiin läheisesti liittyviä muita sanoja.[6] Nykyään www-aineistot tarjoavat runsaasti saatavilla olevaa materiaalia koneluettavassa muodossa rinnakkaiskorpusten keräämistä varten.[3] Rinnakkaiskokoelmien käytössä on ongelmallista, että edelleen löytyy monia kielipareja, joista ei ole saatavissa riittävän laajoja rinnakkaisia korpuksia käännöstodennäköisyyksien laskemiseksi. Ongelma on myös se, että monet rinnakkaiskokoelmat perustuvat melko suppean aihepiirin dokumentteihin.
Hakuavainten monitulkintaisuuden tiedonhaulle muodostama ongelma kertautuu kieltenvälisessä tiedonhaussa, kun termien käännösvaihtoehtojen määrän kasvaessa kyselyyn tulee mukaan epärelevantteja termejä.[5] Yksinkertaisin ratkaisu sanakirjakäännöksessä olisi valita vain ensimmäinen tarjottu käännösvaihtoehto. Vaihtoehtoisesti voisi valita dokumenttikokoelmassa tilastollisesti useimmin esiintyvän käännöksen. Näin yksinkertaiset menetelmät monitulkintaisuuden vähentämiseksi eivät kuitenkaan ole riittäviä, ja kieltenvälisessä tiedonhaussa on tutkittu useita hienostuneempia menetelmiä.[3]
Sanaluokkien merkitsemisessä (part-of-speech tags, POS) valitaan käännöksiksi ainoastaan sellaiset termit, jotka kuuluvat samaan sanaluokkaan lähdekielisen hakuavaimen kanssa. Tämä menetelmä vaatii, että sekä lähde- että kohdekieltä varten on saatavilla sanaluokkien merkitsemiseen tarvittava ohjelmisto.[3]
Rinnakkaiskorpuksia käytettäessä tehdään kysely lähdekieliseen dokumenttikokoelmaan. Kysely käännetään kohdekielelle, ja termien käännösvarianteilla suoritetaan kyselyt. Kyselyjen tuloksia verrataan lähdekielisen kyselyn tuloksiin, ja hakuavaimeksi valitaan käännös, joka tuottaa lähimmin lähdekieliseen kokoelmaan tehdyn kyselyn tuloksia vastaavia osumia.[3]
Yhteisesiintymätilastojen avulla tehtävän disambiguaation lähtöoletus on, että kyselyn termien oikeiden käännösten tulisi esiintyä yhdessä samoissa kohdekielisissä dokumenteissa, kun taas väärien käännösten ei tulisi esiintyä samoissa dokumenteissa merkittävän usein. Esimerkiksi jos englanninkielisessä kyselyssä esiintyvät sanat ”Mercury” ja ”planet”, on ilmeistä, ettei hakutermi ”Mercury” liity kemiaan tai mytologiaan. Niinpä voidaan olettaa, että sanan ”Mercury” oikea käännös esiintyy usein sanan ”planet” oikean käännöksen kanssa kohdekielisessä dokumenttikokoelmassa. Tilastollista tietoa käännösvaihtoehtojen yhteisesiintymistä käytetään parhaan käännösyhdistelmän löytämiseksi. Pitkissä kyselyissä menetelmä on laskennallisesti kallis termien käännösvaihtoehtojen mahdollisten yhdistelmien määrän kasvaessa.[3]
Kyselynlaajennuksessa hyödynnetään relevanssipalautetta. Kyselyä laajennetaan yleensä lisäämällä termejä tuloksissa korkeimmalle sijoittuneista dokumenteista. Kyselynlaajennus voidaan tehdä ennen käännöstä tai sen jälkeen. Ennen käännöstä tehtynä kyselynlaajennus lisää hakuun relevantteja käsitteitä parantaen haun tarkkuutta. Käännöksen jälkeen tehtynä se vähentää epärelevanttien hakutermien vaikutusta parantaen saantia.[3]
Rakenteiset kyselyt eivät oikeastaan ole disambiguointimenetelmiä, mutta tuottavat saman tuloksen. Oletuksena on, että termien käännösvariantit ovat synonyymejä. Tästä lähtökohdasta voi olla hyödyllistä turvautua Boolen logiikkaan: käännökset voidaan liittää toisiinsa Boolen OR-operaattorilla ilman että lähtökielisen hakukäsitteen merkitys kyselyssä kasvaa liikaa.[3]
Ensimmäinen työpaja aiheesta pidettiin Zürichissä SIGIR-96 -konferenssissä. Työpajan tuotokset julkaistiin kirjassa Cross-Language Information Retrieval (Grefenstette, ed; Kluwer, 1998) ISBN 0-7923-8122-X. Työpajoja on pidetty vuodesta 2000 vuosittain Cross Language Evaluation Forum (CLEF) -tapaamisissa.[7]
CLIR-track on ollut TRECissä (Text Retrieval Conference) mukana vuodesta 1997.[8]
Tampereen yliopiston informaatiotieteen laitoksella toimii FIRE (Finnish Information Retrieval Experts) -tutkimusryhmä, jonka alaan kuuluu myös kieltenvälinen haku.[9]
Google on tarjonnut kieltenvälistä hakua vuodesta 2007 sekä normaaliin hakuun integroituna että erillisen käyttöliittymän kautta.[10]