Informazioaren berreskurapenean, tf–idf edo TFIDF, terminoen maiztasuna–alderantzizko dokumentu maiztasuna (ingelesez term frequency–inverse document frequency), zenbakizko estatistika bat da eta hitz bat zein garrantzitsua den adieraztea du helburu, dokumentu bilduma batean edo corpus batean.[1] Sarri erabili oi da ponderazio-faktore modura, informazioaren berreskurapeneko bilaketetan, testu-meatzaritzan, eta erabiltzaile modelaketa. Tf-idf balioa proportzionalki hazten da hitz bat dokumentuan agertzen den kopuruarekiko, eta hitzaren corpuseko maiztasunekin orekatzen da, zeinak hitz batzuk, oro har sarriago agertzen direla erakusten duen. Gaur egun, tf-idf da termino-ponderazio-eskema ezagunenetako bat; liburutegi digitaletan, testuetan oinarritutako gomendio-sistemen % 83k erabiltzen du tf-idf.[2]
Tf–idf ponderazio-eskemaren aldaerak askotan erabiltzen dituzte bilaketa-motoreek, erabiltzailearen kontsulta batetarako, dokumentu baten garrantzia puntuatu eta ranking bat osatzeko tresna gisa. Tf–idf arrakastaz erabili daiteke hainbat eremutan hitz-hutsen (stopwords) iragazketarako, testu laburpena eta sailkapena barne.
Ranking funtzio sinpleenetariko bat kontsultako termino bakoitzeko TF-IDFak batuz kalkulatzen da; sofistikatuagoak diren sailkapen funtzioetariko ugari eredu sinple honen aldaerak besterik ez dira.
Suposa dezagun Euskerazko testu dokumentu batzuk ditugula eta "behi marroia" kontsultarako, dokumentu adierazgarriena zein den jakin nahi dugula. Abiapuntu gisa "behi" eta "marroi", hitz biak ez dituzten dokumentuak baztertu ditzakegu, baina, hala ere, dokumentu asko geratzen zaizkigu. Bilaketan aurrera jo nahi izanez gero, termino bakoitza dokumentu bakoitzean zenbatetan agertzen den kontatu genezake; termino jakin bat dokumentu batean zenbat aldiz ageri den, terminoen maiztasuna deritzo. Hala eta guztiz ere, dokumentuen luzera asko aldatzen den kasuetan, doikuntzak egin behar izaten dira (ikusi definizioa behean). Terminoen ponderazioaren lehen forma, Hans Peter Luhnri (1957) zor zaio, honela laburbilduz:
"Behia eta astoa" kontsultarako, "eta" terminoa oso arrunta izanik, hau sarri ageri den testuak azpimarratzeko joera okerra izango du, "behia" eta "astoa" termino esanguratsuei dagokien pisua eman gabe. "Eta" terminoa ez da hitz-gako egokia dokumentu esanguratsuak bereizteko, "behia" eta "astoa" hitz ez horren arruntak egokiakoak diren bitartean. Hori dela eta, alderantzizko-dokumentu-maiztasuna faktorea gehitzen zaio eta horrela dokumentuetan zehar maiz azaltzen den termino horri pisua murrizten zaio, termino ezohikoagoen pisua handitu bitartean.
Karen Spärck Jones (1972) asmatutako interpretazio estatistiko batek, Alderantzizko Dokumentu Maiztasuna (IDF) deiturikoak, terminoen espezifikotasuna neurtzeko balio zuen, eta hau giltzarri bilakatu zen terminoen ponderazioan:
Tf–idf bi estatistikoren biderketaren emaitza da, terminoen maiztasuna eta alderantzizkoa dokumentu maiztasunarena. Hainbat modu daude estatistiko bakoitzaren balio zehatzak zehazteko.
ponderazio-eskema | TF pisua |
---|---|
boolearra | |
kontaketa gordina |
|
terminoen maiztasuna |
|
log normalizazioa | |
0.5normalizazio bikoitza |
|
K normalizazio bikoitza |
Terminoen maiztasunaren tf(t,d) kasuan, aukerarik errazena dokumentuan hitzaren kontaketa gordina erabiltzea da, hau da, d dokumentu batean t terminoa zenbatetan ageri den. Kontaketa ft,d, bidez adierazten badugu, tf(t,d) = ft,d da tf eskema errazena. Beste aukera batzuk, besteak beste[5]:128
ponderazio-eskema | FID pisua () |
---|---|
unitarioak | 1 |
alderantzizko dokumentu maiztasuna | |
alderantzizko dokumentu maiztasuna leuna | |
alderantzizko dokumentu maiztasun max | |
alderantzizko dokumentu maiztasun probabilistikoa |
Alderantzizkoa dokumentu maiztasuna hitz batek zenbat informazio ematen duen adierazteko neurri bat da, hau da, ea terminoa ohikoa edo arraroa den dokumentu guztietan zehar. Hitza barne duten dokumentuen eskala logaritmikoko alderantzizko zatikia da. Dokumentu kopurua zati terminoa barne duten dokumentuen kopurua eginez lortzen dan, ondoren zatiduraren logaritmoa kalkulatuz.
non
Ondoren, tf–idf honela kalkulatzen da:
TFIDF-n pisu altua lortzen da maiztasun handiko (dokumentu batean) termino bat eta dokumentu bilduma osoan, dokumentu maiztasun txikia duen termino bat erabiliz; pisuek, beraz, termino arruntak iragazteko joera dute. IDF-ren log funtzioa beti 1 edo handiagoa izanik, IDF-ren (eta TDIDFren) balioa 0 edo handiagoa izango da. Termino bat dokumentu anitzetan ageri daitekeenez, logaritmo barruko ratioa 1era hurbiltzen da, idf eta tf-idf 0rantz hurbilduz.
ponderazio eskema |
dokumentuko terminoen pisaketa |
terminoen kontsulten pisaketa |
---|---|---|
1 | ||
2 | ||
3 |
Suposa dezagun ingelesezko corpus bat dugula, bi dokumentuz osatua, eta hitzen kontaketa egin dugula, beheko taulan daude ikusgai.
hitza |
agerpen kopurua |
---|---|
this |
1 |
is |
1 |
another |
2 |
example | 3 |
hitza |
agerpen kopurua |
---|---|
this | 1 |
is |
1 |
a |
2 |
sample |
1 |
"this" terminoaren TFIDFa honela kalkulatzen da:
Bere maiztasun forma gordinean, dokumentu bakoitzerako "this"-en maiztasuna besterik ez da tf. Dokumentu bakoitzean, "this" hitza behin agertzen da; baina 2. dokumentuak hitz gehiago dituenez, bere maiztasun erlatiboa txikiagoa da.
Idf bat corpus bakoitzeko konstantea da, eta "this" hitza barne duten dokumentuen ratioa adierazten du. Kasu honetan, bi dokumentuko corpus bat dugu, eta guztiek dute "this" hitza barnean.
Beraz, TDIDFa zero da "this" hitzarentzat, eta horrek hitza ez dela oso adierazgarria erakusten digu, dokumentu guztietan agertzen delako.
Adibide interesgarriago bat izango dugu "example" hitzarekin; hiru alditan agertzen da, nahiz eta bigarren dokumentuan soilik agertzen den:
Azkenik,
(logaritmo hamartarrak erabiliz ).