Tf–idf

Karen Spärck Jonesek (1935-2007) indexazio automatizatuaren garapena lideratu zuen.

Informazioaren berreskurapenean, tf–idf edo TFIDF, terminoen maiztasuna–alderantzizko dokumentu maiztasuna (ingelesez term frequency–inverse document frequency), zenbakizko estatistika bat da eta hitz bat zein garrantzitsua den adieraztea du helburu, dokumentu bilduma batean edo corpus batean.[1] Sarri erabili oi da ponderazio-faktore modura, informazioaren berreskurapeneko bilaketetan, testu-meatzaritzan, eta erabiltzaile modelaketa. Tf-idf balioa proportzionalki hazten da hitz bat dokumentuan agertzen den kopuruarekiko, eta hitzaren corpuseko maiztasunekin orekatzen da, zeinak hitz batzuk, oro har sarriago agertzen direla erakusten duen. Gaur egun, tf-idf da termino-ponderazio-eskema ezagunenetako bat; liburutegi digitaletan, testuetan oinarritutako gomendio-sistemen % 83k erabiltzen du tf-idf.[2]

Tf–idf ponderazio-eskemaren aldaerak askotan erabiltzen dituzte bilaketa-motoreek, erabiltzailearen kontsulta batetarako, dokumentu baten garrantzia puntuatu eta ranking bat osatzeko tresna gisa. Tf–idf arrakastaz erabili daiteke hainbat eremutan hitz-hutsen (stopwords) iragazketarako, testu laburpena eta sailkapena barne.

Ranking funtzio sinpleenetariko bat kontsultako termino bakoitzeko TF-IDFak batuz kalkulatzen da; sofistikatuagoak diren sailkapen funtzioetariko ugari eredu sinple honen aldaerak besterik ez dira.

  Terminoen maiztasuna

[aldatu | aldatu iturburu kodea]

Suposa dezagun Euskerazko testu dokumentu batzuk ditugula eta "behi marroia" kontsultarako, dokumentu adierazgarriena zein den jakin nahi dugula. Abiapuntu gisa "behi" eta "marroi", hitz biak ez dituzten dokumentuak baztertu ditzakegu, baina, hala ere, dokumentu asko geratzen zaizkigu. Bilaketan aurrera jo nahi izanez gero, termino bakoitza dokumentu bakoitzean zenbatetan agertzen den kontatu genezake; termino jakin bat dokumentu batean zenbat aldiz ageri den, terminoen maiztasuna deritzo. Hala eta guztiz ere, dokumentuen luzera asko aldatzen den kasuetan, doikuntzak egin behar izaten dira (ikusi definizioa behean). Terminoen ponderazioaren lehen forma, Hans Peter Luhnri (1957) zor zaio, honela laburbilduz:

  • Dokumentu batean ageri den termino baten pisua terminoen maiztasunarekiko proportzionala da.[3]

Alderantzizko dokumentu maiztasuna

[aldatu | aldatu iturburu kodea]

"Behia eta astoa" kontsultarako, "eta" terminoa oso arrunta izanik, hau sarri ageri den testuak azpimarratzeko joera okerra izango du, "behia" eta "astoa" termino esanguratsuei dagokien pisua eman gabe. "Eta" terminoa ez da hitz-gako egokia dokumentu esanguratsuak bereizteko, "behia" eta "astoa" hitz ez horren arruntak egokiakoak diren bitartean. Hori dela eta, alderantzizko-dokumentu-maiztasuna faktorea gehitzen zaio eta horrela dokumentuetan zehar maiz azaltzen den termino horri pisua murrizten zaio, termino ezohikoagoen pisua handitu bitartean.

Karen Spärck Jones (1972) asmatutako interpretazio estatistiko batek, Alderantzizko Dokumentu Maiztasuna (IDF) deiturikoak, terminoen espezifikotasuna neurtzeko balio zuen, eta hau giltzarri bilakatu zen terminoen ponderazioan:

  • Termino baten espezifikotasuna dokumentu horrentako agerpen kopuruaren alderantzizko funtzio gisa kuantifikatua izan daiteke.[4]

Tf–idf bi estatistikoren biderketaren emaitza da, terminoen maiztasuna eta alderantzizkoa dokumentu maiztasunarena. Hainbat modu daude estatistiko bakoitzaren balio zehatzak zehazteko.

Terminoen maiztasunaren (TF) ponderazioaren aldaerak
ponderazio-eskema TF pisua
boolearra
kontaketa gordina
terminoen maiztasuna
log normalizazioa
0.5normalizazio bikoitza
K normalizazio bikoitza

  Terminoen maiztasuna

[aldatu | aldatu iturburu kodea]

Terminoen maiztasunaren tf(t,d) kasuan, aukerarik errazena dokumentuan hitzaren kontaketa gordina erabiltzea da, hau da, d dokumentu batean t terminoa zenbatetan ageri den. Kontaketa  ft,d, bidez adierazten badugu,  tf(t,d) = ft,d da tf eskema errazena. Beste aukera batzuk, besteak beste[5]:128

  •  "maiztasun" Boolearrak: tf(t,d) = 1 da, t  d-n agertzen bada, eta 0 bestela;
  •   Terminoen maiztasuna dokumentuaren luzerara egokitua: ft,d ÷ (hitz-kopurua d-n)
  •   Eskala logaritmikoko maiztasuna: tf(t,d) = log ( 1 + ft,d), (edo zero, ft,d zero bada);[6]
  • Maiztasun areagotuak, dokumentu luzeetan bias-a ekiditeko, adibidez, maiztasuna zati dokumentuan gehien agertzen den terminoaren maistasuna:

Alderantzizko dokumentu maiztasuna

[aldatu | aldatu iturburu kodea]
Alderantzizkoa dokumentu maiztasunaren (FID) ponderazio aldaerak
ponderazio-eskema FID pisua ()
unitarioak 1
alderantzizko dokumentu maiztasuna
alderantzizko dokumentu maiztasuna leuna
alderantzizko dokumentu maiztasun max
alderantzizko dokumentu maiztasun probabilistikoa

Alderantzizkoa dokumentu maiztasuna hitz batek zenbat informazio ematen duen adierazteko neurri bat da, hau da, ea terminoa ohikoa edo arraroa den dokumentu guztietan zehar. Hitza barne duten dokumentuen eskala logaritmikoko alderantzizko zatikia da. Dokumentu kopurua zati terminoa barne duten dokumentuen kopurua eginez lortzen dan, ondoren zatiduraren logaritmoa kalkulatuz.

non

  • : dokumentuen kopurua guztira corpusean
  •  : terminoa agertzen den dokumentu kopurua (hau da, ). Terminoa corpusean ez bada, zerorekin zatitzera eramango gaitu, . beraz, ohikoa da izendatzailea honela egokitzea .
Alderantzizko dokumentu maiztasuna kalkulatzeko funtzio ezberdinen grafikoa: estandarra, leuna eta probabilistikoa.

Termino maiztasun–Alderantzizko dokumentu maiztasuna

[aldatu | aldatu iturburu kodea]

Ondoren, tf–idf honela kalkulatzen da:

TFIDF-n pisu altua lortzen da maiztasun handiko (dokumentu batean) termino bat eta dokumentu bilduma osoan, dokumentu maiztasun txikia duen termino bat erabiliz; pisuek, beraz, termino arruntak iragazteko joera dute. IDF-ren log funtzioa beti 1 edo handiagoa izanik, IDF-ren (eta TDIDFren) balioa 0 edo handiagoa izango da. Termino bat dokumentu anitzetan ageri daitekeenez, logaritmo barruko ratioa 1era hurbiltzen da, idf eta tf-idf 0rantz hurbilduz.

Gomendatutako TF-IDF ponderazio eskemak
ponderazio eskema
dokumentuko terminoen pisaketa
terminoen kontsulten pisaketa
1
2
3


TFIDFaren adibidea

[aldatu | aldatu iturburu kodea]

Suposa dezagun ingelesezko corpus bat dugula, bi dokumentuz osatua, eta hitzen kontaketa egin dugula, beheko taulan daude ikusgai.

2. dokumentua
hitza
agerpen kopurua
this
1
is
1
another
2
example 3
1. dokumentua
hitza
agerpen kopurua
this 1
is
1
a
2
sample
1

"this" terminoaren TFIDFa honela kalkulatzen da:

Bere maiztasun forma gordinean, dokumentu bakoitzerako "this"-en maiztasuna besterik ez da tf. Dokumentu bakoitzean, "this" hitza behin agertzen da; baina 2. dokumentuak hitz gehiago dituenez, bere maiztasun erlatiboa txikiagoa da.

Idf bat corpus bakoitzeko  konstantea da, eta "this" hitza barne duten dokumentuen ratioa adierazten du. Kasu honetan, bi dokumentuko corpus bat dugu, eta guztiek dute "this" hitza barnean.

Beraz, TDIDFa zero da "this" hitzarentzat, eta horrek hitza ez dela oso adierazgarria erakusten digu, dokumentu guztietan agertzen delako.

Adibide interesgarriago bat izango dugu "example" hitzarekin; hiru alditan agertzen da, nahiz eta bigarren dokumentuan soilik agertzen den:

Azkenik,

(logaritmo hamartarrak erabiliz ).

Erreferentziak

[aldatu | aldatu iturburu kodea]
  1. Rajaraman,Ullman, A.,J.D.,. (2011). Mining of Massive Datasets. , 1–17 or..
  2. Rajaraman,Ullman,Langer, Corinna,Bela,Stefan. (2015-07-26). Research-paper recommender systems: a literature survey. International Journal on Digital Libraries.
  3. Luhn, Hans Peter. (2015). A Statistical Approach to Mechanized Encoding and Searching of Literary Information. IBM.
  4. Spärck Jones, Karen. (1972). A Statistical Interpretation of Term Specificity and Its Application in Retrieval. Journal of Documentation.
  5. Manning, C.D.. (2008). Introduction to Information Retrieval. .
  6. TFIDF statistics. .

Kanpo estekak

[aldatu | aldatu iturburu kodea]