Brown Corpusa | |
---|---|
Jatorria | |
Sortzailea(k) | Henry Kučera (en) eta W. Nelson Francis (en) |
Honen izena darama | Brown Unibertsitatea |
Ezaugarriak | |
Dimentsioak | 1.014.312 () hitz |
Hizkuntza | ingelesa |
Brown University Standard Corpus of Present-Day American English (edo, besterik gabe, Brown Corpus) ingeles amerikarraren testu-laginen bilduma elektronikoa da, hainbat generotako lehenengo corpus egituratu garrantzitsua. Corpus horrek, hizkuntzaren eguneroko erabileran, hitz-kategorien maiztasuna eta banaketa zientifikoki aztertzeko erreferentziazko marra ezarri zuen. Rhode Island-eko Brown Unibertsitatean, Henry Kucun-ek eta W. Nelson Francis-ek konpilatuta, hizkuntza orokorreko corpusa da, eta ingelesezko 500 lagin ditu, guztira milioi bat hitz inguru, 1961ean Estatu Batuetan argitaratutako lanen artetik bilduak.[1]
1967an, Kucic enpresak eta Francis-ek Estatu Batuetako egungo ingelesaren analisi konputazionalaz liburu klasiko bat argitaratu zuten. Lan horrek Brown Corpus deritzonari buruzko oinarrizko estatistikak eman zituen.[2]
Brown Corpusa gaur egungo Estatu Batuetako ingelesaren kontu handiz egindako laginketa izan zen, eta iturri askotatik ateratako milioi bat hitz bildu zituen. Kuderak eta Francisek analisi konputazional ugari egin zizkioten, eta haietatik abiatuta lan aberatsa eta askotarikoa egin zuten, hizkuntzalaritza, psikologia, estatistika eta soziologiako elementuak konbinatuz. Asko erabili izan da hizkuntzalaritza konputazionalean, eta urte askoan izan da baliabide aipatuenen artean.[3]
Lehen analisi lexikostatikoa argitaratu eta gutxira, Bostoneko editore Houghton-Mifflin jo zuen Kudera-gana milioi bat hitz emateko, hiru leroko zitazio-base bat bat Ondare Amerikarraren Hiztegi berrirako. Hiztegi berritzaile berri hori, 1969an lehen aldiz agertu zena, corpusaren hizkuntzalaritzako hitzak eta hitzen erabileraren frekuentzia-informazioa erabili zituen lehen hiztegia izan zen.
Hasierako Brown Corpusa bere hitzak besterik ez zituen, eta bakoitzari kokapen-identifikatzaile bat. Hurrengo urteetan hitz bakoitzari bere kategoria morfologiko gehitu zitzaion. Greene eta Rubinen etiketatze-programak (ikus etiketatzearen adibidea) asko lagundu zuen horretan, baina akats-tasa handiak esan nahi zuen eskuzko berrikuspen zabala behar zela.
Brown Corpus etiketatuak hizketaren 80 kategoria morfologko inguru erabili zituen, bai eta forma konposatuetarako, laburduretatako, atzerriko hitzetarako eta beste fenomeno batzuetarako adierazle bereziak ere, eta eredu bat osatu zuen ondorengo testu-corpus askorentzat, hala nola Lancaster-Oslo-Bergen Corpus (ingeles britainiarra 90eko hamarkadaren hasieratik) eta Freiborg-Brown Corpus amerikar ingelesa (FROWN).[4][5] Corpusaren etiketatzeari esker, analisi estatistiko askoz sofistikatuagoak egin ziren, hala nola Andrew Mackiek programatutako lana, eta gramatika ingelesari buruzko liburuetan dokumentatua.[6]
Emaitza interesgarrietako bat da, lagin handi samarretan ere, hiperbola bat azaltzen dela grafiko batean ardatz batean jartzen badira hitz bakoitza corpus osoan zenbatetan azaldu den (maiztasuna) eta beste ardatzean hitzak maiztasunaren araberako ordena beherakorrean. Horrela ikus daiteke n-garren hitzaren maiztasuna 1/n-rekiko proportzionala da, gutxi gorabehera. Hala, "the" Brown Corpusaren ia %7 da, "to" eta "of" beste %3 baino gehiago; 50.000 hitz inguruko hiztegi osoaren erdia, berriz, hapax legomena dira, hau da, corpus osoan behin bakarrik azaltzen diren hitzak dira.[7] Hitak lista horretan duen posizioa (n) eta maiztasunaren arteko erlazio sinple hori George Kingsley Zipf nabarmendu zuen (adibidez, ikus The Psychobiology of Language (Hizkuntzaren Psikobiologia) ), eta harrezkero Zipf-en legea esaten zaio.
Brown Corpusa corpuseko hizkuntzalaritzaren aitzindari izan zen arren, 2020an erabiltzen diren corpusak (Corpus of Contemporary American English, the British National Corpus or the International Corpus of English) ) askoz handiagoak dira. Milaka milioi hitz inguru batzen dituzten corpusak badira.
Ingelesa barne hartzen duten corpus paraleloei dagokienez, Googlek 2005ean abiatutako itzulpen automatikoko sistema 200.000 milioi hitzeko corpus baten gainean entrenatu zen.[1]
Corpusak 500 lagin ditu, 15 generotan banatuta daudenak, 1961ean genero horietako bakoitzean argitaratutako testu kopuruaren arabera. Lagindutako lan guztiak 1961ean argitaratu ziren, eta amerikar ingeleseko jatorrizko hiztunek idatzi zituzten.
Lagin bakoitza ausazko muga batean hasi zen artikuluan edo aukeratutako beste unitate batean, eta lehenengo esaldira arte jarraitu zuen 2.000 hitzen ondoren. Oso kasu gutxitan, okerreko zenbaketen ondorioz, laginak 2.000 hitz baino zertxobait gutxiagokoak ziren.
Datuak kaxa nagusiko keypunch-makinetan sartu ziren jatorrian; letra larriak aurreko izartxo batek markatzen zituen, eta zenbait elementu berezik, hala nola formulak, kode bereziak zituzten.
Corpusak hasieran (1961), 1.014.312 hitz zituen, 15 testu-kategoriatakoak:
Etiketa (tag) | Definizioa |
---|---|
CC | koordinazioa (eta/edo) |
CD | zenbaki kardinala (one, two, 2, etc.) |
CS | mendeko konjuntzioa (if, although) (bai, baina) |
EX | "there" existentziala |
JJ | adjektiboa |
JJA | adjektiboa + laguntzailea |
JJC | adjektiboa, konparatiboa |
JJCC | Adjektiboa + konjuntzioa |
JJS | semantikoki adjektibo superlatibo (chief, top) |
JJF | Adjektiboa + Femeninoa |
JJM | Adjektiboa + maskulinoa |
NN | izen arrunt singularra edo masa izena |
NNA | Substantiboa + laguntzailea |
NNC | Izena + Konjuntzioa |
NNS | substantibo plurala |
NNP | izen nerezia edo horren zatia |
NNPC | izen berezia + konjuntzioa |
PRP | izenordain pertsonala, singularra |
PRPS | izenordain pertsonala, plurala |
PRP$ | Izenordain posesiboa |
RB | adberbio |
RBR | aditzondo konparatiboa |
RBS | adberbio superlatiboa |
VB | aditza, oinarri-forma |
VBA | verb + laguntzailea, singularra, orainaldia |
VBD | aditza, lehenaldia |
VBG | verb, gerundioa |
VBN | aditza, lehenaldiko partizipioa |
VBZ | verb, orainaldiko 3. pertsona singularra |
FW | Atzerriko hitzak |
PUN | Puntuazio guztiak |
Euskarari dagokionez, 2021ean baziren 300 mila milioi hitz dituzten corpusak. Lexikoaren Behatokia Corpusak 98 milioi hitz zituen.[8] Egungo Testuen Corpusak (ETC) guztira 355,4 milioi testu-hitz zituen 2021ean, eta Elhuyarren Web Corpusen Atari elebakarrak 300 milioi.[9]
Euskarazko lehen testu-corpusa (Euskaltzaindiaren Orotariko Euskal Hiztegiaren testu-corpusa) 1984an egin zen eta 4,6 milioi hitz ditu. Euskaltzaindiak berak egindako XX. Mendeko Euskararen Corpus Estatistikoa 2002an amaitu zen, 6 milioi hitzekin. Elhuyar Fundazioak eta EHUko IXA Taldeak Zientzia eta Teknologiaren Corpusa atera zuten 2006an, 9 milioi hitzekoa. EHUk ere urte horretan egin zuen Ereduzko Prosa Gaur deituriko corpusa, gaur egun 25,1 milioi hitzez osatua. Euskaltzaindiaren Lexikoaren Behatokia 2010ean abiarazi zen, eta egun 26,5 milioi hitz ditu. Corpus paraleloei dagokienez, itzulpen-enpresek dituzte ziurrenik horrelako handienak euren itzulpen-memorietan. Baina publikoarentzat eskuragarri eta hizkuntza-teknologietan erabiltzeko moduan oso gutxi daude; erakunde publiko (HAEEren Itzulpen Zerbitzu Ofiziala, Gipuzkoako Foru Aldundia, Bizkaiko Foru Aldundia...) edo bokazio sozialeko elkarte (EIZIE, Librezale) batzuetako itzulpen-zerbitzuen itzulpen-memoriak eta Eroskiren Consumer aldizkariko corpusa dira erreferentzia bakarrak, baina denak 5 milioi hitzen azpitik daude.[1]
Geroago Igor Leturiak 2014an Interneten euskaraz zeuden gune gehienak arakatu eta aztertu zituen.[10][11][12] 100 milioi hitz etik gorako kalitatezko corpusak bildu zituen eta testu mardul horiek oinarri izan ziren gero Elhuyarren Web-corpusen Ataria zerbitzua sortzeko (Dabilena izena du 2021etik), Internetetik automatikoki eratutako corpus horiek kontsultagai jartzeko.[13] Atari horretan, Leturiaren bildutako testuaz gain, Iñaki San Vicentek eta Iker Manterolak bildutako corpus paraleloak eta Antton Gurrutxagak bildutako kolokazioak ere integratu ziren.[14] Bestalde, Weba euskarazko corpus gisa kontsultatzeko tresna bat egin eta online jarri zuen, CorpEus izenekoa,[15] eta hainbat domeinutako corpus espezializatu eta konparagarriak ere eskuratu zituen Leturiak bere doktore-tesian, geroago terminologia-erauzketan erabili zirenak.[16][17][18][19][20]