Բրաուն համալսարանին կից ժամանակակից ամերիկյան անգլերենի ստանդարտ կորպուս (կամ պարզապես Բրաունյան Կորպուս), ամերիկյան անգլերենով տեքստերի էլեկտրոնային հավաքածու, առաջին խոշորագույն կորպուսը։ Այս կորպուսը սկզբնական շրջանում ուսումնասիրում էր առօրյա լեզվում բառային կարգերի հաճախականությունն ու բաշխումը։ Այն կազմվել է Ռոդ Այլենդի Բրաուն համալսարանում Հենրի Կուչերայի ու Նելսոն Ֆրենսիսի կողմից։ Այն ընդհանուր լեզվի կորպուս է՝ բաղկացած ԱՄՆ-ում 1961 թվականին հրատարակված անգլերեն 500 տեքստերից՝ մոտ մեկ միլիոն ընդհանուր բառածավալով։
1967 թվականին Կուչերան և Ֆրենսիսը հրատարակեցին իրենց առաջին աշխատությունը՝ «Computational Analysis of Present-Day American English»-ը, որում ներկայացված է Բրաունյան Կորպուսի հիմնական վիճակագրությունը[1]։
Բրաունյան կորպուսը համաժամանակյա ամերիկյան անգլերենով կազմված տեքստերի հավաքածու էր, որում տեղ էին գտել բազմաթիվ աղբյուրներից հավաքագրված մոտ մեկ միլիոն բառ։ Կուչերան և Ֆրենսիսը կորպուսը ենթարկել են թազմաթիվ հաշվարկային վերլուծությունների, որոնց հիման վրա կազմվել են հարուստ ու համապարփակ աշխատություններ, որոնցում մեկտեղվել են տարրեր լեզվաբանությունից, հոգեբանությունից, վիճակագրությունից և հասարակագիտությունից։ Այս կորպուսը լայնորեն տարածված է համակարգչային (հաշվողական) լեզվաբանության մեջ և այդ ոլորտում ամենահաճախ մեջբերվող աղբույրներից է համարվում[2]։
Առաջին բառավիճակագրական վերլուծության հրատարակումից անմիջապես հետո Բոստոնի հրատարակիչ Հոութըն-Միֆֆլին դիմում է Կուչերային, որպեսզի վերջինս մեկ միլիոն բառանյութով, եռատող մեջբերմամբ համակարգ ստեղծի իր նոր բառարանի համար՝«American Heritage Dictionary»: Այս նորաստեղծ, 1969 թվականին ի հայտ եկած բառարանն առաջինն էր՝ կորպուսային լեզվաբանության հիմքի վրա՝ ստեղծված բառի հաճախականության ու այլ հատկանիշների վերաբերյալ տեղեկություն տրամադրելու նպատակով։
Սկզբնական շրջանում Բրաունյան կորպուսը միմիայն բառերից էր բաղկացած, որոնցից յուրաքանչյուրին կցված էր համատեքստային օրինակ։ Հետագա մի քանի տարիների ընթացքում ավելացվել են խոսքիմասային պիտակներ։ Գրինի ու Ռուբինի պիտակավորման ծրագրերը (տե՛ս խոսքիմասային պիտակավորում) զգալիորեն նպաստեցին պիտակների ստեղծմանը, սակայն մեծաքանակ սխալների հաճախականությունը հանգեցրեց սրբագրման ավանդական ձեռքով տարբերակին։
Պիտակավորված Բրաունյան կորպուսը ներառում էր շուրջ 80 խոսքի մասերից բաղկացած հավաքածու, ինչպես նաև հատուկ պիտակներ բաղադրյալ, կրճատված, օտար բառերի և մի քանի այլ երևույթների համար և օրինակ էր ծառայում այլ, ավելի ուշ ստեղծված կորպուսների համար, ինպիսիք են «Lancaster-Oslo-Bergen Corpus»-ը (1990-ականների սկիզբ, բրիտանական անգլերեն) ու «Freiburg-Brown Corpus of American English»-ը (1990-ականների սկիզբ, ամերիկյան անգլերեն)[3][4]։ Կորպուսի պիտակավորումը մեծ հնարավորություն ընձեռեց ընդգրկուն վիճակագրական վերլուծության համար, ինչպես օրինակ՝ Անդրյու Մեքիի կողմից ծրագրավորված աշխատության ուղղությամբ, ինչը նաև կիրառված է անգլերենի քերականության գրքերում[5]։
Հետաքրքրականն այն է, որ նույնիսկ բավականին մեծ նմուշների համար բառերի գծապատկերումը՝ կիրառման հաճախականության նվազման կարգով, հիպերբոլ է ներկայացնում. N-րդ ամենատարածված բառի հաճախականությունը մոտավորապես համաչափ է 1/N-րդին։ Այսպիսով, «the» հոդը կազմում է Բրաունյան կորպուսի գրեթե 7%-ը, «to»-ն և «of»-ը՝ ավելի քան 3%, մինչդեռ շուրջ 50,000 բառերի ընդհանուր բառացանկի մոտավորապես կեսը միայն մեկ անգամ են հանդիպում կորպուսում[6]։ Այս պարզագույն դաս-հաճախականություն հարաբերությունը Ջորջ Քինգզլի Զիֆի կողմից է նշվել երևույթների արտասովոր բազմազանության պատճառով և հայտնի է որպես Զիֆի օրենք։
Թեպետ Բրաունյան կորպուսն առաջատար էր կորպուսային լեզվաբանության ոլորտում, այժմ նմանատիպ կորպուսները (օրինակ՝ «Corpus of Contemporary American English», «the British National Corpus» կամ «the International Corpus of English») ավելի ընդգրկուն են՝ 100 միլիոն բառածավալով։
Կորպուսը բաղկացած է 500 տեքստերից, որոնք բաշխված են 15 կարգերում՝ գրեթե համապատասխանելով 1961 թվականին հրատարակված կարգերին։ Նմուշառված աշխատանքները հրատարակվեցին 1961 թվականին (կարելի է ասել, որ դրանք առաջին անգամ էին հրատարակվում) և գրված էին ամերիկյան անգլերենի լեզվակիրների կողմից։
Յուրաքանչյուր տեքստ սկզբնականում նեկայացվում էր 2000 բառածավալով։ Շատ քիչ դեպքերում սխալ հաշվարկները հանգեցրել էին 2000-ից պակաս բառածավալով տեքստերի։
Նախնական տվյալների մուտքագրումը կատարվել է մեծատառով և տպագրական մեքենայի միջոցով, մեծատառերըշ նշվում էին դրանց նախորդող աստղանիշերով, և բազում այլ տարրեր, ինչպիսիք բանաձևերն են, նույնպես ունեին հատուկ ծածկագրեր։
Կորպուսն ի սկզբանե ընդգրկում էր 1 014 312 բառեր, որոնք նմուշագրված էին ըստ 15 տեքստային կարգերի՝
Պիտակ | Սահմանում |
---|---|
. | նախադասություն (. ; ? *) |
( | ձախակողմյան միջադաս նախադասություն |
) | աջակողմյան միջադաս նախադասություն |
* | not, n't |
-- | մեջտեղի գծեր |
, | ստորակետ |
: | վերջակետ |
ABL | նախաորակիչ (quite, rather) |
ABN | նախաքանակիչ (half, all) |
ABX | նախաքանակիչ (both) |
AP | հետորոշիչ (many, several, next) |
AT | հոդ (a, the, no) |
BE | be |
BED | were |
BEDZ | was |
BEG | being |
BEM | am |
BEN | been |
BER | are, art |
BBB | is |
CC | համադասական շաղկապներ (and, or) |
CD | քանակական թվականներ (one, two, 2, etc.) |
CS | ստորադասական շաղկապներ (if, although) |
DO | do |
DOD | did |
DOZ | does |
DT | եզակի թվով ցուցական դերանուններ (this, that) |
DTI | եզակի կամ հոգնակի թվով անորոշ դերանուններ (some, any) |
DTS | հոգնակի թվով ցուցական դերանուններ (these, those) |
DTX | զուգադիր շաղկապներ (either) |
EX | գոյութենականthere |
FW | օտար բառ (գծանշված մինչև կանոնավոր նշում) |
HL | Վերնագիր (գծանշված կանոնավոր նշումից հետո) |
HV | have |
HVD | had անցյալ կատարյալ |
HVG | having |
HVN | had դերբայական ձև |
HVZ | has |
IN | նախդիր |
JJ | ածական |
JJR | բաղդատական աստիճանի ածական |
JJS | իմաստաբանորեն գերադրական աստիճանի ածականներ (chief, top) |
JJT | ձևաբանորեն գերադրական աստիճանի ածականներ (biggest) |
MD | մոդալ բայեր (can, should, will) |
NC | մեջբերվող բառ (գծանշված կանոնավոր նշումից հետո) |
NN | եզակի թվով կամ հավաքական գոյական |
NN$ | ստացական հոլովով ու եզակի թվով գոյական |
NNS | հոգնակի թվով գոյական |
NNS$ | ստացական հոլովով ու հոգնակի թվով գոյական |
NP | հատուկ անուն կամ անուն պարունակող բառակապացության մաս |
NP$ | ստացական հոլովով հատուկ գոյական |
NPS | հոգնակի թվով հատուկ գոյական |
NPS$ | հոգնակի թվով հատուկ անուն |
NR | մակբայաձև գոյական (home, today, west) |
NRS | հոգնակի թվով մակբայաձև գոյական |
OD | դասական թվական (first, 2nd) |
PN | անվանական դերանուն (everybody, nothing) |
PN$ | անվանական դերանունները ստացական հոլովով |
PP$ | անձնական դերանուններ ստացական հոլովով (my, our) |
PP$$ | երկրորդ (անվանական) դերանունները ստացական հոլովով (mine, ours) |
PPL | Անդրադարձ անձնական դերանունները եզակի թվով (myself) |
PPLS | Անդրադարձ անձնական դերանունները հոգնակի թվով (ourselves) |
PPO | անձնական դերանուն տրական հոլովով (me, him, it, them) |
PPS | 3-րդ եզակի անվանական դերանուն (he, she, it, one) |
PPSS | այլ անվանական անձնական դերանուններ (I, we, they, you) |
QL | որակիչ (very, fairly) |
QLP | նախաորակիչ (enough, indeed) |
RB | մակբայ |
RBR | համեմատական աստիճանի մակբայ |
RBT | գերադրական աստիճանի մակբայ |
RN | անվանական մակբայ (here, then, indoors) |
RP | մակբայ/մասնիկ (about, off, up) |
TL | Վերնագիր (գծանշված կանոնավոր նշումից հետո) |
TO | ինֆինիտիվի նշիչ |
UH | կոչական, ձայնարկություն |
VB | բայահիմք |
VBD | բայի անցյալ ժամանակ |
VBG | բայի ներկա ժամանակ,գերունդ |
VBN | բայի դերբայական ձև |
VBP | ներկա ժամանակի, եզակի թվի, ոչ 3-րդ դեմքի բայ |
VBZ | ներկա ժամանակի, եզակի թվի, 3-րդ դեմքի բայ |
WDT | wh-որոշյալ (what, which) |
WP$ | wh-ստացական դերանվան ստացական հոլով |
WPO | wh-դերանվան տրական հոլով |
WPS | wh-դերանվան անվանական հոլով (who, which, that) |
WQL | wh-որակիչ |
WRB | wh-մակբայ (how, where, when) |
Նշենք, որ պիտակավորված Բրաունյան կորպուսի որոշ տարբերակներ պարունակում են համակցված պիտակներ։ Օրինակ՝ «wanna» բառը պիտակավորված է որպես VB+TO, քանի որ այն երկու բառերի կաղապարված ձևն է, want/VB և to/TO: Որոշակի պիտակներ կարող են ժխտվել, օրինակ՝ «aren’t»-ը կպիտակավորվի որպես «BER*», որը ժխտման նշանակություն ունի։ Ավելին՝ պիտակները կարող են գծեր պարունակել՝ –HL պիտակը գծանշվում է խորագրերում առկա բառերի պիտակներին։ -TL պիտակը գծանշվում է վերնագրերում առկա բառերի պիտակներին։ -NC գծանիշը նշանակում է շեշտավորված բառ։ Երբեմն պիտակը պարունակում է FW- նախածանց, որը նշանակում է օտար բառ։