Автор | В. Нельсон Франсис, Генрі Кучера |
---|---|
Назва мовою оригіналу | Brown Corpus |
Країна | США |
Мова | Англійська (американський варіант) |
Тема | лінгвістичний корпус |
Видавництво | The Cooperative Research Program of the U.S. Office of Education, Brown University |
Видано | 1964 р. (оригінальна версія) |
Стандартизований корпус сучасної американської англійської мови Браунського університету (або Браунівський корпус) — це електронне зібрання текстів американського варіанту англійської мови, перший великий структурований, комп'ютеризований корпус різних жанрів, призначений для лінгвістичних досліджень сучасної англійської мови. Цей корпус вважають першим повноцінним лінгвістичним корпусом. Його розробка відкрила широкі перспективи для наукового вивчення частоти вживання та розподілу категорій слів у повсякденному мовленні. Укладений Генрі Кучерою та В. Нельсоном Френсісом з Браунського університету в Род-Айленді. Це загальномовний корпус, що містить 500 текстів англійської мови загальною кількістю приблизно 1 мільйон слововживань, зібраних з робіт, опублікованих у Сполучених Штатах протягом 1961 року.
Доступні 6 версій корпусу: оригінальна (Форма A), Форма B з виключеними пунктуаційними кодами, розмічена Форма C, Форми Бергена І та ІІ і форма Brown MARC.[1]
Опубликований також офіційний мануал до корпусу, він доступний онлайн (див. [2])
У 1967 році Кучера і Френсіс оприлюднили свою знакову працю «Обчислювальний аналіз сучасної американської англійської мови», яка стала майбутньою статистичною базою для створення Браунівського корпусу. [3]
Браунівський корпус являв собою ретельно зібрану добірку поточної американської англійської мови, що налічувала близько 1 мільйона слів, взятих із найрізноманітніших джерел. Кучера і Френсіс проводили на його основі різнобічні обчислювальні аналізи, оптимізувавши цей проєкт, поєднавши елементи лінгвістики, психології, статистики та соціології. Він дуже широко використовувався в комп’ютерній лінгвістиці і протягом багатьох років був одним з найбільш цитованих ресурсів у цій галузі. [4]
Невдовзі після публікації першого лексикостатистичного аналізу бостонський видавець Houghton-Mifflin звернувся до Кучери, щоб надати базу цитат на мільйон слів для свого нового «Словника Американської Спадщини»[en]. Цей новаторський новий словник, який вперше з’явився у 1969 році, був першим словником, який був укладений за допомогою розробок корпусної лінгвістики для частоти слів та іншої інформації.
На початку Браунівський корпус мав лише самі слововживання, а також ідентифікатор розташування їх у текстах. Протягом наступних кількох років почали застосовувалися теги на позначення граматичних категорій. Програма додавання тегів Greene і Rubin (див. розділ «Позначення тегів у мові» ) значно допомогла в цьому, але високий рівень помилок означав, що потрібна була велика ручна коректура.
Розмічений Браунівський корпус використовував вибірку з приблизно 80 категорій, а також спеціальні індикатори для складених слів, скорочень, іншомовних запозичень та деяких інших явищ. Він став моделлю для багатьох пізніших корпусів, таких як Корпус Ланкастера-Осло-Бергена (британська англійська з початку 1990-х) та Фрайбург-Браун Корпус американської англійської мови (FROWN) (американська англійська з початку 1990-х). [5] [6] Розмітка корпусу дозволяла робити набагато складніший статистичний аналіз, наприклад, роботу, запрограмовану Ендрю Макі та задокументовану в книгах з англійської граматики. [7]
Браунівський корпус фактично ознаменував початок активного розвитку корпусної лінгвістики. Він дозволяв робити певні статистичні висновки. Наприклад, цікавим результатом є те, що навіть для досить великих вибірок графік слів у порядку зменшення їх частоти вживання утворює гіперболу: частотність n-ого найбільш вживаного слова є константою, яка приблизно пропорційна до 1/n. Таким чином, «the» становить майже 7% Браунівського корпусу, «to» і «of» більше ніж ще 3% кожне. Таким чином, слово «the» займає близько 7% Браунівського корпусу, «to» та «of» понад 3% кожне. Проте майже половина загального наповнення текстів (приблизно 50000 слів) становить hapax legomena: слова, які зустрічаються лише один раз у корпусі. [8] Це відношення порядку та частотності досліджувалося Джорджем Кінгслі Зіпфом (наприклад, див. «Психобіологія мови») і відоме як закон Ципфа .
Незважаючи на те, що Браунівський корпус став першим у галузі корпусної лінгвістики, на даний момент інші типові корпуси (наприклад, Корпус сучасної американської англійської мови, Британський національний корпус або Міжнародний корпус англійської мови ) зазвичай є набагато більшими - близько 100 мільйонів слів.
Корпус включав 500 текстів, опублікованих до 1961 року, розподілених приблизно порівну по 15 жанрах. Усі відібрані роботи були вперше опубліковані в 1961 році й написані носіями американської англійської мови.
Кожен зразок тексту починався з випадкової межі речення у статті чи іншому вибраному підрозділі й продовжувався до першої межі речення після 2000 слів. У невеликій кількості випадків неправильні підрахунки призвели до того, що тексти почали становити трохи менше 2000 слів.
Початкове введення даних здійснювалося на перфораційних машинах тільки великими літерами; великі літери позначалися зірочкою (*), а різні спеціальні елементи, такі як формули, також мали спеціальні кодові позначення.
Спочатку корпус (на 1961 рік) містив 1 014 312 слововживань із 15 текстових категорій:
Тег | Визначення |
---|---|
CC | сполучник сурядності (and, or) |
CD | кількісні числівники (one, two і т.д.) |
CS | сполучник підрядності (if, although) |
EX | квантор існування (there is/are ...) |
JJ | прикметник |
JJA | прикметник + допоміжне слово |
JJC | прикметник, вища ступінь порівняння |
JJCC | прикметник + сполучник |
JJS | прикметник найвищого ступеня порівняння |
JJF | прикметник + жіночий рід |
JJM | прикметник + чоловічий рід |
NN | іменник однини або множини |
NNA | іменник + допоміжне слово |
NNC | іменник + сполучник |
NNS | іменник + множина |
NNP | власне ім'я або частина іменної фрази |
NNPC | власний ім'я + сполучник |
PRP | особовий займенник, однина |
PRPS | особовий займенник, множина |
PRP$ | присвійний займенник |
RB | прислівник |
RBR | прислівник у вищій ступені порівняння |
RBS | прислівник у найвищій ступені порівняння |
VB | дієслово, інфінітив |
VBA | дієслово + допоміжне дієслово, однина, теперішній час |
VBD | дієслово, минулий час |
VBG | дієслово, дієприкметник теперішнього часу/герундій |
VBN | дієслово, дієприкметник минулого часу |
VBZ | дієслово, 3 ос. однини теперішнього часу |
FW | іноземні слова |
PUN | усі розділові знаки |
Браунівський корпус став натхненням для створення цілої групи корпусів, у тому числі корпус Ланкастер-Осло/Берген (LOB), Браунівський Британський корпус, та інші еквіваленти оригінального Браунівського корпусу.
Браунський корпус української мови — відкритий, збалансований за жанрами та в проанотований корпус сучасної української мови (БрУК) обсягом 1 млн слововживань зі знятою омонімією. Корпус побудований на засадах, що були покладені в основу корпусу англійської мови Brown.
The Lancaster-Oslo/Bergen Corpus (LOB Corpus)
The Kolhapur Corpus of Indian English
The Australian Corpus of English (ACE)
The Wellington Corpus of Written New Zealand English
The Freiburg-LOB Corpus of British English (FLOB)
The Freiburg-Brown Corpus of American English (FROWN)
The International Corpus of English (ICE)