Корпус современного американского английского языка

Корпус современного американского английского (англ. Corpus of Contemporary American English, COCA) — электронный корпус текстов, созданный профессором корпусной лингвистики Марком Дэвисом^[англ.] из Brigham Young University в 2000—2003 годах на основе текстов журнала Time, написанных с 1923 года^[1].

Это наибольший (450 млн слов) корпус текстов американского варианта английского языка и единственный свободно доступный корпус на этом языке, включающий большое разнообразие текстов различных жанров. Он составлен из более чем 160 тыс. текстов, включая по 20 млн слов за каждый год с 1990 по 2011. Это наиболее широко используемый структурированный корпус текстов, ежемесячно его используют примерно 10 000 человек.

Другие корпусы Дэвиса

TIME Magazine corpus

Корпус составлен более чем из 275000 статей из архива журнала TIME Архивная копия от 20 октября 2013 на Wayback Machine и содержит больше 100 миллионов слов из текстов, написанных с 1923 по 2006 год. TIME Magazine Corpus интегрирован в общую систему других корпусов, созданных Марком Дэвисом (которая также включает в себя базы данных Corpus of Historical American English (COHA), Corpus del Español или Corpus of American Soap Operas)^[2].

Принцип работы

Архитектура корпуса построена по принципу других проектов Марка Дэвиса, например корпуса современного американского английского языка — Corpus of Contemporary American English (COCA). Существует центральная база n-граммов, которая содержит информацию о каждом из ста миллионов слов корпуса. Они связаны с таблицами, позволяющими анализировать регистр, а также с отдельными таблицами для синонимов, лемм и форм, появляющихся у слова с течением времени.

Разметка текстов производилась с помощью CLAWS-теггера (Constituent Likelihood Automatic Word-tagging System)^[3]. Эта же программа использовалась при создании других корпусов Марка Дэвиса, а также Британского национального корпуса.

Оборудование для корпуса было подобрано так, чтобы обеспечить крайне быстрый поиск — как правило, он занимает менее секунды даже для самых сложных запросов, содержащих словоформу, часть речи, частоту и регистр.

Возможности использования

TIME Magazine Corpus позволяет производить поиск как отдельных слов и словосочетаний, так и специфических грамматических форм или синонимических рядов, а также увидеть контекст их употребления и изменение частоты использования.

Корпус позволяет исследовать:

изменение частоты и контекста использования слов и фраз, связанных с переменами в культурной и социальной жизни общества
языковые перемены в морфологии и грамматических конструкциях
колебания частоты использования тех или иных групп слов со временем
семантические изменения слов на протяжении XX века

Доступ

Доступ к корпусу предоставляется бесплатно.

Необходима регистрация с предоставлением электронного адреса либо информации об организации и статусе пользователя в зависимости от требуемого уровня доступа. Уровней доступа пять в трёх категориях: not researcher, semi-researcher, researcher. Все они различаются объёмом предоставляемой информации в сутки (если начинающему пользователю доступно совершение 100 запросов в день, то профессор или аспирант, зарегистрированный в качестве исследователя, за тот же период времени может выполнить поиск 600 раз).

См. также

Национальный корпус русского языка

Примечания

↑ Kauhanen, Henri The Corpus of Contemporary American English: Background and history (неопр.). VARIENG (21 марта 2011). Дата обращения: 13 октября 2011. Архивировано 12 января 2012 года.
↑ Список корпусов, созданных Марком Дэвисом Архивная копия от 7 ноября 2013 на Wayback Machine. По данным Google Analytics на март 2012 года Архивная копия от 6 ноября 2013 на Wayback Machine, к услугам этой базы данных ежемесячно прибегают более 100 тысяч уникальных пользователей.
↑ CLAWS part-of-speech tagger for English (неопр.). Дата обращения: 27 октября 2013. Архивировано 2 апреля 2019 года.

Ссылки

[1] Kauhanen, Henri The Corpus of Contemporary American English: Background and history (неопр.). VARIENG (21 марта 2011). Дата обращения: 13 октября 2011. Архивировано 12 января 2012 года.

[2] Список корпусов, созданных Марком Дэвисом Архивная копия от 7 ноября 2013 на Wayback Machine. По данным Google Analytics на март 2012 года Архивная копия от 6 ноября 2013 на Wayback Machine, к услугам этой базы данных ежемесячно прибегают более 100 тысяч уникальных пользователей.

[3] CLAWS part-of-speech tagger for English (неопр.). Дата обращения: 27 октября 2013. Архивировано 2 апреля 2019 года.

[1]

[2]

[3]

Корпусная лингвистика
Англоязычные корпусы	Национальный корпус американского английского Bank of English Bergen Corpus of London Teenage Language Британский национальный корпус Brown Corpus Buckeye Corpus Cambridge English Corpus Корпус современного американского английского языка Enron Corpus International Corpus of English Lancaster-Oslo-Bergen Corpus Oxford English Corpus PropBank Spoken English Corpus TIMIT VerbNet Wellington Corpus of Spoken New Zealand English
Русскоязычные корпусы	Генеральный интернет-корпус русского языка Национальный корпус русского языка Открытый корпус русского языка СинТагРус Тюбингенский корпус русского языка Уппсальский корпус русских текстов Хельсинкский аннотированный корпус русского языка
Корпусы на других языках	Bijankhan Corpus CHILDES Корпус хорватского языка Национальный корпус хорватского Europarl Corpus Мангеймский корпус немецкого языка Корпус Хамшахри Национальный корпус польского языка Neo-Assyrian Text Corpus Project Коранический корпус Национальный корпус шотландского языка Slovenian National Corpus TalkBank Татоэба Tehran Monolingual Corpus Tekstaro de Esperanto Thesaurus Linguae Graecae
Организации	Консорциум BNC COBUILD