Корпус современного американского английского языка

Корпус современного американского английского (англ. Corpus of Contemporary American English, COCA) — электронный корпус текстов, созданный профессором корпусной лингвистики Марком Дэвисом[англ.] из Brigham Young University в 2000—2003 годах на основе текстов журнала Time, написанных с 1923 года[1].

Это наибольший (450 млн слов) корпус текстов американского варианта английского языка и единственный свободно доступный корпус на этом языке, включающий большое разнообразие текстов различных жанров. Он составлен из более чем 160 тыс. текстов, включая по 20 млн слов за каждый год с 1990 по 2011. Это наиболее широко используемый структурированный корпус текстов, ежемесячно его используют примерно 10 000 человек.

Другие корпусы Дэвиса

[править | править код]

TIME Magazine corpus

[править | править код]

Корпус составлен более чем из 275000 статей из архива журнала TIME Архивная копия от 20 октября 2013 на Wayback Machine и содержит больше 100 миллионов слов из текстов, написанных с 1923 по 2006 год. TIME Magazine Corpus интегрирован в общую систему других корпусов, созданных Марком Дэвисом (которая также включает в себя базы данных Corpus of Historical American English (COHA), Corpus del Español или Corpus of American Soap Operas)[2].

Принцип работы

[править | править код]

Архитектура корпуса построена по принципу других проектов Марка Дэвиса, например корпуса современного американского английского языка — Corpus of Contemporary American English (COCA). Существует центральная база n-граммов, которая содержит информацию о каждом из ста миллионов слов корпуса. Они связаны с таблицами, позволяющими анализировать регистр, а также с отдельными таблицами для синонимов, лемм и форм, появляющихся у слова с течением времени.

Разметка текстов производилась с помощью CLAWS-теггера (Constituent Likelihood Automatic Word-tagging System)[3]. Эта же программа использовалась при создании других корпусов Марка Дэвиса, а также Британского национального корпуса.

Оборудование для корпуса было подобрано так, чтобы обеспечить крайне быстрый поиск — как правило, он занимает менее секунды даже для самых сложных запросов, содержащих словоформу, часть речи, частоту и регистр.

Возможности использования

[править | править код]

TIME Magazine Corpus позволяет производить поиск как отдельных слов и словосочетаний, так и специфических грамматических форм или синонимических рядов, а также увидеть контекст их употребления и изменение частоты использования.

Корпус позволяет исследовать:

  • изменение частоты и контекста использования слов и фраз, связанных с переменами в культурной и социальной жизни общества
  • языковые перемены в морфологии и грамматических конструкциях
  • колебания частоты использования тех или иных групп слов со временем
  • семантические изменения слов на протяжении XX века

Доступ к корпусу предоставляется бесплатно.

Необходима регистрация с предоставлением электронного адреса либо информации об организации и статусе пользователя в зависимости от требуемого уровня доступа. Уровней доступа пять в трёх категориях: not researcher, semi-researcher, researcher. Все они различаются объёмом предоставляемой информации в сутки (если начинающему пользователю доступно совершение 100 запросов в день, то профессор или аспирант, зарегистрированный в качестве исследователя, за тот же период времени может выполнить поиск 600 раз).

Примечания

[править | править код]
  1. Kauhanen, Henri The Corpus of Contemporary American English: Background and history. VARIENG (21 марта 2011). Дата обращения: 13 октября 2011. Архивировано 12 января 2012 года.
  2. Список корпусов, созданных Марком Дэвисом Архивная копия от 7 ноября 2013 на Wayback Machine. По данным Google Analytics на март 2012 года Архивная копия от 6 ноября 2013 на Wayback Machine, к услугам этой базы данных ежемесячно прибегают более 100 тысяч уникальных пользователей.
  3. CLAWS part-of-speech tagger for English. Дата обращения: 27 октября 2013. Архивировано 2 апреля 2019 года.