В другом языковом разделе есть более полная статья Corpus of Contemporary American English (англ.). |
Корпус современного американского английского (англ. Corpus of Contemporary American English, COCA) — электронный корпус текстов, созданный профессором корпусной лингвистики Марком Дэвисом[англ.] из Brigham Young University в 2000—2003 годах на основе текстов журнала Time, написанных с 1923 года[1].
Это наибольший (450 млн слов) корпус текстов американского варианта английского языка и единственный свободно доступный корпус на этом языке, включающий большое разнообразие текстов различных жанров. Он составлен из более чем 160 тыс. текстов, включая по 20 млн слов за каждый год с 1990 по 2011. Это наиболее широко используемый структурированный корпус текстов, ежемесячно его используют примерно 10 000 человек.
Корпус составлен более чем из 275000 статей из архива журнала TIME Архивная копия от 20 октября 2013 на Wayback Machine и содержит больше 100 миллионов слов из текстов, написанных с 1923 по 2006 год. TIME Magazine Corpus интегрирован в общую систему других корпусов, созданных Марком Дэвисом (которая также включает в себя базы данных Corpus of Historical American English (COHA), Corpus del Español или Corpus of American Soap Operas)[2].
Архитектура корпуса построена по принципу других проектов Марка Дэвиса, например корпуса современного американского английского языка — Corpus of Contemporary American English (COCA). Существует центральная база n-граммов, которая содержит информацию о каждом из ста миллионов слов корпуса. Они связаны с таблицами, позволяющими анализировать регистр, а также с отдельными таблицами для синонимов, лемм и форм, появляющихся у слова с течением времени.
Разметка текстов производилась с помощью CLAWS-теггера (Constituent Likelihood Automatic Word-tagging System)[3]. Эта же программа использовалась при создании других корпусов Марка Дэвиса, а также Британского национального корпуса.
Оборудование для корпуса было подобрано так, чтобы обеспечить крайне быстрый поиск — как правило, он занимает менее секунды даже для самых сложных запросов, содержащих словоформу, часть речи, частоту и регистр.
TIME Magazine Corpus позволяет производить поиск как отдельных слов и словосочетаний, так и специфических грамматических форм или синонимических рядов, а также увидеть контекст их употребления и изменение частоты использования.
Корпус позволяет исследовать:
Доступ к корпусу предоставляется бесплатно.
Необходима регистрация с предоставлением электронного адреса либо информации об организации и статусе пользователя в зависимости от требуемого уровня доступа. Уровней доступа пять в трёх категориях: not researcher, semi-researcher, researcher. Все они различаются объёмом предоставляемой информации в сутки (если начинающему пользователю доступно совершение 100 запросов в день, то профессор или аспирант, зарегистрированный в качестве исследователя, за тот же период времени может выполнить поиск 600 раз).