Міжнародний корпус англійської мови (ICE, англ. International Corpus of English) — набір лінгвістичних корпусів, що представляють різновиди англійської мови з усього світу. Учасниками є понад двадцять країн або груп країн, де англійська є офіційною першою або другою мовою.
ICE (Міжнародний корпус англійської мови) був започаткований для надання ресурсів для порівняльних досліджень англійської мови, які використовуються в країнах, де мова більшості населення є офіційною першою або другою мовою. Очікується, що національні або регіональні корпуси, які становлять компоненти ICE, відповідатимуть визначеному загальному дизайну.
Британський дослідник англійської мови та лінгвістики Сідні Грінбаум мав на меті зібрати корпуси, які б порівнювали синтаксис національних різновидів англійської мови з усього світу. Його ціль була реалізована професором Чарльзом Ф. Мейєром у проекті ICE. Сідні Грінбаум очікував, що міжнародні групи дослідників зберуть національні варіації для порівняння письмової та усної англійської мови.[1] Такими варіаціями мали стати британська англійська, американська англійська та індійська англійська, що представлялися б через комп’ютерні корпуси.[1] Корпуси використовуються дослідниками для порівняння синтаксису різновидів англійської мови.[2] Завершення корпусів ICE означало б всебічний лінгвістичний аналіз різновидів англійської мови, які з’явилися.[1] Постійні дослідження для ICE реалізуються міжнародними командами в різноманітних регіонах.[1]
Проєкт розпочався в 1990 році, основною метою якого був збір матеріалу для порівняльних досліджень англійської мови з усього світу. Нині двадцять три дослідницькі групи, включаючи різні організації, такі як All Systems Go Marketing і New Spirit Services, по всьому світу готують електронні корпуси власного національного або регіонального різновиду англійської мови. Кожен корпус ICE складається з мільйона слів усної та письмової англійської мови, які виникли після 1989 року.[3] Для більшості країн-учасниць проєкт ICE стимулює перше систематичне дослідження національної різноманітності. Щоб забезпечити сумісність між корпусами, кожна команда дотримується спільного дизайну корпусу, а також загальної схеми для граматичних анотацій.
Кожен корпус містить мільйон слів у 500 текстах по 2000 слів[4] за методологією вибірки, яка використовується для Корпусу Брауна. На відміну від Брауна чи Корпусу Ланкастер-Осло-Берген (LOB) (або навіть мегакорпусів, таких як Британський національний корпус), більшість текстів отримано з усних даних.
Корпуси ICE вважаються дуже малими для сучасних стандартів, адже мають лише один мільйон слів на корпус.[5] Корпуси ICE містять 60% (600 000 слів) орфографічно транскрибованої розмовної англійської мови. Батько проекту, Сідні Грінбаум, наполягав на першості розмовного слова, наслідуючи співпрацю Рендольфа Квірка та Яна Свартвіка над оригінальним корпусом Лондон-Лунд (LLC). Саме акцент на дослівній транскрипції виділяє ICE з багатьох інших корпусів, включаючи ті, що містять, наприклад, парламентські або юридичні перефрази.
Корпуси повністю складаються з даних 1990 року або пізніше. Всі дані були зібрані від дорослих осіб, які здобули щонайменше 13-річну освіту англійською мовою та/або народилися, або переїхали в ранньому віці до країни, до якої належать їхні дані.[6]Представлені зразки мовлення та тексту чоловіків та жінок багатьох вікових груп, але на веб-сайті корпусу зазначено, що «пропорції, проте, не є репрезентативними для пропорцій населення в цілому: жінки не є однаково представлені в таких професіях, як політика та юриспруденція, і тому не створюють однакову кількість дискурсу в цих сферах».[4] Були змоделювалі категорії учасників з точки зору професій за критеріями, які використовуються для збору даних ICE-Uganda, а саме: студентів, професіоналів (у цьому випадку викладачів англійської мови) та бізнес-спільноти. Багато корпусів зараз доступні для завантаження на офіційній веб-сторінці ICE, хоча для деяких потрібна ліцензія. Інші, однак, не готові до публікації.[7]
Дослідники та лінгвісти дотримуються конкретних рекомендацій при анотуванні даних для корпусу, що можна знайти у Міжнародному корпусі посібників та документації з англійської мови. Існує три рівні анотації: розмітка тексту, тегування текстового класу, синтаксичний розбір.[8]
Оригінальна розмітка та макет, наприклад синтаксичний аналіз речень і абзаців, зберігаються, а спеціальні маркери вказують його як оригінальний. Умовні дані транскрибуються орфографічно з індикаторами коливань, фальстартів і пауз.[8]
Класи слів, які також називають частинами мови, — це граматичні категорії для слів, об'єднаних спільністю загального граматичного значення.
Британські тексти автоматично позначаються тегами для текстового класу за допомогою теггера ICE, розробленого в Університетському коледжі Лондона, який використовує всю граматику англійської мови.
Усі інші мови позначаються автоматично за допомогою тегів PENN Treebank і CLAWS. Хоча теги не виправляються вручну, їх якість регулярно перевіряють.[8]
Речення аналізуються автоматично і при необхідності виправляються вручну за допомогою ICECUP, редактора синтаксичного дерева, створеного спеціально для корпусу.
Синтаксичний аналіз залежностей також виконується автоматично за допомогою аналізатора залежностей Pro3GreS. Результати не перевіряються вручну.[8]
ICECUP є програмою дослідження корпусу для граматично розібраних корпусів типу ICE-GB. Як і його попередник, ICECUP 3.1 використовує FTFs, щоб будувати граматичні запити. Пошуки одного слова у ICECUP дуже швидкі, оскільки такі запити були попередньо обчислені і зібрані.
Особливості ICECUP[9]:
Пошук у ICECUP здійснюється по всьому корпусі, якщо не обрано конкретний підкорпус.
Нижче наведено підрозділи ICE з кількістю корпусів для кожної категорії та підкатегорії в дужках.[6]
Діалоги (180) | Приватні (100) | Розмови віч-на-віч (90)
Телефонні дзвінки (10) |
Публічні (80) | Уроки в класі (20)
Обговорення в ефірі (20) Інтерв’ю в ефірі (10) Парламентські дебати (10) Юридичні перехресні допити (10) Ділові операції (10) | |
Монологи (120) | Спонтанні (70) | Спонтанні коментарі (20)
Незаписані промови (30) Демонстрації (10) Юридичні презентації (10) |
Читані (50) | Новини мовлення (20)
Трансляційні розмови (20) Нетрансляційні розмови (10) |
Неопубліковні (50) | Студентське письмо (20) | Студентські реферати (10)
Скрипти іспитів (10) |
Листи (30) | Соціальні листи (15)
Ділові листи (15) | |
Опубліковані(150) | Академічне письмо (40) | Гуманітарні науки (10)
Суспільні науки (10) Природничі науки (10) Технології (10) |
Популярні твори (40) | Гуманітарні науки (10)
Суспільні науки (10) Природничі науки (10) Технології (10) | |
Репортажі (20) | Новини преси (20) | |
Навчальне письмо (20) | Адміністративні записи(10)
Навички/хобі (10) | |
Переконливі записи (10) | Редакційні статті для преси (10) | |
Творче письмо (20) | Романи та оповідання (20) |
Існує ряд книг, опублікованих про Міжнародний корпус англійської мови, а також книги, які частково засновані на корпусах:[10]
Поточний список країн-учасниць (*= доступний):