Оксфордський корпус англійської мови (Oxford English Corpus) — це текстовий корпус англійської мови 21-го століття, який використовується розробниками Оксфордського словника англійської мови та програмою мовних досліджень Oxford University Press. Це найбільший корпус у своєму роді, який містить майже 2,1 мільярди слів.[1] Вона включає мову Великобританії, США, Ірландії, Австралії, Нової Зеландії, Карибського басейну, Канади, Індії, Сінгапуру та Південної Африки. Текст в основному збирається з веб-сторінок; деякі друковані тексти, наприклад, академічні журнали, були зібрані для доповнення окремих предметних областей.[2] Джерелами є твори різного роду, від «літературних романів і спеціалізованих журналів до щоденних газет і журналів і від Хансарда до мови блогів, електронної пошти та соціальних мереж». Це можна порівняти з подібними базами даних, які випробовують лише певний тип письма. Корпус зазвичай доступний лише для дослідників Oxford University Press, але інші дослідники, які можуть продемонструвати сильну потребу, можуть подати заявку на доступ.[2][3]
Цифрова версія Oxford English Corpus відформатована в XML і зазвичай аналізується за допомогою програмного забезпечення Sketch Engine.[4] Станом на 27 квітня 2006 року база даних словника налічувала 1 мільярд слів.[5]
Кожен документ в OE Corpus супроводжується іменуванням метаданих :