ВНИМАНИЕ: Тази статия се нуждае от частичен или цялостен превод. Ако имате познания по използвания език, не се колебайте! Чуждият текст, който не е преведен до 2 седмици след поставянето на шаблона, ще бъде изтрит. Благодарим Ви, че помагате на Уикипедия!
Думите са групирани в синонимни редове, наречени синсети (synsets), които са снабдени с кратки дефиниции и примери за употреба. Системата използва и множество от релации между синонимните редове или отделни техни членове. По тази причина WordNet може да се разглежда като комбинация от различни видове речници – тълковен речник, синонимен речник и други. WordNet може да се ползва от различни потребители (обикновено посредством уеб браузър), но и намира широко приложение в областта на автоматичната обработка на естествените езици и изкуствения интелект.
Базата данни и софтуерът на WordNet се разпространяват безплатно. Лексикографските данни (lexicographer files) и компилаторът (grind) също са свободни за ползване.
WordNet оригинално е разработен от Лаборатарията за когнитивни науки към под ръководството на професора по психология George Armitage Miller. Проектът започва през 1985, а в последните години се ръководи от Christiane Fellbaum.
Към ноември 2012 година, последната версия на WordNet е 3.1.[2]
Базата от данни съдържа 155 287 думи, организирани в 117 659 синонимни множества (синсети), формиращи 206 941 двойки дума-значение; в компресирана форма представлява файл с размер 12 MB.[3]
Като лексикални категории WordNet включва съществителни имена, глаголи, прилагателни имена и наречия, но не и предлози, (не)определителни членове и други служебни думи.
Синсетите включват думи, които могат да бъдат определени като синоними. Това може да бъдат прости думи, както и съставни думи и колокации (свободни съчетания, описващи дадено понятие), например eat out ‘храня се извън къщи’ или car pool ‘автомобили за споделено използване’. Дадена многозначна дума може да участва с различните си значения в различни синсети.
Всеки синсет съдържа кратка дефиниция и един или повече илюстративни примери. Например:
good, right, ripe – (most suitable or right for a particular purpose; „a good time to plant tomatoes“; „the right time to act“; „the time is ripe for great sociological changes“)
Синсетите се свързват с други синсети посредством множество от семантични релации. Някои от релациите са ограничени само до специфичен клас думи. В Принстънския WordNet присъстват следните релации:
Релации между съществителни имена
хиперними: Y е хиперним на X, ако всяко X е (вид) Y (canine ‘животно от семейството Canidae’ е хиперним на dog ‘куче’)
хипоними: Y е хипоним на X, ако всяко Y е (вид) X (dog е хипоним на canine)
съподчинени понятия: Y е съподчинено на X, ако X и Y споделят хиперним (wolf ‘вълк’ е съподчинено понятие на dog и обратно)
мероним: Y е мероним на X, ако Y е част от X (window ‘прозорец’ е мероним на building ‘сграда’)
холоним: Y е холоним на X, ако X е част от Y (building е холоним на window)
Релации между глаголи
хиперним: глаголът Y е хиперним на глагола X, ако действието X е (вид) Y (to perceive ‘възприемам’ е хиперним на to listen ‘чувам’)
тропоним: глаголът Y е тропоним на глагола X, ако действието Y представлява извършване на X по определен начин (to lisp ‘фъфля’ е тропоним на to talk ‘говоря’)
импликация: глаголът Y се имплицира от X, ако извършването на X означава, че непременно се извършва и Y (to sleep ‘спя’ е имплицирано от to snore ‘хъркам’)
съподчинени понятия: глаголи, които споделят общ хиперним (to lisp и to yell ‘викам’)
Тези семантични релации свързват целите синсети. Съществуват и релации между отделни членове на синсетите (отделни думи). Например, съществителното director се свързва с глагола direct чрез морфосемантична релация.
Съществителните имена и глаголите са организирани в йерархии, дефинирани чрез релациите hypernym или IS A. Например, думата dog се среща в следната хиперонимна йерархия (думи на едно ниво са от същия синсет; всеки синсет има уникален идентификатор):
На върха тези йерархии са организирани в 25 начални „дървета“ при съществителните и 15 при глаголите (описани в lexicographic files). Прилагателните имена не са организирани в йерархични дървовидни структури, а са свързани с релации за антонимия и подобие.
WordNet не включва информация за етимологията на думите или произношението им, а относно употребата информацията е силно ограничена. Също така WordNet се стреми да включва ежедневна лексика и затова покритието на специализирана терминология не е добро.
Global WordNet Association (GWA)[11] осигурява платформа за обсъждане, споделяне и свързване на уърднетите за различни езици. Също така Асоциацията промотира въвеждането на стандарти за уърднетите, за да се осигури тяхната съвместимост и да се улесни използването им за многоезични проекти и системи. GWA поддържа списък на уърднетите по света.[12]
↑E. Agirre, O. Lopez. 2003.
Clustering WordNet Word Senses. In Proc. of the Conference on Recent Advances on Natural Language (RANLP’03), Borovetz, Bulgaria, pp. 121 – 130.
↑R. Snow, S. Prakash, D. Jurafsky, A. Y. Ng. 2007. Learning to Merge Word Senses, In Proc. of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Prague, Czech Republic, pp. 1005 – 1014.
↑Piek Vossen, Claudia Soria, Monica Monachini: Wordnet-LMF: a standard representation for multilingual wordnets, in LMF Lexical Markup Framework, edited by Gil Francopoulo ISTE / Wiley 2013 (ISBN 978-1-84821-430-9)