Développé par | Christiane Fellbaum (en) |
---|---|
Première version | [1] |
Dernière version | 3.1 ()[2],[3],[4] |
Langues | Anglais |
Type | Base de données lexicale (en) |
Licence | Licence BSD |
Site web | wordnet.princeton.edu |
WordNet est une base de données lexicale développée par des linguistes du laboratoire des sciences cognitives de l'université de Princeton depuis une vingtaine d'années[5]. Son but est de répertorier, classifier et mettre en relation de diverses manières le contenu sémantique et lexical de la langue anglaise. Des versions de WordNet pour d'autres langues existent, mais la version anglaise est cependant la plus complète à ce jour.[citation nécessaire]
La base de données ainsi que des outils sont disponibles gratuitement[6]. Par rapport aux outils fournis, un développeur peut aussi accéder à la base de données à partir des interfaces disponibles pour plusieurs langages de programmation (Java, Perl, PHP, Prolog, Python...)[7].
WordNet est distribué sous une licence libre[8], permettant de l'utiliser commercialement ou à des fins de recherche.
La dernière version distribuée en est la 3.1[6]. Cette version est par ailleurs consultable en ligne[9].
La composante atomique sur laquelle repose le système entier est le synset (synonym set), un groupe de mots et/ou de locutions interchangeables, dénotant un sens ou un usage particulier. La version 1.7 de WordNet définit ainsi le nom commun anglais car à l'aide de cinq synsets :
Chaque synset dénote une acception différente du mot car, décrite par une courte définition. Une occurrence particulière de ce mot dénotant par exemple le premier sens (le plus courant), dans le contexte d'une phrase ou d'un énoncé, serait ainsi caractérisée par le fait qu'on pourrait remplacer le mot polysémique par l'un ou l'autre des mots du synset sans altérer la signification de l'ensemble.
À l'instar d'un dictionnaire traditionnel, WordNet offre ainsi, pour chaque mot, une liste de synsets correspondant à toutes ses acceptions répertoriées. Mais les synsets ont également d'autres usages : ils peuvent représenter des concepts plus abstraits, de plus haut niveau que les mots et leurs sens, qu'on peut organiser sous forme d'ontologies. Une ontologie est un système de catégories permettant de classifier les éléments d'un univers. Le système de catégorisation correspond aux relations sémantiques. Ceci permet de regrouper de manière cohérente toutes les composantes d'un univers linguistique telles que les mots, les sens ou bien les concepts.
La relation sémantique servant de critère pour l'agrégation d'un groupe de concepts définira le type de l'ontologie. WordNet répertorie ainsi une grande variété de relations sémantiques permettant d'organiser le sens des mots (et donc par extension les mots eux-mêmes) en des systèmes de catégories qu'on peut consulter de manière cohérente et uniforme. On pourra ainsi interroger le système quant aux hyperonymes d'un mot particulier. À partir par exemple du sens le plus commun du mot car (correspondant au synset 1. car, auto...) la relation d'hyperonymie définit un arbre de concepts de plus en plus généraux :
Dans cet exemple, le dernier concept, « entité, quelque chose », est le plus général, le plus abstrait. Il pourrait ainsi être le super-concept d'une multitude de concepts plus spécialisés.
On peut également interroger le système quant à la relation inverse de l'hyperonymie, l'hyponymie. WordNet offre en fait une multitude d'autres ontologies, faisant usage de relations sémantiques plus spécialisées et restrictives. On peut ainsi interroger le système quant aux méronymes d'un mot ou d'un concept, les parties constitutives d'un objet (HAS-PART). Les méronymes associés au sens car, auto... du mot car sont :
On peut aussi consulter le système quant à la relation inverse, l'holonymie, ou encore pour les relations de synonymie et d'antonymie.
Le lexique de WordNet est séparé en quatre grandes super-catégories lexicales : les noms, les verbes, les adjectifs et les adverbes. Les noms sont ainsi classés en un système de catégories complet et précis comprenant plusieurs niveaux d'imbrication. On retrouve notamment certaines sections de cette ontologie où la profondeur dépasse 10 niveaux.
On retrouve en revanche un système de classification beaucoup moins élaboré pour les verbes, qui sont organisés en un système hiérarchique beaucoup plus « plat » avec moins de niveaux d'imbrication, où on passe très rapidement d'un concept spécialisé (le sens operate, run du verbe running, par exemple) à un concept très général (control, command).
Si on examine par conséquent l'ontologie générée par la relation d'hyperonymie, il est notable qu'elle est la plus complète dans son embranchement nominal.[réf. nécessaire]
À ce jour[Quand ?], il n'y a aucune catégorisation hiérarchique définie pour les embranchements des adjectifs et des adverbes. Ce déséquilibre potentiellement problématique se retrouve à l'intérieur même des super-catégories, où il est beaucoup plus apparent dans la branche nominale : certains mots[Lesquels ?] sont ainsi liés à une grande chaîne de concepts finement graduée, tandis que d'autres sont très proches des concepts les plus généraux.
Les ressources WordNet (dont la ressource originale anglaise fait partie) jouissent d'une bonne popularité auprès de la communauté scientifique et des industriels du traitement de la langue. La Global Wordnet Conference (GWC)[10], organisée tous les deux ans, vise à rassembler les personnes de ces deux communautés afin de partager sur les avancées des Wordnet à travers le monde.
La richesse et la précision de Wordnet en font un outil de choix, susceptible d'être mis à profit par une multitude de techniques et de théories diverses[Lesquelles ?].
Son utilisation fait en sorte de procurer aux algorithmes et applications une importante plateforme de connaissances a priori du langage et du monde dans lequel il s'articule.
Un exemple particulièrement représentatif et ingénieux de son utilisation est donné par les métriques heuristiques de « distance sémantique » entre les concepts d'une ontologie particulière, basées sur la distance à parcourir dans le graphe. Cette distance peut permettre de quantifier par exemple la similarité de deux concepts. Elle peut également servir à faire de la désambigüisation.
WordNet est un système d'une étonnante ampleur : la version 2.1 répertorie plus de 200 000 mots de classes ouvertes, pour lesquelles l'ajout d'éléments lexicaux est possible, ainsi que plus de 115 000 synsets. Pourtant, son statut de projet « en développement »[citation nécessaire] implique toutefois que certaines de ses composantes sont incomplètes. À chaque nouvelle version, le lexique s'enrichit de nouveaux mots, et des relations sémantiques sont ajoutées, modifiées, ou encore rendues désuètes.[réf. souhaitée]
WordNet étant un logiciel libre, celui-ci comprend, outre les définitions des mots, l’ensemble des sources utiles pour l’accès aux données du dictionnaire.
Il existe des projets similaires pour d'autres langues.
Le WordNet libre du français (WOLF) est une ressource linguistique généraliste libre pour le français issue d'une traduction automatique de WordNet 3 (depuis la version 0.2.5[11]). Il a été initié le [12] et est à ce jour encore en version bêta (version 1.0 bêta publiée en )[13]. Ce projet bénéficie d'une validation manuelle partielle des littéraux qu'il contient[14].
Le projet EuroWordnet développé entre 1996 et 1999[15] a permis la constitution de ressources « Wordnet » pour l'anglais (extension de Wordnet 1.5), le néerlandais, l'italien, l'espagnol, l'allemand, le français, le tchèque et l'estonien. Il est à noter que ces « Wordnet » ne sont pas libres et leurs licences sont payantes : l'ELDA/ELRA se charge de les commercialiser[16].
La Global Wordnet Association (GWA) recense au total une petite centaine de « Wordnet » dans différentes langues à travers le monde[17].
Le projet BalkaNet[18] a permis la construction de six WordNet pour le bulgare, le tchèque, le grec, le roumain, le turc et le serbe. Le projet BabelNet intègre WordNet avec d'autres ressources, telles que Wikipédia et Wiktionnaire.