Słowosieć (ang. PlWordNet) – baza danych leksykalno-semantycznych języka polskiego typu wordnet. Zawiera zestawy synonimicznych jednostek leksykalnych (synsety) opisanych krótkimi definicjami. Słowosieć służy jako słownik, w którym pojęcia (synsety) i poszczególne znaczenia wyrazów (jednostki leksykalne) zdefiniowane są poprzez miejsce w sieci wzajemnych relacji, odzwierciedlających system leksykalny polszczyzny. Słowosieć jest także wykorzystywana jako jeden z podstawowych zasobów do budowy programów przetwarzających język polski.
Słowosieć powstaje od 2005 roku. Prace finansowane z funduszy Ministerstwa Nauki i Szkolnictwa Wyższego oraz ze środków unijnych prowadzi Centrum Technologii Językowych CLARIN-PL przy Katedrze Sztucznej Inteligencji Wydziału Informatyki i Komunikacji Politechniki Wrocławskiej[1]. Słownik jest budowany od podstaw przez leksykografów i specjalistów z dziedziny inżynierii języka naturalnego[2]. Pierwszą wersję Słowosieci opublikowano w 2009 roku – zawierała 20 223 lematy, 26 990 jednostek leksykalnych i 17 695 synsetów[3]. Słowosieć w wersji 4.0 dostępna jest od 2018 roku. Aktualnie dostępna jest wersja 4.2[4].
Obecnie Słowosieć zawiera prawie 195 tys. lematów, 295 tys. jednostek leksykalnych oraz 228 tys. synsetów[4]. Pod względem liczby jednostek leksykalnych osiągnęła większy rozmiar niż Princeton WordNet, największy dotąd wordnet na świecie.
W Słowosieci znajdują się rzeczowniki (135 tys.), czasowniki (21 tys.), przymiotniki (29 tys.) i przysłówki (8 tys.)[4]. Każde znaczenie danego wyrazu to osobna jednostka leksykalna. Jednostki, które oznaczają to samo pojęcie, a nie różnią się istotnie rejestrem stylistycznym, zostały połączone w synsety, czyli zestawy synonimów.
Każda jednostka leksykalna przypisana jest do jednej z domen (kategorii semantycznych), wskazujących na jej ogólne znaczenie. Domeny odpowiadają lexicographers’ files WordNetu Princeton.
Domeny rzeczownika[5] | Domeny czasownika[6] | Domeny przymiotnika[7] |
---|---|---|
|
|
|
Część jednostek leksykalnych opatrzona jest informacją o rejestrze stylistycznym, krótką definicją, przykładem użycia oraz linkiem do odpowiedniego artykułu w Wikipedii.
Tabela przedstawia informacje o przykładowej jednostce – miasto uzyskane za pomocą narzędzia Słowosieci (Narzędzie).
Rzeczownik | Miasto |
---|---|
Domena | miejsce i umiejscowienie |
Kwalifikator | ogólny |
Definicja | duży, gęsto zabudowany i zaludniony teren posiadający odrębną administrację; miejsce życia ludzi pracujących w przemyśle lub usługach. |
Przykład | W mieście człowiek ma większą szansę na zrobienie kariery i zarobienie pieniędzy, choć jednocześnie łatwiej tam niż na wsi popaść w ubóstwo. |
Najważniejszym elementem definiującym znaczenia są relacje językowe (leksykalno-semantyczne i derywacyjne), które łączą zarówno całe synsety (relacje synsetów), jak i pojedyncze jednostki leksykalne (relacje jednostek). We wspólnym synsecie znajdują się tylko takie jednostki leksykalne, które współdzielą zestaw relacji semantycznych[8]. Na podstawie relacji przypisanych do synsetów i jednostek leksykalnych możliwe jest zbudowanie narzędzia rozpoznającego, które znaczenie wyrazu występuje w tekście.
Tabela zawiera wykaz wybranych relacji rzeczownika[8].
Relacja | Test | Przykład |
---|---|---|
synonimia |
|
{kot2; kot domowy1} |
bliskoznaczność |
|
{chłopiec1}, {gówniarz1} |
hipo-/hiperonimia |
|
{buk1} jest rodzajem {drzewo liściaste1} |
mero-/holonimia |
|
{poduszka powietrzna1} jest częścią {samochód1} |
Polskie synsety są ponadto łączone z synsetami Princeton WordNet za pomocą zestawu relacji międzyjęzykowych, wskazujących na różnego rodzaju powiązania semantyczne (np. synonimię, synonimię częściową, hiponimię). Jak dotąd zrzutowanych zostało 91 578 synsetów (tj. ok. 2/3 synsetów Słowosieci, w tym głównie rzeczowniki)[9]. Rzutowanie umożliwia zastosowanie Słowosieci w tłumaczeniu maszynowym, np. jest ona wykorzystywana w tłumaczeniach oferowanych przez Tłumacz Google[10]. Słowosieć łączona jest także ze słownikiem walencyjnym predykatów języka polskiego Walenty[11].
Słowosieć jest dostępna na licencji umożliwiającej jej bezpłatne przeglądanie. Użytkownikom udostępniana jest w postaci elektronicznego słownika online, aplikacji mobilnej i usługi sieciowej. Wybrane zastosowanie Słowosieci: