Słowosieć (ang.PlWordNet) – baza danych leksykalno-semantycznych języka polskiego typu wordnet. Zawiera zestawy synonimicznychjednostek leksykalnych (synsety) opisanych krótkimi definicjami. Słowosieć służy jako słownik, w którym pojęcia (synsety) i poszczególne znaczenia wyrazów (jednostki leksykalne) zdefiniowane są poprzez miejsce w sieci wzajemnych relacji, odzwierciedlających system leksykalny polszczyzny. Słowosieć jest także wykorzystywana jako jeden z podstawowych zasobów do budowy programów przetwarzających język polski.
Powstanie
Słowosieć powstaje od 2005 roku. Prace finansowane z funduszy Ministerstwa Nauki i Szkolnictwa Wyższego oraz ze środków unijnych prowadzi Centrum Technologii Językowych CLARIN-PL przy Katedrze Sztucznej Inteligencji Wydziału Informatyki i KomunikacjiPolitechniki Wrocławskiej[1].
Słownik jest budowany od podstaw przez leksykografów i specjalistów z dziedziny inżynierii języka naturalnego[2]. Pierwszą wersję Słowosieci opublikowano w 2009 roku – zawierała 20 223 lematy, 26 990 jednostek leksykalnych i 17 695 synsetów[3]. Słowosieć w wersji 4.0 dostępna jest od 2018 roku. Aktualnie dostępna jest wersja 4.2[4].
Zawartość
Obecnie Słowosieć zawiera prawie 195 tys. lematów, 295 tys. jednostek leksykalnych oraz 228 tys. synsetów[4]. Pod względem liczby jednostek leksykalnych osiągnęła większy rozmiar niż Princeton WordNet, największy dotąd wordnet na świecie.
W Słowosieci znajdują się rzeczowniki (135 tys.), czasowniki (21 tys.), przymiotniki (29 tys.) i przysłówki (8 tys.)[4]. Każde znaczenie danego wyrazu to osobna jednostka leksykalna. Jednostki, które oznaczają to samo pojęcie, a nie różnią się istotnie rejestrem stylistycznym, zostały połączone w synsety, czyli zestawy synonimów.
Każda jednostka leksykalna przypisana jest do jednej z domen (kategorii semantycznych), wskazujących na jej ogólne znaczenie. Domeny odpowiadają lexicographers’ files WordNetu Princeton.
Część jednostek leksykalnych opatrzona jest informacją o rejestrze stylistycznym, krótką definicją, przykładem użycia oraz linkiem do odpowiedniego artykułu w Wikipedii.
Informacje o jednostce leksykalnej
Tabela przedstawia informacje o przykładowej jednostce – miasto uzyskane za pomocą narzędzia Słowosieci (Narzędzie).
Rzeczownik
Miasto
Domena
miejsce i umiejscowienie
Kwalifikator
ogólny
Definicja
duży, gęsto zabudowany i zaludniony teren posiadający odrębną administrację; miejsce życia ludzi pracujących w przemyśle lub usługach.
Przykład
W mieście człowiek ma większą szansę na zrobienie kariery i zarobienie pieniędzy, choć jednocześnie łatwiej tam niż na wsi popaść w ubóstwo.
Najważniejszym elementem definiującym znaczenia są relacje językowe (leksykalno-semantyczne i derywacyjne), które łączą zarówno całe synsety (relacje synsetów), jak i pojedyncze jednostki leksykalne (relacje jednostek). We wspólnym synsecie znajdują się tylko takie jednostki leksykalne, które współdzielą zestaw relacji semantycznych[8].
Na podstawie relacji przypisanych do synsetów i jednostek leksykalnych możliwe jest zbudowanie narzędzia rozpoznającego, które znaczenie wyrazu występuje w tekście.
Wybrane relacje rzeczownika
Tabela zawiera wykaz wybranych relacji rzeczownika[8].
Relacja
Test
Przykład
synonimia
Jeśli jest X-em, to jest też Y-em
Jeśli jest Y-em, to jest też X-em
{kot2; kot domowy1}
bliskoznaczność
X i Y mają ten sam hiperonim, zbiory ich hiponimów nie pokrywają się
X i Y nie są synonimami
Jeżeli jest X, to także jest Y [pomijając różnicę rejestrów stylistycznych]
Jeżeli jest Y, to także jest X [pomijając różnicę rejestrów stylistycznych]
{chłopiec1}, {gówniarz1}
hipo-/hiperonimia
Jeżeli ktoś/coś jest X-em, to musi być Y-em (X ⇒ Y)
Jeżeli ktoś/coś jest Y-em, to niekoniecznie jest X-em
Jeżeli ktoś/coś nie jest Y-em, to nie może być X-em
{buk1} jest rodzajem {drzewo liściaste1}
mero-/holonimia
X jest częścią Y
Y nie jest częścią X
Y jest całością, której częścią jest X
{poduszka powietrzna1} jest częścią {samochód1}
Polskie synsety są ponadto łączone z synsetami Princeton WordNet za pomocą zestawu relacji międzyjęzykowych, wskazujących na różnego rodzaju powiązania semantyczne (np. synonimię, synonimię częściową, hiponimię). Jak dotąd zrzutowanych zostało 91 578 synsetów (tj. ok. 2/3 synsetów Słowosieci, w tym głównie rzeczowniki)[9]. Rzutowanie umożliwia zastosowanie Słowosieci w tłumaczeniu maszynowym, np. jest ona wykorzystywana w tłumaczeniach oferowanych przez Tłumacz Google[10]. Słowosieć łączona jest także ze słownikiem walencyjnym predykatów języka polskiego Walenty[11].
↑W odróżnieniu od wielu wordnetów, będących bezpośrednim tłumaczeniem struktury i zawartości pierwotnego WordNetu dla języka angielskiego (Princeton WordNet).
↑Rabiega-Wiśniewska J., Maziarz M., Piasecki M., Szpakowicz S., Opis relacji leksykalno-semantycznych w Słowosieci 2.0. Rzeczownik, s. 4.
↑Hojka B., Maziarz M., Piasecki M., Rabiega-Wiśniewska J., Szpakowicz S., Opis relacji leksykalno-semantycznych w Słowosieci 2.0. Czasownik, s. 15–16.
↑Maziarz M., Szpakowicz S., Piasecki M., Semantic Relations among Adjectives in Polish WordNet 2.0: A New Realtion Set, Discussion and Evaluation, Cognitive Studies / Études Cognitives, t. 12, s. 149–179, 2012.
↑ abMaziarz M., Piasecki M., Szpakowicz S., Rabiega-Wiśniewska J., Semantic Relations Among Nouns in Polish Wordnet Grounded in Lexicographic and Semantic Tradition, Cognitive Studies/Études Cognitives, t, 11, s. 161–181, 2011.