CLARIN-PL

CLARIN-PL
Common Language Resources and Technology Infrastructure
Wspólne Zasoby Językowe i Infrastruktura Technologiczna
Logo
Państwo

 Polska

Data utworzenia

2013

Siedziba

Katedra Sztucznej Inteligencji, Politechnika Wrocławska

Koordynator

dr hab. inż. Maciej Piasecki[1]

Adres
Politechnika Wrocławska, bud. D-21
Wybrzeże Wyspiańskiego 27
50-370 Wrocław[2]
Położenie na mapie Wrocławia
Mapa konturowa Wrocławia, blisko centrum na prawo znajduje się punkt z opisem „CLARIN-PL”
Położenie na mapie Polski
Mapa konturowa Polski, blisko centrum po lewej na dole znajduje się punkt z opisem „CLARIN-PL”
Położenie na mapie województwa dolnośląskiego
Mapa konturowa województwa dolnośląskiego, po prawej znajduje się punkt z opisem „CLARIN-PL”
Ziemia51°06′35,0″N 17°03′27,7″E/51,109722 17,057694
Strona internetowa

CLARIN-PL – powstałe w 2013 roku polskie konsorcjum naukowe należące do europejskiej infrastruktury badawczej CLARIN (ang. Common Language Resources and Technology Infrastructure, pol. Wspólne Zasoby Językowe i Infrastruktura Technologiczna)[1]. Jego celem jest tworzenie i udostępnianie cyfrowych zbiorów danych językowych i narzędzi cyfrowych do celów badawczych oraz dla potrzeb rozwoju przetwarzania języka naturalnego przez sztuczną inteligencję[3].

Instytucją koordynującą CLARIN-PL jest Politechnika Wrocławska. Do konsorcjum należą także Instytut Podstaw Informatyki PAN, Instytut Slawistyki PAN, Polsko-Japońska Akademia Technik Komputerowych, Uniwersytet Łódzki oraz Uniwersytet Wrocławski[4]. Podstawowym węzłem sieci CLARIN w Polsce (centrum typu B i K) jest finansowane przez Ministerstwo Edukacji i Nauki Centrum Technologii Językowych w Katedrze Sztucznej Inteligencji Wydziału Informatyki i Komunikacji Politechniki Wrocławskiej, w którym mieści się infrastruktura techniczna CLARIN-PL[3][5].

Zasoby

Do zasobów opracowanych w ramach CLARIN-PL należą m.in.[6]:

Korpus Dyskursu Parlamentarnego

Korpus Dyskursu Parlamentarnego to zbiór anotowanych lingwistycznie tekstów z posiedzeń plenarnych Sejmu i Senatu RP, interpelacji i zapytań poselskich oraz posiedzeń komisji od roku 1919 do chwili obecnej. Wszystkie anotacje lingwistyczne są dostępne na licencji CC-BY.

Korpus Języka Polskiego Politechniki Wrocławskiej

Korpus Języka Polskiego Politechniki Wrocławskiej (KPWr) to zbiór dokumentów tekstowych dostępnych na licencji Creative Commons (CC-BY-SA), opisanych różnymi typami informacji lingwistycznych. Próbki do korpusu pobrano z takich źródeł jak: Wikipedia, Wikinews, portale informacyjne z treściami na licencji Creative Commons, dzieła literackie z domeny publicznej lub udostępnione na otwartej licencji itd., a więc takich, które zapewniają legalne i darmowe wykorzystanie korpusu.

Korpusy równoległe

W ramach CLARIN-PL powstaje korpus równoległy tłumaczeń polsko-angielskich i angielsko-polskich Paralela, a także dwujęzyczne korpusy równoległe tekstów współczesnych: polsko-bułgarski, polsko-litewski, polsko-ukraiński, polsko-rosyjski.

Platforma Leksykalna

Platforma Leksykalna to otwarty system sieciowy, służący do przeszukiwania źródeł leksykograficznych, umożliwiający umożliwia dostęp do danych leksykograficznych o poszczególnych leksemach.

Słowosieć

 Osobny artykuł: Słowosieć.

Słowosieć to baza danych leksykalno-semantycznych języka polskiego typu wordnet. Zawiera zestawy synonimicznych jednostek leksykalnych (synsety) opisanych krótkimi definicjami. Służy jako słownik, w którym pojęcia (synsety) i poszczególne znaczenia wyrazów (jednostki leksykalne) zdefiniowane są poprzez miejsce w sieci wzajemnych relacji, odzwierciedlających system leksykalny polszczyzny. Słowosieć jest także wykorzystywana jako jeden z podstawowych zasobów do budowy programów przetwarzających język polski[7].

SpokesPL

SpokesPL to korpus współczesnej polszczyzny mówionej i związana z nim wyszukiwarka, umożliwiająca odsłuchiwanie fragmentów nagrań związanych z wyszukiwanymi lematami i związkami wyrazowymi.

Walenty

 Osobny artykuł: Walenty (słownik).

Walenty to słownik walencyjny predykatów języka polskiego. Słownik zawiera zależności walencyjne predykatów, przede wszystkim czasowników, występujących w języku polskim, czyli ograniczeń sposobu, w jaki poszczególne wyrazy wiążą się z wyrazami podrzędnymi[8].

Przypisy

  1. a b Participating Consortia. clarin.eu. [dostęp 2023-01-13]. (ang.).
  2. About. clarin.biz. [dostęp 2023-01-13]. (pol.).
  3. a b O nas. clarin-pl.eu. [dostęp 2023-01-13]. (pol.).
  4. Joanna Dzikowska: Nowa pracownia na Uniwersytecie Wrocławskim. Cyfrowi humaniści czekają na wasze domowe skarby. Gazeta Wyborcza, 2018-10-22. [dostęp 2023-01-16]. (pol.).
  5. Maksymilian Bielecki: Sztuczna inteligencja w wykrywaniu demencji (podcast). web.swps.pl, 2022-11-25. [dostęp 2023-01-13]. (pol.).
  6. Zasoby. clarin-pl.eu. [dostęp 2023-01-13]. (pol.).
  7. M. Piasecki, S. Szpakowicz, B. Broda, A Wordnet from the Ground Up, cejsh.icm.edu.pl, 2009 [dostęp 2023-01-25] [zarchiwizowane 2016-01-07].
  8. A. Przepiórkowski, E. Hajnicz, A. Andrzejczuk, A. Patejuk, M. Woliński: Walenty: gruntowny składniowo-semantyczny słownik walencyjny języka polskiego. cejsh.icm.edu.pl, 2017. [dostęp 2023-01-25].

Linki zewnętrzne