IxaKat programa informatikoa testuak automatikoki lantzeko hainbat tresna informatikoz osatutako multzo bat da, euskarazko testuak analizatzeko erabil daitekeena.
Ixa Taldeak sortu zuen 2014an eta software librea da.
IxaKaten osagaiak
IxaKat multzoko tresna nagusiek sekuentzian lan egiten dute. lehenengoak kategoria morfologikoak etiketatzen ditu, horiek erabilita bigarrenak dependentzia sintaktikoak etiketatzen ditu, horiek erabilita hirugarrenak rol semantikoak etiketatzen ditu eta gero azkenak korreferentziak.
Analizatzaile morfosintaktikoa eta kategoria-etiketatzailea
ixa-pipe-pos-eu: estaldura zabaleko analizatzaile morfosintaktiko eta etiketatzaile sendoa da, Eustagger euskararako lematizatzaile/etiketatzailea egokituz sortu izan zena. C++ programazio-lengoaian inplementatuta dago. Prozesamendu linguistikoko katearen lehenengo modulua da. Testu gordina hartzen du sarrera moduan, eta irteeran token bakoitzarentzat lema, kategoria eta informazio morfologikoa idazten ditu NAF formatuan dagoen dokumentu berri batean.[1]
- Lehenik analisi morfologikoa egiten da. Horretarako, segmentatzaileak hitz bakoitza lemetan eta morfemetan banatzen du eta osagai horien informazio morfologikoa ematen du EDBLko (Euskararen Datu Base Lexikala)[2] informazioa erabilita.
- Analizatzaile morfosintaktikoak aurreko fasean sortutako morfemetatik abiatuz hitz-formaren interpretazio posible bakoitzarentzako ezaugarri-egitura bat eskaintzen du. Hitzaren egitura deskribatzeko, testuingururik gabeko gramatika baliatzen da[3].
- Hitz Anitzeko Unitate Lexikalak (HAUL)[4] ere tratatzen dira morfosintaxiaren analisian. Hitz elkartuen, lokuzioen eta kolokazio murriztuen tratamendua egiten da eta, horretarako ere, EDBLko informazioa erabiltzen da. HAULak identifikatzeko HABIL tresna[5] baliatzen da eta entitateen izenak mugatzeko eta sailkatzeko, EIHERA.[6]
Dependentzia sintaktikoen etiketatzailea
ixa-pipe-dep-eu: euskarazko testuetan dependentzia sintaktikoak etiketatzen ditu.[7]
Rol semantikoen etiketatzailea
ixa-pipe-srl-eu: euskarazko testuetan rol semantikoak etiketatzen ditu.[8]
Korreferentzien etiketatzailea
ixa-pipe-coref-eu: euskarazko testuetan testuko korreferentziak ebazten ditu.[9]
IxaKat eta Ixa-pipes kateak
IXAKat katearekin lortzen den prozesamendu linguistikoa euskararako Ixa-pipes tresnekin ere osatu daiteke. Izan ere, biak IxaKat eta euskarazko Ix- pipes hizkuntzaren prozesamendurako hainbat tresna linguistikoekin osatutako kateak dira, eta badituzte euskararen prozesamendurako balio duten hainbat tresna. IxaKat eta IXA-pipes kateak modularrak direnez, eta biek NAF formatua erabiltzen dutenez sarrera/irteera formatu moduan, bi multzotako tresnak konbinatu daitezke prozesamendu-kate berean. IxaKat programarekin euskarazko testuak bakarrik landu daitezke, aldiz Ixa-pipes programarekin hainbat hizkuntza landu daitezke (euskara, herbeherera, ingelesa, frantzesa, galiziera, alemana, italiera). Euskarazko testuak prozesatzerakoan zehaztasun handixeago lortzen du IxaKatek.
Erreferentziak
Ikus gainera
Kanpo estekak