HiTZ zentroa edo Hizkuntza Teknologiako Euskal Zentroa EHUko ikerketa-zentroa da, Hizkuntza Teknologietan aritzen dena. Erreferentziazko zentroa da Hizkuntza Teknologietan,[1][2][3][4] eta arlo horretako ikerketa, prestakuntza, transferentzia teknologikoa eta berrikuntza sustatzea du helburu. Donostiako Informatika Fakultatean du egoitza nagusia, baina beste zentroetan ere ari da, Bilboko Ingeniaritza Eskolan, besteak beste.
Zentroaren zuzendaria den Eneko Agirre ikerlariak hirutan irabazi du ikerketarako Google saria.[5][2] 2020ko maiatzean Amerikako Estatu Batuetako gobernuak bultzatutako sari bat jaso zuen, COVID-19 gaixotasunaren inguruan antolatutako Kaggle-Covid-19 txapelketan.[6][7]2021ko Espainiako Informatika Saria eman zion arloko SCIE elkarteak (Sociedad Científica Informática de España).[8][9]
Euskal Herriko Unibertsitateko Ixa eta AhoLab ikerketa-taldeek osatzen dute. Ixa eta Aholab ikerketa-taldeak sortu zirenetik —1988an eta 1998an, hurrenez hurren— Hizkuntzaren Teknologien arloko traktore nagusiak izan dira Euskal Herrian. Ixa taldearen lanak idatzizko edukien tratamendua du helburu; AhoLabenak, ostera, ahozko edukiena. Bi taldeak lankidetzan ari dira 2002az geroztik.
Google Faculty Research Award saria hirutan lortu duen ikertzaile bakanetakoa da Eneko Agirre. 2020 urteko sariko 62.000 dolarrek ‘Conversational Question Answering agents that learn after deployment’ izeneko proiektua finantzatzeko erabili ziren gero, hots, erabiltzaileekin elkarrizketa-sistemak garatzeko, beti ere Chatbot-en eta adimen artifizialaren arloetan.[10][11]
Agirre-rekin batera zentroko beste 6 kide hauek: Aitor Soroa eta Gorka Azkune irakasleak, Arantxa Otegi ikertzailea, Jon Ander Campos doktoretza ikaslea, baita Aitor Agirre eta Eduardo Vallejo ikasleak ere.
Proiektua batez ere ingelesezko elkarrizketetan zentratzen bazen ere (sukaldaritzari eta elikadurari buruzko galderak), euskarazko elkarrizketekin ere lan egin zuten. Aurreko urtean Ixa taldeak euskarazko elkarrizketak biltzeko boluntarioak erakartzeko kanpaina jarri zuen martxan. Kanpainak oso harrera ona izan zuen, eta pertsonei buruzko euskarazko elkarrizketak jaso ziren, Wikipedian dagoen informazioan oinarrituta.[12]
Hizkuntza Teknologia lagun Covid-19 birusaren kontrako borrokan
CORD-19 delako txapelketa (COVID-19 Open Research Dataset Challenge) hainbat erakundek antolatu zuten 2020ko udaberrian, COVID-19 pandemiaren hasieran, tartean ziren AEBetakoEtxe Zuriko Office of Science and Technology Policy, Allen Institute for AI, Chan Zuckerberg initiative, Georgetown University, Microsoft Research, eta National Institutes of Health.[13] Antolatzaileek COVID-19, SARS-CoV-2 eta beste koronabirus batzuei buruzko 50.000 artikulu zientifikotik gora jarri zituzten eskuragarri munduko ikerketa-komunitatearentzat. Horrekin batera, adimen artifizialeko ikertzaileei ekintzarako deia egin zien hizkuntzaren prozesamenduan orduan egin berri ziren aurrerapenak aplika zitzaten, COVID-19 gaixotasunaren aurkako borrokan ari ziren zientzialariei laguntzeko literatura zientifiko horretan lagungarri zitzaien informazioa ahalik eta errazen bilatzen.
Txapelketaren lehen fasean 10 sari banatu zituzten,[6] eta haietako bat irabazi zuen HiTZ zentroko Ixa taldean garatutako programak. Sistemaren garapenean Arantxa Otegi eta Jon Ander Campos ikertzaileek eta Eneko Agirre eta Aitor Soroa irakasleek hartu zuten parte.
Garatutako programak COVID-19 gaixotasuna eta SARS-CoV-2 birusaren inguruan adituek zituzten lehentasunezko galderen erantzunak bilatzen zituen aipatutako artikulu zientifiko guztiak aztertuta. Programa hura erabilgarria zen, besteak beste, koronabirusaren historiaren, birusaren kutsatze eta diagnostikoaren, gizakien eta animalien arteko ukipenean hartu beharreko prebentzio-neurrien eta aurretik egindako azterketa epidemiologikoetako ikasbideen inguruko galderen erantzunak aurkitzeko.[14] Estatu Batuetako aditu talde batek ebaluatu zuen programa eta “What do we know about diagnostics and surveillance?” (Zer dakigu diagnostiko eta zaintzari buruz?) gaiaren inguruko galdera-sortari hoberen erantzun zion sistema bezala aukeratu zuten HiTZ zentrokoa.
2020ko maiatzen Koronabirus pandemiaren hasieran Amerikako Estatu Batetako Gobernuak sari bat Ixa ikerketa-taldeak adimen artifiziala aplikatu du COVID-19ren kontra [15][16]
Paradigma neuronalaren ekarriarekin 2017z geroztik izugarrizko hobekuntza nabaritu zen hizkuntza nagusienen arteko itzultzaile automatiko estandarretan eta horrela zenbait ingurunetan giza-itzulpenen kalitatearen maila lortu zuten lehenengoz. Geroxeago, eta arin, HiTZ zentroko ikerlariak euskal munduko ikerkuntza komunitatearekin batera gai izan ziren euskaratik eta euskararako itzultzaile neuronalak mundu mailako artearen egoeraren pare jartzeko. 2015ean hasi zen euskararako itzulpen neuronala aztertzen. Ordurako Deepl itzultzaileak kalitatezko emaitzak ematen zituen 10 hizkuntzatan baina euskara ez zegoen horien artean. Bi urte geroago Deepl-en lehenengo emaitza bikainak lortuta, 2017an lehen demoa publikoki eskura zegoen. 2017an bertan, hainbat agenteren artean (HiTZ zentrokoIxa Taldea, Elhuyar, Vicomtech, Ametzagaña, Mondragon Lingua...), MODELA izeneko proiektua abiatu zuten.[17][18][19] Urtebeteko epean, 2018an, MODELA itzultzailea plazaratu zuten, Interneten publiko orokorrerako euskarazko itzulpen neuronala eskaintzen zuen lehen zerbitzua. Abiada bizian mugitzen zen arlo honetan, geroago gutxienez beste hiru itzultzaile neuronal gehiago plazaratu ziren: Eusko Jaurlaritzaren Itzultzaile neuronala, batua.eus eta Itzultzailea.eus. Translate Google-k geroago euskarazkoan ere eredu neuronalera pasa zen.
Itzulpen automatiko gainbegiratu gabea izeneko teknika berria ere sortu eta sakon landu da zentroan. Gaur egun dauden sistemek datu asko behar dute (gainbegiratze sakona), corpus paralelo gisa normalean milioika perpaus behar izaten dituzte. Baina harrigarria da, baldintza hori ez du behar gizakiak hizkuntza eskuratzeko. Eta gainera arazo praktiko garrantzitsu bat planteatzen du euskara bezalako baliabide gutxiko hizkuntzekin itzulpenak egiteko. HiTZ zentrokoMikel Artetxeren tesiaren helburua datu paraleloen mendekotasun hori guztiz ezabatzea izan zen, corpus elebakarra baino beharko ez zuten “gainbegiratu gabeko itzulpen automatiko”ko sistemak eratzeko.[20] Horretarako, lehenengo urrats batean bi hizkuntzatarako sortutako hitz-bektoreak (word embedding-ak) lerrokatzen zituen, beren arteko egitura-antzekotasunean oinarrituta. Gero, bigarren urrats batean, lerrokatze horren emaitzak erabiltzen zituen itzulpen-sistema neuronal bat edo itzulpen-sistema estatistiko bat hasieratzeko, azken urratsean back-translationaren bidez hobetzen joango zena.[21][22][23]
2021: IkerGazte biltzarrean hitzaldi gonbidatua izan zen Arantza Diaz de Ilarraza: "Hizkuntza-teknologiaren bilakaera. Ixa Taldearen esperientzia. Erabili zientzia gizartearen alde." [29][30][31]
2021: Ikertzaile gazteentzako Espainiako Informatika Saria jaso zuen Mikel Artetxe ixakideak, arloko SCIE elkarteak ematen duena (Sociedad Científica Informática de España). Epaimahaiak saria eman zion nazioartekoan duen presentzia handiagatik, hizkuntzaren prozesamenduaren arloko enpresa garrantzitsuenetan egindako egonaldiengatik eta ospe handiko biltzarretan egindako ekarpenengatik.[33]
2021: Eneko Agirre ACL Fellow 2021 izendatu zuten. alor hauetan egindako ekarpenengatik: Hitzen adiera-desanbiguazioan, testuen arteko antzekotasun semantikoa, itzulpen automatiko gainbegiratu gabea, euskarazko baliabideak eta ACLri egindako zerbitzuak. 2021ko sarituak hauek izan ziren: Joakim Nivre, Qun Liu, Luke Zettlemoyer, Anette Frank, Joyce Chai, Eneko Agirre, Chengqing Zong, eta Amanda Stent.
2017, 2019 eta 2020: Eneko Agirre taldekide eta egun HiTZ zentroaren zuzendariak hiru aldiz jarraian irabazi zuen Google-ren sari bat. Google Faculty Research Award saria hirutan lortu duen ikertzaile bakanetakoa da bera. Proiektua batez ere ingelesezko elkarrizketetan zentratzen bada ere (sukaldaritzari eta elikadurari buruzko galderak), euskarazko elkarrizketekin ere lan egin dute. Horretarako, iaz Ixa Taldeak euskarazko elkarrizketak biltzeko boluntarioak erakartzeko kanpaina jarri zuen martxan. Kanpainak oso harrera ona izan zuen, eta pertsonei buruzko euskarazko elkarrizketak jaso ziren, Wikipedian dagoen informazioan oinarrituta.[38][39][40][41]
2009tik hona, nazioarteko kongresu zientifikoetan artikulurik onenari egindako 10 aipamen; horien artean, honako hauek: Europako Itzulpen Automatikoaren Elkartearen kongresuan (EAMT, 2009)[42], testu klinikoen prozesamenduaren alorrean 2017ko 3 artikulurik onenetako bat[43] eta Txiotesia lehiaketako saria (2014).[44]
2017: Bagerak bere 25. urteurrenean Ixa Taldeari errekonozimendu saria[45]
2011: Koldo Mitxelena Saria eskuratu zuen tesi baten zuzendari (Maite Oronoz, Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko baliabideen garapena: datak, postposizio-lokuzioak eta komunztadura).[49][50]