HiTZ zentroaren Latxari buruzko lanak nazioarteko saria jaso du, euskarak ikerkuntzan duen pisua handituz

0

Association for Computational Linguistics hizkuntzaren teknologiari buruzko elkarte zientifiko nagusia da. Bere kongresua gai honetan ari diren ikertzaileen publikazio zientifikoen gune nagusia eta prestigiosoena da. Aurtengo edizioan Euskal Herriko Unibertsitateko (UPV/EHU) HiTZ Hizkuntza Teknologiako Zentroak eraiki duen Latxa hizkuntza ereduari buruzko artikulua saritu du. Kongresu berean egindako aurkezpen batean euskarak ikerkuntzan duen pisua aipatu da, 1.200 artikulu baina gehiagotan aipatzen baitira bere inguruko esperimentuak.

Association for Computational Linguistics delakoak Bangkok-en antolatu duen kongresuak 4.400 artikulutik gora bidali izan dira, eta 5.000 errebisoretik gorako batzordeak 940 besterik ez ditu onartu.  Publikazio gune prestigiosoena izanda kalitate hobereneko artikuluak besterik ez ohi dira publikatu. Autoreen artean unibertsitate, ikerketa-zentro eta enpresa nagusietako ikerlariak izaten dira, hala nola Microsoft, Meta eta Apple, besteak beste. Onartutako ikerkuntza lanetatik 14 artikulu aukeratu dituzte sarietarako, tartean Latxa hizkuntza ereduari buruzkoa. Sari banaketa kongresura hurbildu diren 4.000 ikerlarien aurrean egin zen.

Hizkuntza eredu handi bat, edo LLM ingelesez, adimen artifizialeko eredu bat da, giza hizkuntza ulertu eta sortzeko ikaskuntza automatikoko teknikak erabiltzen dituena, datu multzo masiboetatik sortutako ezagutzan oinarrituta. UPV/EHUko HiTZ zentroak garatutako Latxa euskararentzako hizkuntza ereduen familia bat da eta lizentzia libreko testuen corpus handienarekin eta hizkuntza gaitasunari, irakurmenari, kultura orokorrari eta azterketa profesionalei buruzko zenbait proba bankurekin banatzen da. Latxak duela bi urte abiarazitako jatorrizko ChatGPT bertsioa (orain GPT 3.5 gisa ezaguna) gainditzen du, eta baliabide digital urriko hizkuntza baten eredu ireki batentzat lehenengo aldiz, GPT-4 gainditzen du hizkuntza gaitasunean. Latxa deskribatzen duen artikulu zientifikoan corpusak nola bildu diren, eredua nola entrenatu den eta ebaluaziorako datu-multzoen eraikuntza deskribatzen dira.

Julen Etxaniz egile nagusietako bat da, Naiara Pérezekin eta Oscar Sainzekin batera, eta Bangkok-en izan da lana aurkezten eta saria jasotzen. Julen Etxanizek ondokoa aipatu du: “Saria ematean azpimarratu izan da Latxa ereduetatik haratago doala, baliabide urriko beste hizkuntzatara hedatu daitekeen metodologia eta ingurune esperimentala planteatzen baititu, zientzia irekiaren ildoa jarraituz”. Oscar Sainzek zera azpimarratu du: “Sarituen artean unibertsitate eta ikerkuntza-zentro entsutetzuenak zeuden, eta bertan gure unibertsitatea aipatu izanak zirrara berezia ematen du”. Naiara Pérezek hau gaineratu du: “Interneten dauden testuen arabera, euskara munduko hizkuntzen 50. postuan dago. Euskarari aplikatutako teknikak kopuru antzekoa duen beste hizkuntza askori ere aplika dakizkieke, eta Latxarekin batera eraiki dugun azpiegiturak aukera ematen die ikertzaileei teknika hobeagoetan ikertzeko, hizkuntza guzti horien onurarako”.

Ikerketarako datu eta baliabideak euskaraz egotearen garrantzia

Kongresuan bertan aipatu izan da hizkuntza guztiak ez dutela arreta bera jasotzen ikerlarien aldetik. Jakina da hizkuntza nagusienetan egiten direla esperimentu gehienak, baina aldi berean beste hizkuntza batzuek arreta gutxiago jasotzen dute, batez ere hiztun kopurua edo hiztunen aberastasuna txikia direnean. Honek hizkuntza horietarako merkaturatzen den teknologian eduki dezakeen eragin negatiboa azpimarratu da Cohere enpresak egin duen hitzaldian. Salbuespenak egon badaude, eta horien artean euskara aipatu da. Nahiz eta ingelesa izan artikulu zientifikoetako esperimentuetan gehien erabiltzen dena, hizlari gutxiko hizkuntza batzuk atentzioa deitu dute, tartean euskara, 1.200 artikulu baina gehiagok erabiltzen baitute beraien esperimentuetan. UPV/EHUko HiTZ zentroko zuzendari den Eneko Agirre artikuluaren autoreetako bat ere bada, eta erabilera horren garrantzia azpimarratu du: “Latxaren inguruan banatu diren corpus eta ebaluaziorako datu irekiak bultzada berria emango diote euskarak eta euskarearen inguruan egindako ikerketak duen prestigio eta zabalkundeari. Eta horri esker kanpoko eta bertako ikertzaileek euskaraz lortzen dituzten emaitzak hobetzen joatea espero dugu”.

Informazio osagarria

Artikulua, ereduak, corpusak eta proba bankuak hemen eskura daitezke: https://github.com/hitz-zentroa/latxa. Latxa ereduak Llama-2 License izenekoa hartzen dute oinordetzan. Eredu horrek ikerketa eta merkataritza jarduera ahalbidetzen ditu.

Latxa Eusko Jaurlaritzak finantzatutako IKER-GAITU proiektuaren esparruan garatu da. Eraldaketa Digitalerako eta Funtzio Publikorako Ministerioak eta Suspertze, Eraldatze eta Erresilientzia Planak, Europar Batasuneko NextGenerationEUk ere finantzatu du, ILENIA proiektuarekin lankidetzan, 2022/TL22/00215335 erreferentzia duena. HiTZek errendimendu handiko konputazio azpiegitura (HPC) propioa erabili du, eta azken ereduak CINECAren Leonardo superordenagailuan entrenatu dira, EuroHPC Joint Undertaking barruan (EHPC-EXT-2023E01-013 proiektua).