Albisteak-AN

UPV/EHUko HiTZ Zentroak euskararentzako hizkuntza eredurik handiena garatu du: Latxa

Por

31 enero, 2024

Hizkuntza-eredu handi bat, edo LLM ingelesez, adimen artifizialeko eredu bat da, giza hizkuntza ulertu eta sortzeko ikaskuntza automatikoko teknikak erabiltzen dituena, datu-multzo masiboetatik sortutako ezagutzan oinarrituta. Euskarak ere badu bere hizkuntza-eredu handia: Latxa. Meta-ren LLaMA ereduetan oinarrituta dago, eta 7-70 mila miloi parametro arteko ereduak biltzen ditu. Gaur egungo LLMek errendimendu harrigarria dute baliabide ugariko hizkuntzetan, adibidez ingelesarako ChatGPT edo Bard-ek dituztenak. Euskara eta baliabide urriko beste hizkuntzen kasuan, ordea, haien errendimendua ausazko asmatzetik hurbil dago. Honek baliabide ugariko eta urriko hizkuntzen arteko arrakala teknologikoa handitu egiten du, tresna digitalei dagokionez behinik behin. UPV/EHUko Hizkuntza Teknologiako HiTZ Zentroak Latxa garatu du, muga horiek gainditzeko eta LLMetan oinarritutako euskarazko produktu, berrikuntza eta produktuen garapena sustatzeko. Lan hau Eusko Jaurlaritzak lagundu du (IKER-GAITU proiektuaren barruan).

Latxaren ereduak aldez aurretik trebatutako oinarrizko ereduak dira, erabiltzaileari zuzendutako jarraibide edo hobespenetan findu ez direnak. Eredu hauek ez dira, beraz, publiko orokorrak zuzenean erabiltzeko. Alabaina, eredu hauek funtsezkoak dira euskararako hizkuntza-teknologia darabilten tresna arrakastatsuak eraikitzeko. “Eredu ireki hauek kaleratzen ditugu teknikari adituek produktuak garatzeko erabil ditzaten edo eredua bera aplikazio jakinetara doitu dezaten. Dagoeneko erabiltzaileen jarraibideak segitzeko gai diren ereduak lantzen ari gara, baina oraindik ez dago garbi publiko orokorrak GPTrekin gazteleraz edo ingelesez lortzen den adinako kalitatea duten ereduak eraiki daitezkeenik euskararentzat. Hori da, hain zuzen, gure ikerketen jomuga eta hortaz oraingo hau lehen bertsio bat bezala hartu daiteke, ikerketaren ondorioz eredu hobeak sortu nahi ditugu eta”, azaldu du Eneko Agirrek, HiTZ Zentroko zuzendariak. Ereduak garatzeko GPU motako zerbitzariak erabili dituzte, eta azken ereduak CINECAko Leonardo superordenagailuan entrenatu dituzte EuroHPC Joint Undertaking barruan (EHPC-EXT-2023E01-013 proiektua).

Eredua eraikitzeko testu multzoari dagokionez, EusCrawl erabili dute, euskarazko testuez osatutako testu multzoa, 1,72 milloi dokumentu eta 288 miloi hitz dituena. EusCrawl kalitatezko edukia duten 33 webguneetatik erauzi zen, internetetik corpusak osatzeko beste teknikak baino kalitate hobea eskainiaz.

Ereduen kalitatea ebaluatzeko, hainbat gaitasun linguistikotan ereduek duten gaitasuna neurtzen dute, hala nola, irakurketen ulermena, sen ona eta arrazoibidea, sentimenduen analisia, jarreren hautematea, gaien sailkapena, korreferentzia, inferentzia eta hitzen adierak.

Irudiak eredu ezberdinen errendimendua erakusten dute atazaz ataza, eta emaitzen batez bestekoa eskuineko aldean. “Ingelesezko LLaMA ereduak eta orain arteko euskara biltzen duten hizkuntza eredu onenetariko batzuk probatu ditugu, gure ereduekin buruz buruko alderaketa ahalbidetzen dutenak (hiru barra moreak). Bertan argi ikusten da gure hiru ereduak direla hoberenak, eta tamaina handitu ahala emaitzak ere hobetzen doazela”, azaldu du Agirrek.

Latxa ereduek LLaMA-2 License delakoa heredatzen dute, ikerkuntzarako eta jarduera komertziala baimentzen duena. “Nahiz eta ingelesezko ereduetan egon oinarrituta, gure ereduak euskaraz erabiltzeko pentsatu dira, eta hortaz, beste hizkuntzatan duten kalitatea ez dugu bermatzen”, esan du HiTZeko zuzendariak.

Ereduak HuggingFace daude eskuragarri.

L	M	X	J	V	S	D
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Un condenado por maltrato habitual ingresará en prisión tras negarse a…

Kaleko Afari Solidarioak denuncia que el Ayuntamiento de Donostia deja sin…

Dos años de cárcel por enaltecer el terrorismo y humillar…

Un informe policial avala el veto municipal a las cenas solidarias…

Detenido un hombre magrebí al ser descubierto escondido en un contenedor…

Eibar instala estaciones inteligentes para el préstamo gratuito de material deportivo

Maialen Chourraut y Pau Echaniz firman una destacada actuación en el…

El Torneo Donostia Hiria de pelota mano se adelanta para integrarse…

La Real Sociedad renueva a Gorka Carrera hasta 2031

Donostia ultima una Semana Grande con más de 400 propuestas, espacios…

ETS abrirá mañana el Jazzaldia con un concierto gratuito en la playa de…

Mañana arranca una campaña de bonos descuento en cultura para jóvenes…

¡Vuelve Arrasate Blues! Toda la programación de este año

Aranzadi localiza en Irulegi una inscripción cerámica que podría constituir el primer…

El vacuno de carne con Eusko Label se consolida en Euskadi…

Alerta sanitaria en Euskadi por presencia de listeria en quesos de…

Euskadi presenta en Barcelona el Instituto del Pintxo de San Sebastián…

Euskadi acogerá la mayor cita europea de tecnología alimentaria con más…

La sidra de Gipuzkoa conquista Frankfurt: el territorio inicia hoy su…

El Gobierno Vasco adquiere el 1 % de Enagás para afianzar…

El desempleo cae al 7,11 % en Euskadi tras crear 7800…

El paro repunta en Euskadi hasta el 6,9 % tras sumar…

ELA plantea una jornada de 32 horas semanales para los trabajadores…

ELA y LAB convocan hoy un paro en el comercio de…

UPV/EHUko HiTZ Zentroak euskararentzako hizkuntza eredurik handiena garatu du: Latxa

Uso de cookies

Barakaldoko Udalak abuztuaren 3an hasiko du San Vicenteko Splash Parkeko zoladura...

La Clásica San Sebastián provocará este sábado cortes y desvíos puntuales...