Dec 6, 2022
Ara com ara no és possible que les màquines parlin o entenguin aranès. Perquè això sigui possible es necessita una base de dades amb centenars de gravacions de veus en aquesta varietat de la llengua occitana. Per posar-hi remei, des de Col·lectivaT hem posat en marxa el Projecte Araina: votzes en aranés per promoure la creació del primer corpus de veu en aranès a partir de la participació col·lectiva.
L’objectiu del Projecte Araina és crear un corpus de veu en aranès, imprescindible per desenvolupar tecnologies de la parla
Per començar a recollir hores de veu en aranès, hem organitzat una marató de veus on s’enregistrarà la veu de persones de parla en aranès de diverses edats, registres i parlars. L’esdeveniment se celebrarà el dissabte 17 de desembre de 10 a 14h a Seu de Conselh Generau d’Aran (Passeg dera Libertat, 16) a Vielha i reunirà les primeres persones voluntàries que estiguin disposades a donar la seva veu. També hi haurà l’opció de participar-hi de forma virtual durant tot el cap de setmana.
Inscriu-te a la marató de veu a través de projecte-araina.org
Les persones voluntàries hauran de llegir diversos fragments de text projectats a la seva pantalla mentre es graven. Els textos introduïts per fer l’exercici són de les obres literàries clàssiques traduïdes a l’aranès per Antòni Nogués. Tot aquest procés es realitza a través de la plataforma oberta Common Voice tal com s’està fent amb el Projecte Aina, que ja porta més de 2.500 hores de veus recollides en català.
El mateix 17 de desembre tindrà lloc una roda de premsa per donar a conèixer el Projecte Araina i el seu camp de treball amb les persones responsables del projecte. L’esdeveniment serà a les 11:30h a Vielha (espai per confirmar).
Common Voice és una plataforma creada per la Fundació Mozilla per crear conjunts de dades de parla impulsades per les veus de col·laboradores voluntàries d’arreu del món. Les dades de veu recopilades es publiquen obertament perquè les persones que vulguin crear aplicacions de veu puguin entrenar models d’aprenentatge automàtic. Actualment, aquesta plataforma admet la recollida de dades de veu en una llista creixent de 104 idiomes.
L’aranès ha estat una de les últimes llengües integrades gràcies a la col·laboració de nombroses entitats i investigadores. La interfície de la plataforma va ser localitzada en aranès per Jordi Suïls i Helena Torres, col·laboradores del Projecte Araina. Les frases que seran llegides i enregistrades virtual i presencialment durant la Marató de veus van ser seleccionades d’un corpus elaborat per Alp Öktem, lingüista computacional de Col·lectivaT, a partir dels textos traduïts aportats per Antòni Nogués. I finalment, hem comptat amb la col·laboració de Francis Tyers de Mozilla durant la integració de l’aranès a la plataforma.
En el marc del Projecte Araina estem posant en marxa el primer gran corpus de text en aranès format per 3,6 milions de paraules procedents de textos literaris, material d’aprenentatge de llengües i text administratiu cedit pel Conselh Generau d’Aran.
Aquest corpus de text permetrà entrenar models de llenguatge, que és un component necessari per construir tecnologies com el reconeixement de veu i el reconeixement d’escriptura entre altres.
Els models de llenguatge basats en xarxes neuronals estan revolucionant actualment el panorama de la intel·ligència artificial. Poden capturar el coneixement del mar de dades de text disponibles a través de la web i posar-los en ús mitjançant sistemes de preguntes i respostes, escriptura assistida, traducció automàtica, generació d’imatges i vídeos. Si bé els models llançats i compartits per les empreses tecnològiques se centren principalment en l’anglès i altres idiomes majoritaris, el corpus que impulsem permetrà entrenar o afinar aquests models per fer-los servir amb una llengua minoritzada com l’aranès.
El corpus de text ja és accessible a la pàgina huggingface de Col·lectivaT.