Jul 11, 2024
A Col·lectivaT, ens apassiona explorar noves idees, especialment quan es tracta de tecnologia lingüística. La intel·ligència artificial (IA) ofereix possibilitats infinites i, des dels nostres inicis, ens hem centrat en treballar perquè les noves tecnologies fomentin l’empoderament de persones marginades en lloc d’agreujar la seva situació. La nostra feina ha abastat diverses llengües, incloent el català, el tamazight, el judeocastellà, l’aranès i el gallec, i ha fet possible projectes pioners com Catotron, lectors de continguts automàtics i la difusió de missatges multilingües durant la pandèmia de la COVID-19. El viatge continua avançant, portant-nos cap a nous horitzons. Per això hem decidit obrir un espai per compartir la nostra visió, troballes i prototips de tecnologia lingüística, el Col·lectivaT Tech Lab.
Sota aquest nom, compartirem els nostres experiments i comentaris sobre els avenços més recents en l’àmbit de la tecnologia lingüística i també farem visible la tasca que desenvolupem amb les professionals i iniciatives amb qui treballem. Col·lectivaT Tech Lab representa el nostre costat experimental i la xarxa on estem connectades més enllà de la nostra base de clientes i col·laboradores.
Aquesta connexió amb la comunitat tecnològica, juntament amb la gran influència dels avenços en IA, ens ajuden a formular nous projectes i construir relacions fructíferes amb iniciatives, empreses, universitats i activistes lingüístiques d’arreu. Unes aliances que es basen en la visió compartida d’una tecnologia al servei de les persones, les comunitats, les llengües i cultures, i que floreixi lliurement en un món ràpidament digitalitzat.
Mentre preparem la nostra primera publicació sobre les promeses dels grans models lingüístics en l’educació, volem destacar què fa Col·lectivaT Tech i el nostre alineament amb les pràctiques ètiques en IA. Ens entusiasma el potencial de la IA per automatitzar tasques per al benestar, democratitzar l’accés a la informació i superar la bretxa digital de les comunitats marginades. Però, al mateix temps, som conscients dels paranys ètics que planteja i ens oposem a les pràctiques tancades que exploten el treball d’altres sense permís. Un dels perills de la IA és com segueix la tendència global de prioritzar certes llengües i deixar-ne moltes enrere. Aquesta disparitat digital pot reforçar encara més les jerarquies lingüístiques, marginant les comunitats lingüístiques ja vulnerabilitzades.
A Col·lectivaT, treballem amb diligència per superar aquesta bretxa promovent la digitalització i l’avanç tecnològic de totes les llengües, assegurant que cap llengua quedi enrere en l’era digital. El nostre compromís és evident en els nostres esforços per crear i donar suport a la tecnologia lingüística de codi obert. En aquesta publicació, destaquem alguns projectes que hem desenvolupat en aquesta línia, seleccionats del nostre portafolis.
Des de la creació de Col·lectivaT el 2017, hem vist les promeses de la IA i hem actuat per fer la tecnologia lingüística més inclusiva i justa, començant per la nostra llengua adoptada, el català. El 2018, vam crear el primer gran conjunt de dades de parla de múltiples persones per al català i després el vam ampliar per obtenir un total de 560 hores de dades. Ha estat un privilegi veure com el català ha avançat des de llavors en la iniciativa Common Voice, iniciada per Mozilla, gràcies a l’enorme participació d’una nació que posa la seva llengua en primer lloc.
Gràcies al treball acadèmic obert i al suport del Departament de Cultura de Catalunya, el 2019 vam poder crear el Catotron, la primera aplicació moderna de text a veu en català, que ha precedit altres alternatives comercials i de codi obert sorgides avui en dia. Una de les últimes iniciatives de Col·lectivaT Tech Lab és enVeu, el lector automàtic de continguts web que podeu veure a la part superior d’aquesta entrada de blog.
En el context de les llengües marginalitzades, l’acció de les iniciatives privades o de l’àmbit acadèmic és insuficient per construir una base tecnològica sòlida que permeti la seva plena incorporació al món digital. Per això, creiem que les iniciatives de codi obert i públiques són essencials per crear solucions sobiranes, com demostren projectes com Bhashini de l’Índia, Ilenia o AINA. No obstant això, és crucial que aquestes iniciatives evitin monopolitzar la narrativa i, en canvi, donin suport a un ecosistema divers d’investigadores, productores tecnològiques, grups comunitaris de base i activistes lingüístiques.
Podem dir amb certesa que el català s’ha assegurat un futur sòlid en termes de suport tecnològic gràcies als seus avenços significatius els últims anys. Però, què passa amb les llengües amb poca presència digital, sense estatus oficial o que estan en perill? Diversos estudis mostren que un gran percentatge de llengües no estan representades en línia, una qüestió que afecta la seva supervivència. No és només un problema de digitalització, sinó una continuació de segles de colonització i polítiques de centralització, com vam explicar al nostre article col·laboratiu amb la comunitat africana de PLN Masakhane, “Participatory Research for Low-resourced Machine Translation: A Case Study in African Languages”.
El 2020, vam assumir la difícil tasca de digitalitzar el judeocastellà, una llengua que connecta les terres des d’on hem migrat la major part de les membres de Col·lectivaT. El judeocastellà, també conegut com a ladí, és la llengua dels jueus sefardites expulsats de la península Ibèrica durant la Inquisició espanyola. Molts d’aquests jueus es van establir a l’Imperi Otomà i han aconseguit mantenir viva la seva cultura i llengua fins avui a la Turquia moderna.
En col·laboració amb investigadores i la comunitat sefardita d’Istanbul, vam crear i publicar diversos conjunts de dades en un portal dedicat. El més emocionant és que vam desenvolupar aplicació de traducció automàtica que tradueix entre el judeocastellà i el castellà, turc i anglès. En crear una aplicació de text a veu, també vam fer les traduccions audibles, permetent a les usuàries practicar la pronunciació. Seferad Translate s’ha utilitzat milers de vegades des del seu llançament, ajudant a preservar i revitalitzar aquesta llengua en perill.
El nostre projecte més recent i actualment actiu, Awal, té com a objectiu digitalitzar la llengua d’amazic, preservant-la i promovent-la en l’espai digital mitjançant el desenvolupament d’eines innovadores per facilitar-ne l’ús i la difusió. Aquest projecte implica la participació activa de la comunitat parlant de amazic tant a Catalunya com al Marroc, que contribueixen a crear una base de dades completa mitjançant traduccions i gravacions de veu. L’objectiu general és abordar la bretxa digital proporcionant suport lingüístic i tècnic, assegurant així la presència de l’amazic en el món digital. En el portal web del projecte, llançat recentment, ja hem recollit més de 5.500 frases i 2 hores de dades de veu que alimentaran la creació d’eines de traducció automàtica i reconeixement de veu de codi obert al servei de la comunitat parlant de l’amazic.
Estem orgulloses d’haver estat pioneres en la recopilació de dades lingüístiques per a l’aranès. El Projecte Araina, llançat en col·laboració amb institucions locals, té com a objectiu preservar i revitalitzar la llengua aranesa, una varietat de l’occità parlada a la Val d’Aran a Catalunya. El projecte no només ha estat un pas important en la digitalització de la llengua, sinó que també ha augmentat la consciència a la comunitat sobre la tecnologia lingüística mitjançant la celebració d’un Marató de Veu a Vielha.
IA generativa ha estat evolucionant constantment en els darrers anys i han redefinit recentment el panorama de la IA. Han aportat avenços significatius en àrees com l’automatització de processos laborals, la millora de l’accés a la informació i l’augment de la creativitat. Tot i que planen algunes preocupacions, creiem que, com qualsevol tecnologia, IA generativa pot servir per reduir jerarquies i centralitzar el poder o democratitzar l’accés al coneixement i les eines. La nostra postura és fermament a favor d’aquesta última, amb la defensa d’eines i metodologies obertes, que malauradament, la majoria de les grans empreses tecnològiques no segueixen. OpenAI, creadors de ChatGPT, per exemple, no especifiquen com obtenen les seves dades, cosa que podria indicar l’ús de treball creatiu protegit per drets d’autor i dades d’usuàries. Les alternatives de codi obert, per les quals optem, poden obrir camí a solucions més responsables i orientades a la privacitat.
Els grans models de llenguatge (GML), l’exemple més destacat de la IA generativa actual, tenen un potencial significatiu per a usos socials en diversos àmbits com la salut, l’assistència jurídica i la resposta a desastres. Per exemple, els GML poden proporcionar informació vital i suport en entorns mèdics, oferir orientació legal a aquelles persones que no es poden permetre un assessorament, i ajudar a coordinar respostes durant emergències, entenent i processant grans quantitats de dades ràpidament.
Una de les àrees més prometedores per als GML és l’educació. Actualment, ja estan ajudant les persones a practicar i aprendre noves llengües proporcionant retorn interactiu en temps real i pràctica de conversa. Els GML tenen el potencial de guiar infants així com adults en els seus viatges d’aprenentatge, fent l’educació més divertida i atractiva mitjançant la narració interactiva, els qüestionaris personalitzats i els jocs educatius. Aquests models poden adaptar el contingut educatiu als estils i necessitats d’aprenentatge individuals, facilitant la comprensió de conceptes complexos i la retenció de la informació.
Tenim moltes ganes de compartir aviat els nostres experiments sobre l’ús de IA generativa. Fins aleshores, no dubteu a escriure’ns si esteu interessades a col·laborar. Podeu contactar-nos a info@collectivat.cat. Tenim moltes ganes de saber de vosaltres!