Oct 15, 2024
En el nostre últim article, vam introduir el Col·lectivaT Tech Lab, una iniciativa dissenyada per a compartir els nostres coneixements, prototips i visió sobre la tecnologia del llenguatge amb la comunitat que treballa i s’interessa per aquest àmbit. Avui, estem emocionades de continuar amb aquest viatge, centrant-nos en els Grans Models de Llenguatge (LLMs) i el seu potencial transformador en camps com l’educació i la preservació de llengües. En aquesta publicació us presentem la nostre demo de Bo, el gos virtual apassionat pel programari de codi obert, que hem estat desenvolupant per demostrar les capacitats conversacionals dels LLMs.
Abans de res, volem introduir el concepte dels LLMs, un dels avenços més recents en intel·ligència artificial, especialment dins l’àmbit del processament del llenguatge natural (NLP). Aquests models representen l’evolució en la modelització del llenguatge, dissenyats per captar les relacions contextuals entre les paraules. Això permet als LLMs generar respostes coherents i sensibles al context, anant més enllà del simple reconeixement de patrons per dur a terme tasques complexes com la conversa, la traducció i la creació de contingut amb una fluïdesa i adaptabilitat remarcables.
Des de la traducció de llengües fins la creació de contingut, els LLMs s’han convertit ràpidament en una eina poderosa que automatitza processos i tasques complexes en entorns professionals, millorant l’eficiència en diversos sectors com l’atenció al client, el màrqueting o la anàlisi de dades. Els avenços recents han portat aquestes capacitats encara més lluny, permetent que aquests models gestionin converses més matisades i complexes, així com processar i generar àudio, imatges i vídeo.
A Col·lectivaT, estem especialment interessades en com es poden aprofitar les tecnologies del llenguatge per a la transformació social. Amb aquesta premissa, ens preguntem si els LLMs poden adaptar-se per servir llengües amb menys recursos, que sovint manquen de representació digital suficient? Podrien ajudar a preservar llengües minoritzades proporcionant eines d’aprenentatge i comunicació més accessibles? Aquestes són les qüestions que impulsen els nostres darrers experiments.
Us convidem a explorar la nostra última demo, on interactuareu amb Bo, un simpàtic gos virtual impulsat per LLM apassionat pel programari de codi obert. Per començar a parlar amb ell, només heu de fer clic al botó del micròfon, dir “Hola” i deixar que la conversa flueixi. Bo us escoltarà, respondrà a les vostres preguntes i en plantejarà de noves per ajudar-vos a aprofundir en el tema del que parleu.
Conversant amb Bo, no només aprendreu sobre programari de codi obert, sinó que hi connectareu a través de la vostra pròpia experiència. Si no teniu coneixements de codi o programació, Bo utilitzarà exemples del seu món per fer-ho més comprensible. A mesura que la conversa avanci, potser descobrireu que en sabíeu més coses de les que us pensàveu. Si ja teniu experiència en aquest àmbit i mencioneu un projecte o repositori de codi obert, Bo estarà encantat de parlar-ne a fons, aprofitant el coneixement que extreu del model de llenguatge que utilitza.
Aquesta aplicació demo està basada en el codi obert originalment desenvolupat per Google per demostrar les capacitats conversacionals dels LLMs. Hem adaptat el codi per a les nostres finalitats localitzant el personatge al català, donant a Bo una història i un context que reflecteixen la nostra realitat local. Podeu explorar la seva personalitat i història de fons al panell de configuració, accessible a través del menú superior.
Hi ha diverses tecnologies treballant conjuntament per donar vida a Bo. El Sistema de Reconeixement Automàtic de Veu (ASR) converteix les vostres paraules de veu a text. Aquest text, juntament amb els detalls de la personalitat de Bo, es processa a través del LLM per generar una resposta significativa i sensible al context. Finalment, la tecnologia de Text-a-veu (TTS) converteix les respostes de Bo en paraules parlades, donant-li una veu pròpia. L’animació afegeix un toc visual que imita una conversa real, fent que la interacció sigui més natural i atractiva, com si estiguéssiu conversant amb un company de veritat.
És difícil no notar l’accent nordamericà de Bo. Això es deu al fet que els models de TTS d’OpenAI estan entrenats principalment en anglès. Tot i això, si li pregunteu a Bo sobre el seu propietari, descobrireu un gir intrigant en la seva història lingüística i com es va tornar tan aficionat al programari de codi obert!A diferència dels assistents virtuals tradicionals, les respostes de Bo no estan pre-programades ni emmagatzemades—es generen en temps real, basades en el flux d’interaccions. Això fa que les seves converses siguin molt més dinàmiques i fluïdes, sense els guions rígids típics de sistemes com els assistents bancaris.
Tot i que actualment estem utilitzant els serveis de tecnologies de veu i ChatGPT de la organització de recerca en intel·ligència artificial OpenAI, estem compromeses en avançar cap a alternatives completament de codi obert que estiguin alineades amb els nostres valors d’accessibilitat i transparència.
Com podem fer que un personatge virtual impulsat per LLM com Bo sigui una eina per a la transformació social? Mentre que les aplicacions comercials sovint se centren en l’atenció al client o el màrqueting personalitzat, a Col·lectivaT posem en valor el seu enorme potencial per a aplicacions que puguin tenir un impacte positiu en àmbits com la preservació de llengües, l’educació i la conscienciació social.
Una de les aplicacions que més emocionant ens sembla és l’aprenentatge de llengües, especialment per a les llengües minoritzades, que sovint no compten amb els recursos suficients per a un estudi i pràctica complets de la seva població. La infància que aprèn aquestes llengües pot tenir una exposició limitada a l’escola o a casa. Un company interactiu i divertit com Bo pot oferir l’espai necessari per practicar a través de la conversa, reforçant l’ús de la seva llengua d’una manera atractiva i sense la pressió d’equivocar-se. Les persones poden parlar sense por a cometre errors, tot creant una oportunitat per explorar i jugar amb la llengua, ajudant a cobrir el buit on les eines tradicionals es queden curtes.
Més enllà de l’aprenentatge de llengües, les companyes conversacionals poden obrir la porta a converses personalitzades sobre temes tan diversos com el canvi climàtic, la salut menstrual, les addiccions o qüestions LGBTI—temes que infants i adolescents poden trobar difícils de parlar amb professors o familiars, ja sigui pel desconeixement d’aquests últims o pel tabú social que suposen. Aquestes companyes virtuals ofereixen un espai segur on cap pregunta és massa vergonyosa o incòmoda per a fer.
Cal dir que això no es tracta de substituir a docents o cuidadores dels processos d’aprenentatge, sinó de complementar-los i permetre escalar els seus esforços sota la seva supervisió. Les companyes virtuals poden oferir un entorn d’aprenentatge personalitzat i lliure de judicis—ja sigui per practicar una llengua, tractar temes delicats, o simplement per interactuar amb la tecnologia de manera més intuïtiva.
Amb perspectiva de futur, estem entusiasmades en continuar experimentant amb la plataforma, provant-ne les capacitats i limitacions. Els nostres pròxims passos tècnics inclouen la integració dels últims models lingüístics de codi obert LLaMA i el perfeccionament dels nostres models de text-a-veu per garantir interaccions de veu més naturals i localitzades. També explorarem com integrar aquestes solucions de manera fluida en entorns educatius i socials.
Ens encantaria sentir la vostra opinió! Si heu interactuat amb Bo o teniu idees sobre com pot evolucionar aquesta tecnologia, no dubteu en compartir els vostres comentaris amb nosaltres.
També ens agradaria agrair a Yuxuan Peng, desenvolupador web de pila completa i col·laborador de la nostra iniciativa Awal, per les seves valuoses contribucions voluntàries a aquest projecte.