Mar 20, 2024

Celebrando el progreso y mirando hacia el futuro: El viaje de Awal


Momentos de la datatón Awal celebrada el 17.02.2024 en Barcelona.

El cierre de la segunda fase del proyecto Awal es un momento de reflexión, celebración y anticipación por lo que está por venir. Awal se ha embarcado en una misión crucial: preservar y promover la lengua amazigh en el espacio digital. A través del desarrollo de herramientas innovadoras, aspiramos a facilitar el uso y la difusión de esta lengua milenaria del norte de África, cerrando la brecha digital y asegurando que sus hablantes no se queden atrás en el cambiante paisaje tecnológico.

Un gran paso adelante: La iniciativa de recolección de datos

Nuestro viaje ya ha alcanzado hitos significativos desde que lo iniciamos en el invierno de 2023. Con la participación entusiasta de la comunidad hablante de amazigh, hemos recopilado más de 3.500 frases traducidas y 2 horas de datos de habla, un corpus de texto y voz que posteriormente servirá para plantear la creación de prototipos de sistemas de habla que a su vez permitan la creación de tecnologías de código abierto como asistentes de voz. Este primer impulso ha sido posible gracias a los esfuerzos de una comunidad de datos de nueva creación que abarca Cataluña y Marruecos. Un proceso facilitado con el desarrollo de un portal web para centralizar las herramientas de traducción, validación y grabación de frases y la organización de la primera maratón lingüística Awal. El proyecto también ha trabajado para aumentar la conciencia sobre la tecnología en este idioma marginado, que ocupa el tercer lugar en número de hablantes en Cataluña, a través de presentaciones en diversas actividades y encuentros, como las celebraciones del Yennayer o Año Nuevo amazigh o el ciclo de charlas “Barcelona, ciudad de 300 lenguas.”

Estos esfuerzos han permitido reunir a personas, fomentar un sentimiento de orgullo y crear herramientas que reflejen la rica diversidad del amazigh. Haciendo esto, no solo estamos preservando un idioma sino también empoderando a una comunidad para ver su identidad cultural representada y respetada en la era digital.

Lanzando awaldigital.org

En un esfuerzo pionero liderado por la iniciativa Som Part: diversidad y derechos colectivos, de El CIEMEN, desde Col·lectivaT hemos creado y presentado con orgullo el primer sitio web dedicado a la recolección de datos lingüísticos de provisión participativa para el amazigh. Esta plataforma se presenta como un testimonio de innovación y representación cultural, representando todos los dialectos y escrituras del amazigh con un diseño inspirado en las costumbres amazighes, gracias al trabajo creativo de La Clara Comunicación.

Una captura de pantalla de la página web de Awal en la pantalla de una computadora con el título awaldigital.org

El sitio web dispone de una aplicación de traducción automática de código abierto, actualmente en su etapa inicial pero prometedora para mejorar con los datos recopilados. Las contribuyentes pueden añadir y traducir frases utilizando una interfaz sencilla, contribuyendo a nuestra base de datos de frases traducidas en idiomas como el catalán, el español, el inglés, el francés y el árabe. Además de la traducción, el sitio web también promueve la recopilación de datos de voz, integrándose con la iniciativa Common Voice de Mozilla.

La validación comunitaria de los datos introducidos es un pilar fundamental de nuestro enfoque, garantizando que todos los datos cumplan con los estándares de calidad. Las contribuyentes son reconocidos por sus aportaciones, ganando puntos por cada contribución y validación, lo que fomenta un espíritu de competencia amistoso a través de un sistema de clasificación.

El sitio web de Awal fue diseñado por Alp Öktem, responsable del eje de tecnologías lingüísticas de Col·lectivaT, y construido por el desarrollador de pila completa Yuxuan Peng, quien actualmente lo mantiene y mejora de manera voluntaria. Sirviendo a la comunidad en cinco idiomas — catalán, español, francés, inglés y amazigh — la accesibilidad del sitio web se amplía, gracias al excepcional trabajo voluntario de Brahim Essaidi y Yassine Aït-El-Mouden por las traducciones en amazigh.

La Maratón Lingüística Awal: Un triunfo comunitario

La Maratón Lingüística Awal fue la primera de este tipo y el evento central de esta fase del proyecto. Durante un fin de semana, la maratón recopiló con éxito más de 1.000 frases traducidas y una hora de grabaciones de voz en amazigh. Acogido tanto virtual como presencialmente, el evento reunió a hablantes de amazigh de diversos dialectos, edades y géneros, enriqueciendo las contribuciones lingüísticas con pronunciaciones, vocabularios y acentos diversos.

Dos colaboradores discuten en la datatón de Awal sobre diferentes guiones de Tamazight

Este esfuerzo colectivo mostró la dedicación de la comunidad para preservar su lengua. Participantes como Mohamed y Nasseur trabajaron juntos, navegando por los desafíos del tifinagh, el alfabeto tradicional del amazigh, e intentando ajustarse a un modelo estandarizado de la lengua promovido solo desde 2011 en Marruecos. Sus esfuerzos subrayaron una verdad punzante: el amazigh no se promueve en las escuelas y se aprende principalmente en los hogares y en las calles, a través de la experiencia vivida. El evento también sirvió como recordatorio de la vitalidad del idioma, con participantes como Zaina, que expresó un fiero orgullo por su herencia y un compromiso con su preservación después de pasar cinco horas haciendo contribuciones.

La Maratón Lingüística, celebrada el 17 de febrero de 2024, a medio camino entre el Año Nuevo Amazigh y el Día Internacional de la Lengua Materna, marcó un paso significativo hacia la construcción de un corpus de datos completo para el idioma de acceso abierto. Un proceso vivo y en progreso, ya que después del evento el sitio web del proyecto Awal continúa dando la bienvenida a contribuciones de cualquier persona amazigoparlante que desee participar.

El camino a seguir

A medida que avanzamos, nuestro enfoque se mantiene claro: continuar promoviendo la participación en el proyecto a través de nuestros canales de redes sociales, mejorar los modelos de traducción automática con datos de alta calidad y ampliar nuestra red con nuevos participantes, lingüistas, expertos en PLN, desarrolladores tecnológicos y activistas por los derechos lingüísticos.

Es emocionante ver cómo nuestro viaje ya está fomentando colaboraciones fructíferas. Notablemente, uno de nuestros colaboradores activos, Mohamed Aymane Farhi, ha desarrollado un corrector ortográfico para ayudar a estandarizar las contribuciones. Además, una empresa está explorando nuestros datos para desarrollar un chatbot destinado a asistir al sector agrícola amazigoparlante en Marruecos.

Creemos que trabajando codo a codo, podemos superar los desafíos de la exclusión digital y crear un futuro donde cada lengua, no importa cuán desafiante o marginada, tenga su lugar legítimo en el ámbito digital.

Únete a nosotros

El viaje de Awal está lejos de concluir. Mirando hacia el futuro, invitamos a unirse a todas aquellas personas interesadas en colaborar y desarrollar tecnología lingüística para el amazigh u otras lenguas marginadas. Para más información o para formar parte, no dudes en contactarnos a awal@collectivat.cat y a través de las redes sociales de Twitter, Instagram, Facebook y Telegram.

Colectivamente, asegurémonos de que las voces de todas las comunidades sean escuchadas, respetadas y celebradas en el mundo digital.