Sep 29, 2022

Tejiendo redes para digitalizar la lengua Amazig

En esta publicación de blog, Yousra Bargach, estudiante de máster de Universitat Oberta de Catalunya, describe su trabajo y sus aprendizajes en torno a la recopilación de datos lingüísticos para el idioma amazig durante sus prácticas en Col·lectivaT en la primavera del 2022.

Un libro escrito en Amazig

¿En qué consiste el proyecto?

Durante el máster de Traducción y Tecnologías que estoy realizando en la UOC, he tenido la oportunidad de cursar una asignatura de prácticas. Apliqué a varias prácticas dentro y fuera de la UOC y tuve la suerte de que me escogieran para hacer las prácticas en Col·lectivaT. Col·lectivaT es una cooperativa sin ánimo de lucro formada por profesionales del ámbito del conocimiento que proporciona servicios integrales de traducción cultural, de investigación, y servicios tecnológicos para el trabajo colaborativo y lingüístico. En la primera toma de contacto, Alp Öktem, mi tutor de las prácticas, me envió un correo electrónico preguntando si yo hablaba amazig. Amazig es el idioma hablado por los grupos de bereberes en África del Norte por unos 38 millones de personas. Antiguamente se escribía usando la escritura líbico-bereber al menos desde el siglo III a. C. y que sigue existiendo ahora en la forma del tifinagh. Este era utilizado tradicionalmente por los tuareg y ha sido revivido recientemente por instituciones y movimientos culturales berberistas.

Mapa linguistico de la lengua amazig

Mapa linguistica de lengua amazig (fuente: http://www.amazic.cat)

"Amazig es el idioma hablado por los grupos de bereberes en África del Norte por unos 38 millones de personas."

Lamentablemente, no hablo amazig, pero tengo contactos en Marruecos que me han podido ayudar a la hora de recabar información. Después tuvimos una reunión online y me estuvo contando sobre la cooperativa y a lo que se dedican y, por otra parte, me explicó un poco el rol que iba a desempeñar durante mis prácticas que en mayor parte ha sido gestión, contacto y traducción para la recolección de datos lingüísticos en amazig.

¿En qué consistían mis prácticas?

Mis prácticas consistían en asistir mi tutor Alp para recopilar datos lingüísticos del idioma amazig para el proyecto Soberanía digital de la comunidad amazigofona. Este proyecto esta financiado por el Ayuntamiento de Barcelona y se lleva al cabo en colaboración con CIEMEN y Casa Amaziga de Catalunya.

Mis tareas incluía buscar contactos de amazig de mi entorno, pedirles contactos de otras personas relacionadas con el mundo amazig, recolectar frases de varios diccionarios, páginas web; y ponerlas en un documento tanto monolingüe o plurilingüe con el fin de recoger datos. Además, también tuve que traducir algunos correos electrónicos al francés para enviar a las instituciones y personas clave con el fin de crear una colaboración con ellas. Entre otras tareas, también tuve que buscar fuentes en amazig.

Brecha digital para los idiomas marginalizados

A continuación, describiré en qué consiste este proyecto y sobre qué se basa. Actualmente, existe una creciente brecha digital entre los idiomas que cuentan con suficientes recursos y los idiomas con menos recursos, lo que agrava aún más el peligro de extinción digital para ellos. Para la mayoría de los idiomas, el proceso de generar herramientas y recursos útiles es mucho más fácil debido a su gran presencia en la web. Sin embargo, muchos idiomas minoritarios y/o minorizados no tienen suficientes recursos materiales ni humanos para impulsar la creación de esas herramientas. La falta de apoyo estatal, de la visibilidad pública, y de la opresión social e institucional son las causas directas de que estos idiomas no tengan prioridad en los actuales espacios digitales.

"La falta de apoyo estatal, de la visibilidad pública, y de la opresión social e institucional son las causas directas de que estos idiomas no tengan prioridad en los actuales espacios digitales."

Los esfuerzos sobre la preservación de idiomas se centran principalmente en la documentación lingüística, la enseñanza, y la construcción de comunidad. Un área a la que no se le da importancia es la creación de herramientas basadas en la inteligencia artificial. Herramientas como la traducción automática, la síntesis de voz y el reconocimiento de voz son ahora importantes en la creación de interfaces humano-máquina. Además, estas herramientas pueden ayudar a modelar el conocimiento de los idiomas en peligro de extinción, y preservarlos para las generaciones futuras.

Tradicionalmente, las responsabilidades de una persona activista lingüística eran hablar el idioma activamente, transmitirlo a las generaciones más jóvenes, formar comunidades de aprendizaje, negociar con instituciones públicas para la inclusión de su idioma, colaborar con lingüistas para la documentación de su idioma, etc.

Hoy en día, el reto no es sólo hacer que el idioma persista en el mundo no virtual, sino también en el mundo digital. Existen dos maneras para la supervivencia de un idioma en los espacios digitales:

  1. Los intercambios y la visibilidad en línea son de interés, y ayudan a involucrar a las existentes o nuevos estudiantes de idiomas.
  2. Lo que se almacena en línea a su vez es un registro digital para el idioma que ayuda a la documentación y a su desarrollo tecnológico.

A continuación, describimos algunas formas en que Internet se está haciendo multilingüe y plural, al tiempo que ayuda a revivir idiomas en peligro de extinción.

Tecnologías del lenguaje basadas en datos

El aspecto revolucionario de estas tecnologías es que están basadas en datos, lo que significa que la inteligencia que se crea con estas herramientas se recopila a partir de grandes volúmenes de información, o simplemente datos.

Esta dependencia de los datos es lo que hace que estas tecnologías sean accesibles a algunos idiomas y no a los demás. Los recursos disponibles para un idioma influyen directamente en la posibilidad de desarrollar una aplicación para un idioma. Como el mayor recurso de datos textuales es Internet, y está dominado por unos cuantos idiomas, estas tecnologías tienden a centrarse solo en algunos idiomas dominantes, por ejemplo, inglés, español, chino, árabe, etc.

La traducción automática

La traducción automática (TA) es un área de la lingüística computacional que investiga el uso de software para traducir texto o habla de un lenguaje natural a otro. Ha evolucionado a lo largo de los años, pasando de enfoques basados en reglas a enfoques estadísticos, que modelaban las probabilidades de mapeo entre subfrases. Estas probabilidades se estudian de manera estadística a partir de textos paralelos donde las traducciones alineadas con oraciones están disponibles en los idiomas involucrados (referidos como idiomas de origen y destino). La traducción automática sirve para reducir barreras de idiomas y ofrece soluciones para casos de contextos como turismo, mercancía, traducción asistida, monitoreo automático.

"Como el mayor recurso de datos textuales es Internet, y está dominado por unos cuantos idiomas, estas tecnologías tienden a centrarse solo en algunos idiomas dominantes, por ejemplo, inglés, español, chino, árabe, etc."

El tipo de datos que se necesitan para construir un sistema de traducción automática son datos paralelos, que consisten en una colección de oraciones en un idioma junto con sus traducciones. Finalmente, Bird y Chiang han propuesto la traducción automática también como una herramienta de documentación y preservación para idiomas en peligro de extinción en su articulo Traducción automática para la preservación del idioma. “Cuando los textos originales se traducen a un idioma mundial importante, garantizamos que la documentación del idioma será interpretable incluso después de que el idioma haya caído fuera de uso. En segundo lugar, cuando un orador sobreviviente puede identificar errores en la salida de un sistema de TA, tenemos evidencia oportuna de aquellas áreas de gramática y léxico que necesitan una mejor cobertura mientras todavía hay tiempo para recopilar más. Estas tareas de producción y corrección de traducciones pueden ser realizadas por hablantes del idioma sin depender de la intervención de lingüistas externos. Además, eludimos la necesidad de recursos lingüísticos como bancos de árboles y redes de palabras, que son caros de crear y que dependen de la existencia de análisis morfológicos, sintácticos y semánticos de la lengua”.

Rol desempeñado en estas prácticas

Una vez comprendido el propósito del proyecto, que es la recopilación de datos para crear un sistema prototipo de traducción automática en amazig, Alp me explicó las tareas que tenía que desempeñar. Una vez asignadas las tareas, comencé a contactar con personas clave de Marruecos, ya que, realicé un intercambio en la Universidad de Oujda y de ahí conocí a gente que habla amazig. Contacté con Mustafa Akalay, escrito y profesor de la Universidad de Fez, que recientemente había publicado un artículo sobre amazig y describe muy bien el origen de este idioma y en qué países se habla.

Después el Profesor Mustafa Akalay me mandó el contacto de Rachid Raha, fundador de la Asociación de Cultura Tamazight y me comunicó que me podía ayudar a través de algunos contactos y material como diccionarios y guías lingüísticas.

Por otro lado, encontré esta página web de aprendizaje de amazig, con frases en amazig y su equivalente en árabe. Parece interesante, ya que, aparecen frases con su correspondiente traducción a varios idiomas.

Además, Rachid me mandó el contacto del investigador Hassan Akioud, que contacté para consultar si conoce algún traductor para que nos pueda ayudar y proporcionar algunas memorias de traducción o bien sea más material. Hassan es investigador de la lengua amaziga, así que nos fue de mucha ayuda.

Luego he pasado todas las frases que he encontrado a la carpeta “frases” con sus respectivas traducciones en inglés, francés y árabe, y varias frases en el archivo monolingüe. Finalmente, el traductor que había contactado me ha dicho que trabaja en la institución IRCAM (Institut Royal de la Culture Amazighe). Más adelante Alp redactó un email en español para pedir a IRCAM permiso para acceder a sus memorias de traducción. Después yo lo traduje al francés. También he buscado los correos electrónicos de IRCAM y Amadalmazigh.

Todas esas traducciones de las instituciones mencionadas anteriormente serán de gran utilidad para este proyecto. Afortunadamente hemos obtenido respuesta de Rachid Raha y Alp continuará la conversación con ellos.

¿Qué he aprendido?

En general, se puede decir que he aprendido a cómo empezar de cero un proyecto y cómo poder ir recopilando información poco a poco. He aprendido a buscar contactos interesantes de la lengua amaziga y pedirles ayuda para que nos proporcionen material o bien a través de otros contactos. Cada uno de esos contactos me ha podido ayudar hasta que hemos podido dar con el traductor de amazig. También he aprendido a buscar recursos en este idioma como, por ejemplo, páginas web, diccionarios o artículos en amazig. Por otra parte, he aprendido a buscar los contactos de las instituciones que nos interesan para así poder crear una colaboración con ellas y que nos proporcionen datos para así crear el traductor automático. Estoy satisfecha con estas prácticas realizadas en Col·lectivaT y les agradezco que me hayan dado esta oportunidad para aprender con ellos.

Yousra Bargach


Si quieres colaborar con Col·lectivaT o hacer tus prácticas aquí, escríbenos a info@collectivat.cat.