Jun 5, 2024

Pioneras en la Síntesis de Voz en Gallego


Nos hace mucha ilusión compartir el éxito reciente de nuestra colaboración con la Universidade de Santiago de Compostela (USC) que fue reconocida en la 16a Conferencia Internacional sobre Procesamiento Computacional del Portugués (PROPOR 2024), el pasado mes de marzo. Nuestro artículo de demostración Nós-TTS: una interfaz web para la síntesis de voz en gallego, fue premiado como Mejor Demostración, un reconocimiento que subraya el trabajo innovador y la dedicación de nuestro equipo en Col·lectivaT y de las profesionales del Proxecto Nós de la USC con quienes trabajamos. Este premio reafirma nuestro compromiso con la creación de soluciones accesibles y de código abierto para lenguas con pocos recursos como el gallego.

Proxecto Nós

El Proyecto Nós es una iniciativa ambiciosa financiada por el Gobierno de Galicia e implementada por la USC, con el objetivo de potenciar la lengua gallega a través de tecnologías lingüísticas avanzadas. Este proyecto abarca una amplia gama de subcampos, incluyendo la síntesis de voz, el reconocimiento de voz, los sistemas de diálogo y la traducción automática. A través del desarrollo de recursos, herramientas y demostraciones con licencia abierta, el Proyecto Nós aspira a fortalecer la posición del gallego, asegurando que prospere en la era digital.

La contribución de Col·lectivaT a este proyecto ha consistido en la creación de un sistema de síntesis de voz (TTS) de última generación y una interfaz de programación de aplicaciones (API) para permitir su integración.

¿Qué es la síntesis de voz?

La tecnología de síntesis de voz (TTS) convierte el texto escrito en palabras habladas, permitiendo que los dispositivos digitales se comuniquen con las personas usuarias mediante una voz natural y humana. Los sistemas TTS de alta calidad pueden producir voz sintética con diversas identidades de hablantes, estilos y emociones. La TTS puede habilitar y mejorar la experiencia de las usuarias en aplicaciones como la lectura de noticias, asistentes virtuales y traductores automáticos. Además, la tecnología TTS es esencial para hacer el contenido digital accesible para personas con discapacidades visuales, dificultades de lectura o que prefieren el aprendizaje auditivo.

En la versión en catalán de este artículo, se incluye un reproductor de audio como ejemplo que utiliza nuestro sistema TTS Catotron.

Desarrollos técnicos por Col·lectivaT

Nuestra participación en el Proyecto Nós como Col·lectivaT se centró en el desarrollo de un sistema de TTS de última generación para el gallego. A continuación, se detallan algunos de los aspectos clave de nuestras contribuciones:

  • Desarrollo de la Voz Sabela: Creamos el modelo de voz TTS Sabela, entrenado desde cero utilizando un corpus proporcionado por la USC. Este incluía 10.000 frases grabadas por un locutor profesional de radio, sumando aproximadamente 14 horas de habla.

  • Integración del Modelo Fonológico: Incorporamos un modelo fonológico proporcionado por la USC, probando su impacto en la naturalidad y precisión de la voz sintetizada. Esta colaboración nos permitió refinar nuestros modelos y mejorar la calidad del resultado de la síntesis de voz.

  • Desarrollo de la Página de Demostración y API: Desarrollamos una página de demostración y una interfaz de programación de aplicaciones (API) fácil de usar, haciendo nuestro sistema TTS accesible para desarrolladoras y usuarias finales. El código abierto de la API está disponible en GitHub, junto con enlaces a los modelos TTS de Col·lectivaT para el catalán y el judeoespañol.

Durante este proyecto, la USC proporcionó datos esenciales y asistió en la evaluación de los modelos. Nuestra colaboradora, Carmen Magariños, tuvo un papel fundamental en asegurar la solidez y precisión de nuestro sistema TTS a través de evaluaciones exhaustivas.

Demostración oficial de Nós-TTS

La demostración oficial de Nós-TTS, que incluye las voces de Celtia e Icía además de Sabela, se basa en el trabajo fundamental desarrollado por nuestro equipo. Podéis probar la demostración vosotras mismas en la página de la demo.

Captura de pantalla de la Demostració oficial de Nós-TTS

Reconocimiento en PROPOR 2024

Estamos orgullosas de que nuestro artículo de demostración haya ganado el premio a la Mejor Demostración en PROPOR 2024. Este reconocimiento destaca nuestro compromiso con la creación de soluciones accesibles y de código abierto para lenguas con pocos recursos como el gallego.

Tecnología lingüística en Col·lectivaT

En Col·lectivaT, nos especializamos en una amplia gama de tecnologías lingüísticas, incluyendo la traducción automática, la síntesis de voz y el reconocimiento de voz. Nuestra experiencia en trabajar con lenguas con pocos recursos nos permite crear soluciones con suficiente impacto como para mejorar su accesibilidad e inclusión digital.

Para más información sobre nuestro portafolio tecnológico, visitad nuestra página de recursos. Si estáis interesadas en colaborar con nosotras para desarrollar tecnologías lingüísticas innovadoras que empoderen comunidades y superen las barreras digitales, contactadnos en info@collectivat.cat. ¡Esperamos recibir noticias suyas pronto!