Recursos per les tecnologies linguistics

Com a part de la nostra missió, proporcionem dades obertes i recursos sobre tecnologies del discurs, específicament el reconeixement automàtic del discurs (ASR), la síntesi de text a parla (TTS) i la traducció automàtica (MT) en les llengües amb les quals treballem. Podeu trobar una llista detallada aquí amb explicacions breus i altres referències per obtenir més informació. També pots trobar alguns d’aquests recursos a la pàgina de Col·lectivaT a Hugging Face.

Nom Llengua Tipus Llicència Descarregar
TV3Parla v0.3 català model acústic GNU AGPL-3.0 enllaç
TV3Parla+ParlamentParla v0.2 català model acústic GNU AGPL-3.0 enllaç
TV3Parla Corpus v0.3 català corpus d’àudio CC-BY-NC 4.0 enllaç
ParlamentParla Corpus v2.0 català corpus d’àudio CC-BY 4.0 enllaç
ParlamentParla Corpus - clean v1.0 català corpus d’àudio CC-BY 4.0 enllaç
ParlamentParla Corpus - other v1.0 català corpus d’àudio CC-BY 4.0 enllaç
ParlamentParla Corpus - old v0.3 català corpus d’àudio CC-BY 4.0 enllaç
Catotron - Ona català model de SDV CC-BY 4.0 enllaç
Catotron - Pau català model de SDV CC-BY 4.0 enllaç
UPC FestCat Ona - optimitzat català corpus d’àudio CC BY-SA 3.0 ES enllaç
UPC FestCat Pau - optimitzat català corpus d’àudio CC BY-SA 3.0 ES enllaç
OpenSubtitles LM v1.0 català model d’idioma CC-BY 4.0 enllaç
Textos monolingües i paral·lels en amazic amazic dades de text CC-BY 2.0 enllaç
Corpus de textos Araina occità aranès corpus de text CC-0 1.0 enllaç
Articles de Şalom judeocastellà corpus de text CC-BY 4.0 enllaç
Una Fraza al diya judeocastellà corpus de text paral·lel CC-BY 4.0 enllaç


Corpora acústics

Durant diversos projectes, vam recollir enregistraments de veu disponibles públicament i els vam convertir en corpora acústics per entrenament dels sistemes de RAP. Aquests conjunts de dades es poden descarregar amb diferents llicències obertes.

TV3Parla

Aquest corpus inclou 240 hores de parla catalana de material audiovisual. Els detalls de la segmentació, el processament de dades i l’entrenament del model s’expliquen en Külebi, Öktem; 2018. El propietari del contingut original és la Corporació Catalana de Mitjans Audiovisuals, SA (CCMA); vam processar el seu material i estem fent-lo disponible aquí sota els seus termes d’ús.

El corpus es pot trobar aquí sota la llicència CC BY-NC 4.0.

Aquest projecte va ser possible gràcies al suport d’Associació Softcatalà.

ParlamentParla

Vam recollir aquest corpus a partir dels enregistraments i les transcripcions dels plens del Parlament de Catalunya. Vam alinear les transcripcions amb els enregistraments i vam extreure les 320 hores més netes per a entrenar els models de parla. El contingut pertany al Parlament de Catalunya i les dades es publiquen conforme a les seves condicions d’ús.

El corpus antic de la v0.3 inclou els enllaços del text sencer i l’àudio, per intervenció.

A partir de la versió 1.0 actual, podeu trobar els fitxers d’àudio segmentats i les transcripcions en dues parts; 90 hores de qualitat neta i 230 hores de qualitat altra, ambdues sota la llicència CC BY 4.0.

A partir de la versió 2.0 actual, el corpus s’amplia i se separa en 211 hores de qualitat neta i 400 hores de qualitat altra. A més, cada segment de la parla està etiquetat amb el seu parlant i cada parlant amb el seu gènere.

Versió 1.0 de aquest corpus va ser possible gràcies al suport del Departament de Cultura de la Generalitat. Versió 2.0 va ser finançat pel Centre Nacional de Supercomputació, en el marc del projecte AINA del Departament de Polítiques Digitals.

Corpus UPC FestCat SDV

Corpus FestCat va ser desenvolupat pel Centre de Recerca TALP de la Universitat Politècnica de Barcelona l’any 2007 per construir sistemes SDV de codi obert per al català. Hem reprocessat aquest corpus optimitzant-lo per construir el nostre SDV Catotron basat en la xarxes neuronals. Els segments llargs es van dividir o es van descartar per tenir una durada màxima d’àudio de 12 segons. El corpus de veu masculina Pau conté 6 hores 54 minuts i el corpus de veu femenina Ona conté 6 hores 12 minuts. Tots dos es publiquen amb llicència Reconeixement-CompartirIgual 3.0 Espanya (CC BY-SA 3.0 ES).

La preparació d’aquest corpus va comptar amb el suport del Departament de Cultura de la Generalitat de Catalunya

Models de RAP

Aquí teniu els models de RAP que vam entrenar nosaltres a partir dels corpora mencionats abans. Per ara vam utilitzar el toolkit de reconeixement de la parla, CMUSphinx. Continuem el nostre treball de manteniment i millora dels models en el nostre repositori. Podeu trobar guies d’instal·lació i configuració, i tutorials dels casos d’ús bàsic al nostre wiki.

Models de SDV

Catotron és el primer sistema de síntesi de veu lliure i obert basat en xarxes neuronals. Col·lectivaT ha liderat el desenvolupament amb el finançament del Departament de Cultura de la Generalitat de Catalunya amb la participació d’investigadors del Grup de recerca en Tractament del Llenguatge Natural (TALN) de la Universitat Pompeu Fabra i Centre de Tecnologies i Aplicacions del Llenguatge i de la Parla de la Universitat Politècnica de Catalunya (UPC-TALP).

Per obtenir més informació, podeu consultar el nostre article publicat a Interspeech 2020.





La preparació d’aquesta pàgina va ser possible amb el suport del Departament de Cultura de la Generalitat.