Recursos per les tecnologies linguistics

Com a part de la nostra missió, proporcionem dades obertes i recursos sobre tecnologies del discurs, específicament el reconeixement automàtic del discurs (ASR), la síntesi de text a parla (TTS) i la traducció automàtica (MT) en les llengües amb les quals treballem. Podeu trobar una llista detallada aquí amb explicacions breus i altres referències per obtenir més informació. També pots trobar alguns d’aquests recursos a la pàgina de Col·lectivaT a Hugging Face.

Nom	Llengua	Tipus	Llicència	Descarregar
TV3Parla v0.3	català	model acústic	GNU AGPL-3.0	enllaç
TV3Parla+ParlamentParla v0.2	català	model acústic	GNU AGPL-3.0	enllaç
TV3Parla Corpus v0.3	català	corpus d’àudio	CC-BY-NC 4.0	enllaç
ParlamentParla Corpus v2.0	català	corpus d’àudio	CC-BY 4.0	enllaç
Catotron - Ona Fast Speech	català	model de SDV	OpenRail	link
Catotron - Pau Tacotron2	català	model de SDV	OpenRail	link
TTS API	-	Software	GNU AGPL-3.0	link
UPC FestCat Ona - optimitzat	català	corpus d’àudio	CC BY-SA 3.0 ES	enllaç
UPC FestCat Pau - optimitzat	català	corpus d’àudio	CC BY-SA 3.0 ES	enllaç
OpenSubtitles LM v1.0	català	model d’idioma	CC-BY 4.0	enllaç
Textos monolingües i paral·lels en amazic	amazic	dades de text	CC-BY 2.0	enllaç
Corpus de textos Araina	occità aranès	corpus de text	CC-0 1.0	enllaç
Articles de Şalom	judeocastellà	corpus de text	CC-BY 4.0	enllaç
Una Fraza al diya	judeocastellà	corpus de text paral·lel	CC-BY 4.0	enllaç
Ladino TTS	judeocastellà	model de SDV	CC-BY-NC	link
Ladino TTS corpus	judeocastellà	corpus d’àudio	CC-BY-NC	link

Corpora acústics

Durant diversos projectes, vam recollir enregistraments de veu disponibles públicament i els vam convertir en corpora acústics per entrenament dels sistemes de RAP. Aquests conjunts de dades es poden descarregar amb diferents llicències obertes.

TV3Parla

Aquest corpus inclou 240 hores de parla catalana de material audiovisual. Els detalls de la segmentació, el processament de dades i l’entrenament del model s’expliquen en Külebi, Öktem; 2018. El propietari del contingut original és la Corporació Catalana de Mitjans Audiovisuals, SA (CCMA); vam processar el seu material i estem fent-lo disponible aquí sota els seus termes d’ús.

El corpus es pot trobar aquí sota la llicència CC BY-NC 4.0.

Aquest projecte va ser possible gràcies al suport d’Associació Softcatalà.

ParlamentParla

Vam recollir aquest corpus a partir dels enregistraments i les transcripcions dels plens del Parlament de Catalunya. Vam alinear les transcripcions amb els enregistraments i vam extreure les 320 hores més netes per a entrenar els models de parla. El contingut pertany al Parlament de Catalunya i les dades es publiquen conforme a les seves condicions d’ús.

El corpus antic de la v0.3 inclou els enllaços del text sencer i l’àudio, per intervenció.

A partir de la versió 1.0 actual, podeu trobar els fitxers d’àudio segmentats i les transcripcions en dues parts; 90 hores de qualitat neta i 230 hores de qualitat altra, ambdues sota la llicència CC BY 4.0.

A partir de la versió 2.0 actual, el corpus s’amplia i se separa en 211 hores de qualitat neta i 400 hores de qualitat altra. A més, cada segment de la parla està etiquetat amb el seu parlant i cada parlant amb el seu gènere.

Versió 1.0 de aquest corpus va ser possible gràcies al suport del Departament de Cultura de la Generalitat. Versió 2.0 va ser finançat pel Centre Nacional de Supercomputació, en el marc del projecte AINA del Departament de Polítiques Digitals.

Corpus UPC FestCat SDV

Corpus FestCat va ser desenvolupat pel Centre de Recerca TALP de la Universitat Politècnica de Barcelona l’any 2007 per construir sistemes SDV de codi obert per al català. Hem reprocessat aquest corpus optimitzant-lo per construir el nostre SDV Catotron basat en la xarxes neuronals. Els segments llargs es van dividir o es van descartar per tenir una durada màxima d’àudio de 12 segons. El corpus de veu masculina Pau conté 6 hores 54 minuts i el corpus de veu femenina Ona conté 6 hores 12 minuts. Tots dos es publiquen amb llicència Reconeixement-CompartirIgual 3.0 Espanya (CC BY-SA 3.0 ES).

La preparació d’aquest corpus va comptar amb el suport del Departament de Cultura de la Generalitat de Catalunya

Models de RAP

Aquí teniu els models de RAP que vam entrenar nosaltres a partir dels corpora mencionats abans. Per ara vam utilitzar el toolkit de reconeixement de la parla, CMUSphinx. Continuem el nostre treball de manteniment i millora dels models en el nostre repositori. Podeu trobar guies d’instal·lació i configuració, i tutorials dels casos d’ús bàsic al nostre wiki.

TV3Parla v0.3: sphinxtrain 5pre-alpha continuous model
TV3Parla+ParlamentParla v0.2: sphinxtrain 5pre-alpha continuous model

Per obtenir més informació, podeu consultar el nostre article publicat a Iberspeech 2018.

Models de SDV

Catotron és el primer sistema de síntesi de veu lliure i obert basat en xarxes neuronals. Col·lectivaT ha liderat el desenvolupament amb el finançament del Departament de Cultura de la Generalitat de Catalunya amb la participació d’investigadors del Grup de recerca en Tractament del Llenguatge Natural (TALN) de la Universitat Pompeu Fabra i Centre de Tecnologies i Aplicacions del Llenguatge i de la Parla de la Universitat Politècnica de Catalunya (UPC-TALP).

Pàgina oficial
Blog del projecte amb enllaços a models (Ona, Pau, Waveglow, MelGAN) i mostres
Codi font per a GPU i CPU
Quaderns Jupyter per a inferència i adaptació de parlants

Per obtenir més informació, podeu consultar el nostre article publicat a Interspeech 2020.

La preparació d’aquesta pàgina va ser possible amb el suport del Departament de Cultura de la Generalitat.