Com a part de la nostra missió, proporcionem dades obertes i recursos sobre tecnologies del discurs, específicament el reconeixement automàtic del discurs (ASR), la síntesi de text a parla (TTS) i la traducció automàtica (MT) en les llengües amb les quals treballem. Podeu trobar una llista detallada aquí amb explicacions breus i altres referències per obtenir més informació. També pots trobar alguns d’aquests recursos a la pàgina de Col·lectivaT a Hugging Face.
Nom | Llengua | Tipus | Llicència | Descarregar |
---|---|---|---|---|
TV3Parla v0.3 | català | model acústic | GNU AGPL-3.0 | enllaç |
TV3Parla+ParlamentParla v0.2 | català | model acústic | GNU AGPL-3.0 | enllaç |
TV3Parla Corpus v0.3 | català | corpus d’àudio | CC-BY-NC 4.0 | enllaç |
ParlamentParla Corpus v2.0 | català | corpus d’àudio | CC-BY 4.0 | enllaç |
Catotron - Ona | català | model de SDV | CC-BY 4.0 | enllaç |
Catotron - Pau | català | model de SDV | CC-BY 4.0 | enllaç |
UPC FestCat Ona - optimitzat | català | corpus d’àudio | CC BY-SA 3.0 ES | enllaç |
UPC FestCat Pau - optimitzat | català | corpus d’àudio | CC BY-SA 3.0 ES | enllaç |
OpenSubtitles LM v1.0 | català | model d’idioma | CC-BY 4.0 | enllaç |
Textos monolingües i paral·lels en amazic | amazic | dades de text | CC-BY 2.0 | enllaç |
Corpus de textos Araina | occità aranès | corpus de text | CC-0 1.0 | enllaç |
Articles de Şalom | judeocastellà | corpus de text | CC-BY 4.0 | enllaç |
Una Fraza al diya | judeocastellà | corpus de text paral·lel | CC-BY 4.0 | enllaç |
Durant diversos projectes, vam recollir enregistraments de veu disponibles públicament i els vam convertir en corpora acústics per entrenament dels sistemes de RAP. Aquests conjunts de dades es poden descarregar amb diferents llicències obertes.
Aquest corpus inclou 240 hores de parla catalana de material audiovisual. Els detalls de la segmentació, el processament de dades i l’entrenament del model s’expliquen en Külebi, Öktem; 2018. El propietari del contingut original és la Corporació Catalana de Mitjans Audiovisuals, SA (CCMA); vam processar el seu material i estem fent-lo disponible aquí sota els seus termes d’ús.
El corpus es pot trobar aquí sota la llicència CC BY-NC 4.0.
Aquest projecte va ser possible gràcies al suport d’Associació Softcatalà.
Vam recollir aquest corpus a partir dels enregistraments i les transcripcions dels plens del Parlament de Catalunya. Vam alinear les transcripcions amb els enregistraments i vam extreure les 320 hores més netes per a entrenar els models de parla. El contingut pertany al Parlament de Catalunya i les dades es publiquen conforme a les seves condicions d’ús.
El corpus antic de la v0.3 inclou els enllaços del text sencer i l’àudio, per intervenció.
A partir de la versió 1.0 actual, podeu trobar els fitxers d’àudio segmentats i les transcripcions en dues parts; 90 hores de qualitat neta i 230 hores de qualitat altra, ambdues sota la llicència CC BY 4.0.
A partir de la versió 2.0 actual, el corpus s’amplia i se separa en 211 hores de qualitat neta i 400 hores de qualitat altra. A més, cada segment de la parla està etiquetat amb el seu parlant i cada parlant amb el seu gènere.
Versió 1.0 de aquest corpus va ser possible gràcies al suport del Departament de Cultura de la Generalitat. Versió 2.0 va ser finançat pel Centre Nacional de Supercomputació, en el marc del projecte AINA del Departament de Polítiques Digitals.
Corpus FestCat va ser desenvolupat pel Centre de Recerca TALP de la Universitat Politècnica de Barcelona l’any 2007 per construir sistemes SDV de codi obert per al català. Hem reprocessat aquest corpus optimitzant-lo per construir el nostre SDV Catotron basat en la xarxes neuronals. Els segments llargs es van dividir o es van descartar per tenir una durada màxima d’àudio de 12 segons. El corpus de veu masculina Pau conté 6 hores 54 minuts i el corpus de veu femenina Ona conté 6 hores 12 minuts. Tots dos es publiquen amb llicència Reconeixement-CompartirIgual 3.0 Espanya (CC BY-SA 3.0 ES).
La preparació d’aquest corpus va comptar amb el suport del Departament de Cultura de la Generalitat de Catalunya
Aquí teniu els models de RAP que vam entrenar nosaltres a partir dels corpora mencionats abans. Per ara vam utilitzar el toolkit de reconeixement de la parla, CMUSphinx. Continuem el nostre treball de manteniment i millora dels models en el nostre repositori. Podeu trobar guies d’instal·lació i configuració, i tutorials dels casos d’ús bàsic al nostre wiki.
sphinxtrain
5pre-alpha continuous modelsphinxtrain
5pre-alpha continuous modelPer obtenir més informació, podeu consultar el nostre article publicat a Iberspeech 2018.
Catotron és el primer sistema de síntesi de veu lliure i obert basat en xarxes neuronals. Col·lectivaT ha liderat el desenvolupament amb el finançament del Departament de Cultura de la Generalitat de Catalunya amb la participació d’investigadors del Grup de recerca en Tractament del Llenguatge Natural (TALN) de la Universitat Pompeu Fabra i Centre de Tecnologies i Aplicacions del Llenguatge i de la Parla de la Universitat Politècnica de Catalunya (UPC-TALP).
Per obtenir més informació, podeu consultar el nostre article publicat a Interspeech 2020.
La preparació d’aquesta pàgina va ser possible amb el suport del Departament de Cultura de la Generalitat.