Recursos per les tecnologies de la parla

Com a part de la nostra missió, proporcionem dades i recursos oberts al públic sobre tecnologies de parla. Podeu trobar una llista detallada aquí amb explicacions breus i altres referències per obtenir més informació. També, visiteu la nostra wiki per a més informació sobre les tecnologies de la parla i els models que mantenim.


Nom Llengua Tipus Llicència Descarregar
TV3Parla v0.3 català model acústic GNU AGPL-3.0 enllaç
TV3Parla+ParlamentParla v0.2 català model acústic GNU AGPL-3.0 enllaç
TV3Parla Corpus v0.3 català corpus d’àudio CC-BY-NC 4.0 enllaç
ParlamentParla Corpus - clean v1.0 català audio corpus CC-BY 4.0 enllaç
ParlamentParla Corpus - other v1.0 català audio corpus CC-BY 4.0 enllaç
ParlamentParla Corpus - old v0.3 català corpus d’àudio CC-BY 4.0 enllaç
OpenSubtitles LM v1.0 català model d’idioma CC-BY 4.0 enllaçCorpora acústics

Per als dos projectes que vam dur a terme amb èxit, vam recollir enregistraments de veu disponibles públicament i els vam convertir en corpora acústics per entrenament dels sistemes de RAP. Aquests conjunts de dades estan disponibles per descarregar amb diverses llicències obertes.

 • TV3Parla

  Aquest corpus inclou 240 hores de parla catalana de material audiovisual. Els detalls de la segmentació, el processament de dades i l’entrenament del model s’expliquen en Külebi, Öktem; 2018. El propietari del contingut original és la Corporació Catalana de Mitjans Audiovisuals, SA (CCMA); vam processar el seu material i estem fent-lo disponible aquí sota els seus termes d’ús.

  El corpus es pot trobar aquí sota la llicència CC BY-NC 4.0.

  Podeu citar les dades mitjançant BibTeX:

  @inproceedings{Külebi2018,
   author={Baybars Külebi and Alp Öktem},
   title={Building an Open Source Automatic Speech Recognition System for Catalan},
   year=2018,
   booktitle={Proc. IberSPEECH 2018},
   pages={25--29},
   doi={10.21437/IberSPEECH.2018-6},
   url={http://dx.doi.org/10.21437/IberSPEECH.2018-6}
  }
  


  Aquest projecte va ser possible gràcies al suport d’Associació Softcatalà.

 • ParlamentParla

  Vam recollir aquest corpus a partir dels enregistraments i les transcripcions dels plens del Parlament de Catalunya. Vam alinear les transcripcions amb els enregistraments i vam extreure les 320 hores més netes per a entrenar els models de parla. El contingut pertany al Parlament de Catalunya i les dades es publiquen conforme a les seves condicions d’ús.

  A partir de la versió 1.0 actual, podeu trobar el corpus en dues parts; 90 hores de qualitat neta i 230 hores de qualitat altra, ambdues sota la llicència CC BY 4.0. A més dels fitxers d’àudio segmentats i les transcripcions, el corpus antic de la v0.3 inclou els enllaços del text sencer i l’àudio, per intervenció. En un futur proper publicarem també la forma estructurada de les sessions del Parlament (id sessió, intervinent, text d’intervenció, durada d’intervenció, etc.).

  Aquest projecte va ser possible gràcies al suport del Departament de Cultura de la Generalitat.

Models de RAP

Aquí teniu els models de RAP que vam entrenar nosaltres a partir dels corpora mencionats abans. Per ara vam utilitzar el toolkit de reconeixement de la parla, CMUSphinx, que és el resultat de més de 20 anys de recerca a la Universitat Carnegie Mellon. Encara que actualment l’estat-de-l’art és la tecnologia híbrida de Hidden Markov Models (HMM) i les xarxes neuronals (NN) com Kaldi, l’eina pocketsphinx segueix sent rellevant per descodificar offline en entorns limitats de recursos, com els dispositius mòbils. Continuem el nostre treball de manteniment i millora dels models en el nostre repositori. Podeu trobar guies d’instal·lació i configuració, i tutorials dels casos d’ús bàsic al nostre wiki.

Aquí teniu la llista dels nostres models de CMUSphinx més recents:

La preparació d’aquesta pàgina va ser possible amb el suport del Departament de Cultura de la Generalitat.