background

Romanian Anonymous Speech Corpus (RASC)


RASC este un portal destinat colectării unui corpus de voce pentru limba română, cu scopul de a pune la dispoziţia comunităţii de cercetare și open-source a unor resurse absolut necesare pentru dezvoltarea unor sisteme de recunoaștere a vorbirii continue.

Toate resursele colectate aici împreună cu modelele acustice antrenate pe acest corpus vor fi făcute publice sub licenţă GPL.

De ce?

Resursele de vorbire pentru limba Româna, spre deosebire limbile cu circulație internațională, sunt reduse ca dimensiune și în general se găsesc doar în medii închise, nefiind disponibile pentru toată lumea. Scopul acestui proiect este de a creea o colecție mare de resurse ce pot fi folosite în aplicații care implică prelucrarea limbajului vorbit.

Eu ce obțin?

Datele colectate în cadrul acestui proiect sunt disponibile sub licență GPL pentru oricine este interesat. Pe baza lor, personalul experimentat în lucrul cu aplicații de recunoaștere a vorbirii poate crea modele acustice ce pot servi la realizarea unor sistem de recunoaștere a vorbirii continue pentru limba română.

De asemenea, ne propunem noi înșine să realizăm aplicații și servicii web ce vor permite accesul la astfel de tehnologii atât pentru programatori cât și pentru utilizatorii normali. Există o gamă foarte largă de aplicații care se pot realiza folosind un astfel de corpus, cum ar fi: sistem de asistență pentru nevăzători, sisteme de dictare, aplicații de traducere automată a limbajului vorbit, sisteme interactive de răspuns automat, etc.