publication . Article . 2021

Avtomatsko razpoznavanja slovenskega govora za dnevnoinformativne oddaje

Lucija Gril; Mirjam Sepesy Maučec; Gregor Donaj; Andrej Žgank;
Open Access English
  • Published: 01 Jul 2021 Journal: Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave, volume 9, issue 1 (issn: 2335-2736, Copyright policy)
  • Publisher: Znanstvena založba Filozofske fakultete Univerze v Ljubljani (Ljubljana University Press, Faculty of Arts)
Abstract
Na področju govornih in jezikovnih tehnologij predstavlja avtomatsko razpoznavanje govora enega izmed ključnih gradnikov. V prispevku bomo predstavili razvoj avtomatskega razpoznavalnika slovenskega govora za domeno dnevnoinformativnih oddaj. Arhitektura sistema je zasnovana na globokih nevronskih mrežah. Pri tem smo ob upoštevanju razpoložljivih govornih virov izvedli modeliranje z različnimi aktivacijskimi funkcijami. V postopku razvoja razpoznavalnika govora smo preverili tudi, kakšen je vpliv izgubnih govornih kodekov na rezultate razpoznavanja govora. Za učenje razpoznavalnika govora smo uporabili bazi UMB BNSI Broadcast News in IETK-TV. Skupni obseg govornih posnetkov je znašal 66 ur. Vzporedno z globokimi nevronskimi mrežami smo povečali slovar razpoznavanja govora, ki je tako znašal 250.000 besed. Na ta način smo znižali delež besed izven slovarja na 1,33 %. Z razpoznavanjem govora na testni množici smo dosegli najboljšo stopnjo napačno razpoznanih besed (WER) 15,17 %. Med procesom vrednotenja rezultatov smo izvedli tudi podrobnejšo analizo napak razpoznavanja govora na osnovi lem in F-razredov, ki v določeni meri pokažejo na zahtevnost slovenskega jezika za takšne scenarije uporabe tehnologije.
Persistent Identifiers
Subjects
free text keywords: avtomatsko razpoznavanje slovenskega govora, lastnosti slovenskega jezika, dnevnoinformativne oddaje, globoke nevronske mreže, izgubni govorni kodeki, Philology. Linguistics, P1-1091, Linguistics and Language, Language and Linguistics, Test set, Computer science, Domain (software engineering), Deep neural networks, Artificial neural network, Speech recognition, Codec, Key (cryptography), Lossy compression
Related Organizations
Any information missing or wrong?Report an Issue