Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ UPCommons. Portal de...arrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
versions View all 4 versions
addClaim

This Research product is the result of merged Research products in OpenAIRE.

You have already added 0 works in your ORCID record related to the merged Research product.

Noise Reduction for ILSE Interviews

Noise Reduction for ILSE Interviews Noise Reduction for ILSE Interviews Noise Reduction for ILSE Interviews
Authors: Pastrana Costa, Asunción;

Noise Reduction for ILSE Interviews

Abstract

Este proyecto final de carrera tiene por objetivo reducir el ruido para mejorar el reconocimiento automático del habla que se utiliza en las entrevistas grabadas por ILSE (Interdisciplinary Longitudinal Study on Adult Development and Aging). Las primeras de estas entrevistas fueron grabadas hace más de veinte años y las más actuales se graban en la actualidad. Éste es uno de los motivos por los que las condiciones de grabado en los datos empleados son muy variantes. Además, en las grabaciones más antiguas el reconocimiento automático del habla no se contemplaba como mecanismo para transcribir dichas entrevistas y, por este motivo, las condiciones externas que afectan a la calidad de la grabación no se tuvieron en cuenta. Como último factor relevante, cabe destacar que las cintas utilizadas se han ido deteriorando con el tiempo afectando también a los resultados. Tras la correspondiente investigación previa, la normalización del cepstrum fue considerada la mejor técnica para afrontar el objetivo. Siguiendo esta idea, se aplicaron tres formas distintas de normalizar el cepstrum: normalización en media con el cepstrum del ruido (NCMN), normalización en media y varianza con el cepstrum del ruido (NCMVN) y, finalmente, la normalización con los coeficientes del cepstrum del ruido al cuadrado (NCSN). Los resultados obtenidos por dichas técnicas no mejoran las tasas de error (word error rate, WER) de otros métodos aplicados previamente: 76.30% de error para la referencia, 76.41% para NCMN, 77.00% para NCMVN y 83.05% para NCSN. Sin embargo, los resultados prueban que el modelo acústico desarrollado para NCMVN es el más apropiado. Apesar de que NCSN es el método que resulta tener la tasa de error más elevada, esta técnica mejora tanto el número de palabras substituidas como el de añadidas erróneamente. Ésto, junto con el modelo acústico de NCMVN, puede inspirar futuras investigaciones.

Aquest projecte final de carrera té per objectiu reduir el soroll per tal de millorar el reconeixement automàtic de la parla de les entrevistes gravades per ILSE (Interdisciplinary Longitudinal Study on Adult Development and Aging). Les primeres d'aquestes entrevistes foren enregistrades fa més de vint anys i les més recents encara es graven a l'actualitat. La diferència temporal en que aquestes foren enregistrades provoca que les condicions de les gravaciones siguin diferents. Més enllà de les diferències tecnològiques, cal tindre en compte que fa 20 anys la transcripció d'aquestes entrevistes de manera automàtica no es contemplava i per aquest motiu, quan s'enregistraven les entrevistes, les condicions externes que afectaven la gravació no es tenien en compte. A més a més, les cintes de gravació han perdut qualitat amb el temps, afectant el reconeixement de la parla. Després de fer la corresponent investigació, la normalització del cepstrum fou considerada la millor tècnica per afrontar l'objectiu citat. Seguint aquesta idea, tres tècniques diferents foren aplicades: normalització en mitja amb el cepstrum del soroll (NCMN), normalització en mitja i variança amb el cepstrum del soroll (NCMVN) i, finalment, normalització amb els coeficients al quadrat del cepstrum del soroll (NCSN). Els resultats obtinguts per aquestes tècniques no milloren la tassa d'error per paraula (word error rate, WER) d'altres mètodes aplicats amb anterioritat: 76.30% d'error per a la referència, 76.41% per a NCMN, 77.00% per a NCMVN i 83.05% per a NCSN. Aquests resultats proben que el model acústic que fou construit per a NCMVN és el més adequat. Tot i els resultats observats per a NCSN en quant a tassa d'error no són favorables, aquesta tècnica millora tant el número de paraules substituides com les afegides de manera errònia. Tant això, com el model acústic de NCMVN, poden inspirar futures millores.

This thesis presents a research on noise reduction in order to improve automatic speech recognition (ASR) applied to the ILSE (Interdisciplinary Longitudinal Study on Adult Development and Aging) interviews. The first interviews were recorded more than 20 years ago and new ones are still recorded nowadays. This results in varying recording conditions. In the first recordings, external conditions were not taken into account since ASR was not considered. This, plus the loss of quality due to the tape’s aging, make the available data very noisy. After some investigation, it was found that the best way to approach this goal was to apply cepstral normalization. In this direction, three techniques have been implemented: noise cepstral mean normalization (NCMN), noise cepstral mean and variance normalization (NCMVN), and noise cepstral squared normalization (NCSN). The results of this methods don’t improve the word error rates (WER) from the best approach; 76.30% for the baseline, 76.41% for NCMN, 77.00% NCMVN and 83.05% for NCSN. However, the results prove that the acoustic model (AM) built NCMVN is the most accurate. Although NCSN is the approach that provides higher WER, this technique improves the number of substituted as well as inserted words. This, plus NCMVN’s acoustic model, could inspire future research.

Research on algorithms and tools to rapidly adapt speech and language processing systems to new domains and languages.

Country
Spain
Keywords

reducción de ruido, noise reduction, Soroll -- PFC, ASR, Procesado de voz, Processament de la parla, Speech processing systems, :Enginyeria de la telecomunicació [Àrees temàtiques de la UPC], Àrees temàtiques de la UPC::Enginyeria de la telecomunicació, speech processing

  • BIP!
    Impact byBIP!
    citations
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
    OpenAIRE UsageCounts
    Usage byUsageCounts
    visibility views 27
    download downloads 41
  • 27
    views
    41
    downloads
    Powered byOpenAIRE UsageCounts
Powered by OpenAIRE graph
Found an issue? Give us feedback
visibility
download
citations
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
views
OpenAIRE UsageCountsViews provided by UsageCounts
downloads
OpenAIRE UsageCountsDownloads provided by UsageCounts
0
Average
Average
Average
27
41
Green