???item.export.label??? ???item.export.type.endnote??? ???item.export.type.bibtex???

Please use this identifier to cite or link to this item: https://tede.inatel.br:8080/tede/handle/tede/59
???metadata.dc.type???: Dissertação
Title: Avaliação da relação entre qualidade perceptual da fala e taxa de acerto de sistemas de reconhecimento de fala em ambientes ruidosos
???metadata.dc.creator???: Chiovato, André Godoi 
???metadata.dc.contributor.advisor1???: Ynoguti, Carlos Alberto
First advisor-co: Silva, Francisco José Fraga da
???metadata.dc.contributor.referee1???: Ynoguti, Carlos Alberto
???metadata.dc.contributor.referee2???: Silva, Francisco José Fraga da
???metadata.dc.contributor.referee3???: Ramirez, Miguel Arjona
???metadata.dc.description.resumo???: Resumo: Este trabalho tem como objetivo avaliar distorção produzida no sinal de fala ruidoso ao ser realçado pelos algoritmos de redução de ruído. Esta avaliação é feita através da comparação entre taxa de acerto (%) de um sistema padronizado de reconhecimento automático de fala (RAF) e medidas objetivas do índice (PESQ-MOS) da qualidade perceptual do sinal de fala, obtidas após aplicação de métodos de redução de ruído. O cenário de testes, realizado sobre a base de dados de fala ETSI STQ-Aurora DSR Working Group e um sistema de reconhecimento padronizado, avaliou os seguintes algoritmos: WI008 (padrão ETSI STQ-Aurora), EMSR (algoritmo de supressão de ruído tradicional de Ephraim e Malah), NMT-PSS (algoritmo do tio subtração espectral com características psico-acústicas) e EMSR + NMT-PSS (algoritmo baseado na regra de supressão de Ephraim e Malah, mas com o conceito de limiar de mascaramento do ruído). Uma curva que modela a relação matemática entre o índice PESQ-MOS e a Taxa de Reconhecimento (%) é proposta. A intenção é predizer, em determinadas situações, o desempenho do sistema de RAF através da ferramenta PESQ. A aproximação é baseada na Curva Logística, cujos parâmetros de configuração possuem significados físicos validados pelos resultados experimentais. São apresentadas algumas análises que apontam vantagens e desvantagens dos tipos de ruído da base Aurora com relação ao desempenho do sistema de RAF padronizado.
Abstract: Abstract: The goal of this work is to evaluate the distortion of the noisy speech signal being after enhanced by noise-reduction algorithms. This is performed by comparison of word accuracy (%) of a standardized automatic speech recognition (ASR) system and objective measures of perceptual speech quality (PESQ-MOS score), obtained after applying noise-reduction methods. The test scenario, composed of ETSI STQ-aurora DRS working group data base and a standardized ASR system, evaluated the following algoritms: WI008 (ETSI STQ-aurora standard), EMSR (ephraim and malah noise suppressor rule algorithm), NMT-PSS (noise masking threshold - power spectral subtraction) and EMSR + NMT-PSS (EMSR algorithm with the concept of noise masking threshold). Moreover a curve that models the relationship between PESQ-MOS score and recognition rate (%) is proposed. The purpose is to predict, under certain conditions, The system perfomance by means of the PESQ evalution. This approximations is based inthe logistic curve, which configuration parameters have physical meanings, validated by experimental results. Finally, some analysis are presented to indicate the advantages and disadvantages of several noise types present at aurora1 database over recognition system performance.
Keywords: Reconhecimento de voz; avaliação perceptual da fala; algoritmo de realce da fala
???metadata.dc.subject.cnpq???: Engenharia - Telecomunicações
Language: por
???metadata.dc.publisher.country???: Brasil
Publisher: Instituto Nacional de Telecomunicações
???metadata.dc.publisher.initials???: INATEL
???metadata.dc.publisher.department???: Instituto Nacional de Telecomunicações
???metadata.dc.publisher.program???: Mestrado em Engenharia de Telecomunicações
Citation: Chiovato, André Godoi. Avaliação da relação entre qualidade perceptual da fala e taxa de acerto de sistemas de reconhecimento de fala em ambientes ruidosos. 2005. [137]. dissertação( Mestrado em Engenharia de Telecomunicações) - Instituto Nacional de Telecomunicações, [Santa Rita do Sapucaí] .
???metadata.dc.rights???: Acesso Aberto
???metadata.dc.rights.uri???: http://creativecommons.org/licenses/by-nd/4.0/
URI: http://tede.inatel.br:8080/tede/handle/tede/59
Issue Date: 16-Dec-2005
Appears in Collections:Mestrado em Engenharia de Telecomunicações

Files in This Item:
File Description SizeFormat 
Tese final Godoi.pdfAvaliação da relação entre qualidade perceptual da fala e taxa de acerto de sistemas de reconhecimento de fala em ambientes ruidosos2.62 MBAdobe PDFThumbnail

Download/Open Preview


This item is licensed under a Creative Commons License Creative Commons