Mejora de voz mediante redes neuronales profundas
Author
Lamas Álvarez, CarlosAdvisor
Toledano, Doroteo T.Entity
UAM. Departamento de Tecnología Electrónica y de las ComunicacionesDate
2017-06Subjects
Mejora de voz; Red neuronal profunda; Calidad de voz; Telecomunicaciones
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Abstract
En este Trabajo Fin de Grado se ha implementado un sistema de limpieza de ruido, en señales de voz, basado en redes neuronales profundas (DNNs). Con esto en mente se consiguió generar un sistema parametrizable y aplicable a diferentes objetivos, más allá del mencionado en este TFG.
Como inspiración en el desarrollo y diseño de este proyecto se ha partido de un trabajo publicado en 2015 en IEEE Transactions on Audio, Speech, and Language Processing, titulado 'A Regression Approach to Speech Enhancement Based on Deep Neural Networks' y escrito por Chin-Hui Lee, Young Xu, Jun Du y Li-Rong Dai.
Para la realización de este trabajo se ha requerido de la implementación de código en Python, más concretamente el uso de las librerías Theano y Blocks. Theano constituye una de las herramientas más extendidas en la implementación de sistemas de machine learning pero, dada su complejidad, se decidió compaginarla con la otra librería citada, Blocks. Esta actúa por encima de Theano y hace más sencilla la interpretación y manipulación de las herramientas.
Se han usado dos bases de datos principales, para de señales de voz se ha utilizado TIMIT y para señales de ruido se ha utilizado HU; ambas tanto para entrenamiento como para pruebas, aunque se harán ciertos experimentos con otras bases de datos como son ALBAYZIN, para voz, y NOISEX, para ruido. Por otro lado, las bases de ruidos solo se usarán en el 'ensuciado' de los audios empleados para entrenar y para experimentos. Este 'ensuciado' se ha conseguido implementar mediante el uso de la herramienta FANT desarrollada en el proyecto AURORA, un software que permite la adición de señales de ruido a señales de voz con un Signal to Noise Ratio (SNR) controlable.
Para la evaluación del sistema se ha utilizado el estándar de estimación objetiva de la calidad subjetiva PESQ de la ITU-T. El objetivo al usar esta herramienta es el de mejorar los resultados devueltos por ella para audios extraídos de la red neuronal con respecto a los audios ruidosos originales. This Bachelor Thesis has implemented a noise cleaning system, on voice signals, based on deep neural networks (DNNs). With this in mind, it has been achieved the generation of a parametrizable system that can be focused on different tasks, not only on the one that has been proved in this project.
It has been taken, as inspiration for this project, the paper published in 2015 in IEEE Transactions on Audio, Speech, and Language Processing, titleled 'A Regression Approach to Speech Enhancement Based on Deep Neural Networks' and written by Chin-Hui Lee, Young Xu, Jun Du y Li-Rong Dai.
Python has been used on the realization of this work; to be more precise, the libraries Thenao and Blocks. Thenao is one of the best and more used, around the world, tools in machine learning problems. Because of its complexity, it has been decided to use Blocks as well. This library works on a higher level than Theano and helps in the manipulation of the tools.
There are two databases that have been used as main, TIMIT as voice database and HU as noise database, either train and test; however, other databases like ALBAYZIN, in voice, and NOISEX, in noise, have been used as well in test trials. Noise databases have been only used in the noise addition process for train and test. This process has been possible thanks to the FANT tool by AURORA, a software that allows users to add noise to a voice signal with a particular Signal to Noise Ratio (SNR).
For the evaluation process, it has been used the standard of objective estimation of the subjective quality PESQ, by the ITU-T. The objective using this tool is to enhance the results thrown by it on the audio signals, extracted from the DNN, compared with the same result based on the original noisy voice signals
Files in this item
Google Scholar:Lamas Álvarez, Carlos
This item appears in the following Collection(s)
Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/
Related items
Showing items related by title, author, creator and subject.
-
Detección de palabras clave en voz mediante ejemplos empleando redes neuronales profundas
Quintela Gironás, Juan Carlos
2019-06 -
Reconocimiento de escenas exteriores mediante redes neuronales profundas entrenadas con la base de datos places
Vicente Moñivar, Santiago
2019-09