Reconocimiento de eventos acústicos mediante el uso de deep learning

Lamas Álvarez, Carlos

UAM_Biblioteca

Author

Lamas Álvarez, Carlos

Advisor

Toledano, Doroteo T.

Entity

UAM. Departamento de Tecnología Electrónica y de las Comunicaciones

Date

2019-06

Subjects

Deep learning; DNN; LSTM; Telecomunicaciones

URI

http://hdl.handle.net/10486/688633

Note

Máster en Ingeniería de Telecomunicación

Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Abstract

En este Trabajo de Fin de Máster se ha implementado un sistema capaz de tomar un audio cualquiera y detectar eventos en él, dando como resultado la supuesta fuente que lo origina. Para ello se han empleado las técnicas de deep learning conocidas como redes neuronales. Más en profundidad, se han explorado los rendimientos de los tres estilos fundamentales de estas: las DNN, las LSTM y las CNN. La inspiración para este proyecto surge de estudios previos publicados. Algunos de ellos hechos en la Universidad Autónoma de Madrid, como: “Exploring convolutional, recurrent, and hybrid deep neural networks for speech and music detection in a large audio dataset”, escrito por Diego de Benito Gorrón, Alicia Lozano Díez, Doroteo Torre Toledano y Joaquín Gonzalez- Rodriguez, y “Audio event detection on Google’s Audio Set database: Preliminary results using different types of DNNs”, escrito por Javier Darna Sequeiros y Doroteo Torre Toledano. Para poder implementar todo lo necesario a nivel técnico, ha sido necesaria la utilización de los lenguajes de programación Bash y Python. De este último se han utilizado principalmente las librerías: TensorFlow, que implementa lo necesario para generar redes neuronales, y Keras, que actúa por encima de la anterior y facilita enormemente su uso. Se ha usado también Numpy para tratamiento de datos, principalmente de matrices. El material necesario para entrenar y probar el sistema ha sido la base de datos AUDIOSET. Esta es una base de gran tamaño, con más de 2 millones de segmentos de audio. Es fácilmente accesible y es gratuita. Google la ofrece a los interesados a través de descargas directas desde la plataforma de Youtube. También es importante destacar el sistema implementado en el paper “CNN architectures for large-scale audio classification”, el cual ha sido adaptado para servir como medio para transformar cualquier audio de entrada que se quiera en un matriz de embeddings, el formato de entrada del clasificador entrenado en este trabajo. Finalmente, para la evaluación de este proyecto se ha utilizado la medida de rendimiento mAP. Esta es la utilizada para este tipo de trabajos y la que la propia Google, entre otros, usa para sus publicaciones con la base da datos AUDIOSET. Consiste en calcular el rendimiento de los aciertos por clase, de entre las que tenga el clasificador implementado, y, posteriormente, hacer la media global de esos valores; con esto se conseguirá un valor entre 0 y 1, siendo 1 el mejor resultado posible.

Show full item record