Reconocimiento de eventos acústicos mediante el uso de deep learning
Author
Lamas Álvarez, CarlosAdvisor
Toledano, Doroteo T.Entity
UAM. Departamento de Tecnología Electrónica y de las ComunicacionesDate
2019-06Subjects
Deep learning; DNN; LSTM; TelecomunicacionesNote
Máster en Ingeniería de TelecomunicaciónEsta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Abstract
En este Trabajo de Fin de Máster se ha implementado un sistema capaz de tomar un audio
cualquiera y detectar eventos en él, dando como resultado la supuesta fuente que lo origina.
Para ello se han empleado las técnicas de deep learning conocidas como redes neuronales. Más
en profundidad, se han explorado los rendimientos de los tres estilos fundamentales de estas: las
DNN, las LSTM y las CNN.
La inspiración para este proyecto surge de estudios previos publicados. Algunos de ellos
hechos en la Universidad Autónoma de Madrid, como: “Exploring convolutional, recurrent, and
hybrid deep neural networks for speech and music detection in a large audio dataset”, escrito
por Diego de Benito Gorrón, Alicia Lozano Díez, Doroteo Torre Toledano y Joaquín Gonzalez-
Rodriguez, y “Audio event detection on Google’s Audio Set database: Preliminary results using
different types of DNNs”, escrito por Javier Darna Sequeiros y Doroteo Torre Toledano.
Para poder implementar todo lo necesario a nivel técnico, ha sido necesaria la utilización de
los lenguajes de programación Bash y Python. De este último se han utilizado principalmente
las librerías: TensorFlow, que implementa lo necesario para generar redes neuronales, y Keras,
que actúa por encima de la anterior y facilita enormemente su uso. Se ha usado también Numpy
para tratamiento de datos, principalmente de matrices.
El material necesario para entrenar y probar el sistema ha sido la base de datos AUDIOSET.
Esta es una base de gran tamaño, con más de 2 millones de segmentos de audio. Es fácilmente
accesible y es gratuita. Google la ofrece a los interesados a través de descargas directas desde la
plataforma de Youtube. También es importante destacar el sistema implementado en el paper
“CNN architectures for large-scale audio classification”, el cual ha sido adaptado para servir como
medio para transformar cualquier audio de entrada que se quiera en un matriz de embeddings,
el formato de entrada del clasificador entrenado en este trabajo.
Finalmente, para la evaluación de este proyecto se ha utilizado la medida de rendimiento
mAP. Esta es la utilizada para este tipo de trabajos y la que la propia Google, entre otros, usa
para sus publicaciones con la base da datos AUDIOSET. Consiste en calcular el rendimiento
de los aciertos por clase, de entre las que tenga el clasificador implementado, y, posteriormente,
hacer la media global de esos valores; con esto se conseguirá un valor entre 0 y 1, siendo 1 el
mejor resultado posible.
Files in this item
Google Scholar:Lamas Álvarez, Carlos
This item appears in the following Collection(s)
Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/
Related items
Showing items related by title, author, creator and subject.
-
Redes neuronales profundas para reconocimiento de eventos acústicos
Darna Sequeiros, Javier
2018-06 -
Mejoras en el modelado acústico para reconocimiento de locutor dependiente de texto
Hernández López, Daniel
2008