Show simple item record

dc.contributor.advisorToledano, Doroteo T.
dc.contributor.authorLamas Álvarez, Carlos
dc.contributor.otherUAM. Departamento de Tecnología Electrónica y de las Comunicacioneses_ES
dc.date.accessioned2019-09-18T15:13:19Z
dc.date.available2019-09-18T15:13:19Z
dc.date.issued2019-06
dc.identifier.urihttp://hdl.handle.net/10486/688633en_US
dc.descriptionMáster en Ingeniería de Telecomunicaciónes_ES
dc.description.abstractEn este Trabajo de Fin de Máster se ha implementado un sistema capaz de tomar un audio cualquiera y detectar eventos en él, dando como resultado la supuesta fuente que lo origina. Para ello se han empleado las técnicas de deep learning conocidas como redes neuronales. Más en profundidad, se han explorado los rendimientos de los tres estilos fundamentales de estas: las DNN, las LSTM y las CNN. La inspiración para este proyecto surge de estudios previos publicados. Algunos de ellos hechos en la Universidad Autónoma de Madrid, como: “Exploring convolutional, recurrent, and hybrid deep neural networks for speech and music detection in a large audio dataset”, escrito por Diego de Benito Gorrón, Alicia Lozano Díez, Doroteo Torre Toledano y Joaquín Gonzalez- Rodriguez, y “Audio event detection on Google’s Audio Set database: Preliminary results using different types of DNNs”, escrito por Javier Darna Sequeiros y Doroteo Torre Toledano. Para poder implementar todo lo necesario a nivel técnico, ha sido necesaria la utilización de los lenguajes de programación Bash y Python. De este último se han utilizado principalmente las librerías: TensorFlow, que implementa lo necesario para generar redes neuronales, y Keras, que actúa por encima de la anterior y facilita enormemente su uso. Se ha usado también Numpy para tratamiento de datos, principalmente de matrices. El material necesario para entrenar y probar el sistema ha sido la base de datos AUDIOSET. Esta es una base de gran tamaño, con más de 2 millones de segmentos de audio. Es fácilmente accesible y es gratuita. Google la ofrece a los interesados a través de descargas directas desde la plataforma de Youtube. También es importante destacar el sistema implementado en el paper “CNN architectures for large-scale audio classification”, el cual ha sido adaptado para servir como medio para transformar cualquier audio de entrada que se quiera en un matriz de embeddings, el formato de entrada del clasificador entrenado en este trabajo. Finalmente, para la evaluación de este proyecto se ha utilizado la medida de rendimiento mAP. Esta es la utilizada para este tipo de trabajos y la que la propia Google, entre otros, usa para sus publicaciones con la base da datos AUDIOSET. Consiste en calcular el rendimiento de los aciertos por clase, de entre las que tenga el clasificador implementado, y, posteriormente, hacer la media global de esos valores; con esto se conseguirá un valor entre 0 y 1, siendo 1 el mejor resultado posible.es_ES
dc.format.extent50 pág.es_ES
dc.format.mimetypeapplication/pdfen_US
dc.language.isospaes_ES
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.otherDeep learningen_US
dc.subject.otherDNNen_US
dc.subject.otherLSTMen_US
dc.titleReconocimiento de eventos acústicos mediante el uso de deep learninges_ES
dc.typemasterThesisen_US
dc.subject.ecienciaTelecomunicacioneses_ES
dc.rights.ccReconocimiento – NoComercial – SinObraDerivadaes_ES
dc.rights.accessRightsopenAccessen_US
dc.facultadUAMEscuela Politécnica Superior


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

https://creativecommons.org/licenses/by-nc-nd/4.0/
Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/