Reconocimiento de eventos acústicos mediante el uso de deep learning

Lamas Álvarez, Carlos

UAM_Biblioteca

dc.contributor.advisor	Toledano, Doroteo T.
dc.contributor.author	Lamas Álvarez, Carlos
dc.contributor.other	UAM. Departamento de Tecnología Electrónica y de las Comunicaciones	es_ES
dc.date.accessioned	2019-09-18T15:13:19Z
dc.date.available	2019-09-18T15:13:19Z
dc.date.issued	2019-06
dc.identifier.uri	http://hdl.handle.net/10486/688633	en_US
dc.description	Máster en Ingeniería de Telecomunicación	es_ES
dc.description.abstract	En este Trabajo de Fin de Máster se ha implementado un sistema capaz de tomar un audio cualquiera y detectar eventos en él, dando como resultado la supuesta fuente que lo origina. Para ello se han empleado las técnicas de deep learning conocidas como redes neuronales. Más en profundidad, se han explorado los rendimientos de los tres estilos fundamentales de estas: las DNN, las LSTM y las CNN. La inspiración para este proyecto surge de estudios previos publicados. Algunos de ellos hechos en la Universidad Autónoma de Madrid, como: “Exploring convolutional, recurrent, and hybrid deep neural networks for speech and music detection in a large audio dataset”, escrito por Diego de Benito Gorrón, Alicia Lozano Díez, Doroteo Torre Toledano y Joaquín Gonzalez- Rodriguez, y “Audio event detection on Google’s Audio Set database: Preliminary results using different types of DNNs”, escrito por Javier Darna Sequeiros y Doroteo Torre Toledano. Para poder implementar todo lo necesario a nivel técnico, ha sido necesaria la utilización de los lenguajes de programación Bash y Python. De este último se han utilizado principalmente las librerías: TensorFlow, que implementa lo necesario para generar redes neuronales, y Keras, que actúa por encima de la anterior y facilita enormemente su uso. Se ha usado también Numpy para tratamiento de datos, principalmente de matrices. El material necesario para entrenar y probar el sistema ha sido la base de datos AUDIOSET. Esta es una base de gran tamaño, con más de 2 millones de segmentos de audio. Es fácilmente accesible y es gratuita. Google la ofrece a los interesados a través de descargas directas desde la plataforma de Youtube. También es importante destacar el sistema implementado en el paper “CNN architectures for large-scale audio classification”, el cual ha sido adaptado para servir como medio para transformar cualquier audio de entrada que se quiera en un matriz de embeddings, el formato de entrada del clasificador entrenado en este trabajo. Finalmente, para la evaluación de este proyecto se ha utilizado la medida de rendimiento mAP. Esta es la utilizada para este tipo de trabajos y la que la propia Google, entre otros, usa para sus publicaciones con la base da datos AUDIOSET. Consiste en calcular el rendimiento de los aciertos por clase, de entre las que tenga el clasificador implementado, y, posteriormente, hacer la media global de esos valores; con esto se conseguirá un valor entre 0 y 1, siendo 1 el mejor resultado posible.	es_ES
dc.format.extent	50 pág.	es_ES
dc.format.mimetype	application/pdf	en_US
dc.language.iso	spa	es_ES
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.other	Deep learning	en_US
dc.subject.other	DNN	en_US
dc.subject.other	LSTM	en_US
dc.title	Reconocimiento de eventos acústicos mediante el uso de deep learning	es_ES
dc.type	masterThesis	en_US
dc.subject.eciencia	Telecomunicaciones	es_ES
dc.rights.cc	Reconocimiento – NoComercial – SinObraDerivada	es_ES
dc.rights.accessRights	openAccess	en_US
dc.facultadUAM	Escuela Politécnica Superior

Files in this item

Name:: lamas_alvarez_carlos_tfm.pdf
Size:: 1.594Mb
Format:: PDF

This item appears in the following Collection(s)

Trabajos de estudiantes (tesis doctorales, TFMs, TFGs, etc.) [20060]

Show simple item record

Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/

UAM_Biblioteca

Reconocimiento de eventos acústicos mediante el uso de deep learning

Files in this item

This item appears in the following Collection(s)

Related items

Redes neuronales profundas para reconocimiento de eventos acústicos ﻿

Mejoras en el modelado acústico para reconocimiento de locutor dependiente de texto ﻿

T-Norm y desajuste léxico y acústico en reconocimiento de locutor dependiente de texto ﻿

Redes neuronales profundas para reconocimiento de eventos acústicos

Mejoras en el modelado acústico para reconocimiento de locutor dependiente de texto

T-Norm y desajuste léxico y acústico en reconocimiento de locutor dependiente de texto