Modelos de atención en redes neuronales profundas para detección de eventos de audio

Segovia Fernández, Guillermo

UAM_Biblioteca

dc.contributor.advisor	Toledano, Doroteo T.
dc.contributor.author	Segovia Fernández, Guillermo
dc.contributor.other	UAM. Tecnología Electrónica y de las Comunicaciones	es_ES
dc.date.accessioned	2021-02-05T09:45:39Z
dc.date.available	2021-02-05T09:45:39Z
dc.date.issued	2020-06
dc.identifier.uri	http://hdl.handle.net/10486/693279	en_US
dc.description.abstract	Este Trabajo de Fin de Grado trata de estudiar los posibles beneficios que se pueden obtener de la utilización de mecanismos de atención en los problemas de clasificación y detección de eventos de audio. Este problema trata sobre localizar los intervalos de la grabación donde ocurren los eventos de audio, además de clasificarlos en las distintas clases del problema. En concreto se quiere estudiar si es posible, a través de la información que se obtiene de los mecanismos de atención, localizar los eventos de audio dentro de una grabación sin haber entrenado la red neuronal con marcas temporales, es decir, entrenando la red con etiquetas a nivel de grabación. El trabajo se realizará dentro del marco de la evaluación Challenge 2020 Task 4 de DCASE, junto con el grupo de investigación de AUDIAS de la Universidad Autónoma de Madrid. Es por esto que el conjunto de datos utilizados tanto para el entrenamiento como para la evaluación de este trabajo son un subconjunto del proporcionado para este concurso. Además, el modelo de partida sobre el que se introducirán cambios para este trabajo pertenece a los ganadores de la convocatoria de 2019 de esta misma evaluación. El conjunto de datos utilizado tiene grabaciones con dos tipos de etiquetado. Por un lado, hay grabaciones etiquetadas a nivel de archivo, es decir, tan solo se dice que clases, o eventos de audio, se dan en la grabación. Por el otro lado, hay grabaciones etiquetadas con marcas temporales, es decir, además de decir las clases que se dan en la grabación, se indica el intervalo temporal en el que se dan. Con este objetivo en mente, se preparará un modelo típico de clasificación de audios sin localización de eventos. Este modelo sigue la línea del estado del arte al estar compuesto por un bloque convolucional seguido de uno recurrente. A este modelo se le añadirá, como una parte del mismo, un mecanismo de atención que más adelante será objeto de estudio. El objetivo es observar si, a través de un entrenamiento no dirigido a la localización temporal de eventos, la red neuronal y, en concreto, el mecanismo de atención, son capaces de obtener información sobre los intervalos en los que ocurren los eventos. Tras varias iteraciones sobre distintos modelos, el objetivo se acaba logrando. Una vez entrenada la red, se dispone el mecanismo de atención como capa de salida para analizarla. Se observa que, en los intervalos en los que en el espectrograma se marca la ocurrencia del evento del audio, también se da un aumento en el valor de salida del mecanismo de atención. A pesar de este logro, se encuentran algunas dificultades. Por ejemplo, el modelo de atención no es capaz de separar entre las distintas clases. Los distintos vectores de atención para cada una de las clases resaltan la ocurrencia del resto de clases, por lo que en una grabación donde se da más de una clase, no queda claro que activaciones hacen referencia a una clase y cual a la otra. Lo que sí queda claro es el potencial de estos mecanismos y del mundo de posibilidades que se presenta.	es_ES
dc.format.extent	47 p.	es_ES
dc.format.mimetype	application/pdf	en_US
dc.language.iso	spa	en_US
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.other	Detección de eventos de audio	es_ES
dc.subject.other	clasificación de eventos de audio	es_ES
dc.subject.other	mecanismos de atención en redes neuronales	es_ES
dc.title	Modelos de atención en redes neuronales profundas para detección de eventos de audio	es_ES
dc.type	bachelorThesis	en_US
dc.subject.eciencia	Telecomunicaciones	es_ES
dc.rights.cc	Reconocimiento – NoComercial – SinObraDerivada	es_ES
dc.rights.accessRights	openAccess	en_US
dc.facultadUAM	Escuela Politécnica Superior

Files in this item

Name:: segovia_fernandez_guillermo_tfg.pdf
Size:: 4.774Mb
Format:: PDF

This item appears in the following Collection(s)

Trabajos de estudiantes (tesis doctorales, TFMs, TFGs, etc.) [20060]

Show simple item record

Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/

UAM_Biblioteca

Modelos de atención en redes neuronales profundas para detección de eventos de audio

Files in this item

This item appears in the following Collection(s)

Related items

Redes neuronales profundas para reconocimiento de eventos acústicos ﻿

Detección de voz y música en un corpus a gran escala de eventos de audio ﻿

Detección de palabras clave en voz mediante ejemplos empleando redes neuronales profundas ﻿

Redes neuronales profundas para reconocimiento de eventos acústicos

Detección de voz y música en un corpus a gran escala de eventos de audio

Detección de palabras clave en voz mediante ejemplos empleando redes neuronales profundas