Modelos de atención en redes neuronales profundas para detección de eventos de audio
Author
Segovia Fernández, GuillermoAdvisor
Toledano, Doroteo T.Entity
UAM. Tecnología Electrónica y de las ComunicacionesDate
2020-06Subjects
Detección de eventos de audio; clasificación de eventos de audio; mecanismos de atención en redes neuronales; TelecomunicacionesEsta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Abstract
Este Trabajo de Fin de Grado trata de estudiar los posibles beneficios que se pueden obtener
de la utilización de mecanismos de atención en los problemas de clasificación y detección
de eventos de audio. Este problema trata sobre localizar los intervalos de la grabación donde
ocurren los eventos de audio, además de clasificarlos en las distintas clases del problema.
En concreto se quiere estudiar si es posible, a través de la información que se obtiene de los
mecanismos de atención, localizar los eventos de audio dentro de una grabación sin haber
entrenado la red neuronal con marcas temporales, es decir, entrenando la red con etiquetas a
nivel de grabación.
El trabajo se realizará dentro del marco de la evaluación Challenge 2020 Task 4 de DCASE,
junto con el grupo de investigación de AUDIAS de la Universidad Autónoma de Madrid. Es
por esto que el conjunto de datos utilizados tanto para el entrenamiento como para la
evaluación de este trabajo son un subconjunto del proporcionado para este concurso.
Además, el modelo de partida sobre el que se introducirán cambios para este trabajo
pertenece a los ganadores de la convocatoria de 2019 de esta misma evaluación.
El conjunto de datos utilizado tiene grabaciones con dos tipos de etiquetado. Por un lado,
hay grabaciones etiquetadas a nivel de archivo, es decir, tan solo se dice que clases, o eventos
de audio, se dan en la grabación. Por el otro lado, hay grabaciones etiquetadas con marcas
temporales, es decir, además de decir las clases que se dan en la grabación, se indica el
intervalo temporal en el que se dan.
Con este objetivo en mente, se preparará un modelo típico de clasificación de audios sin
localización de eventos. Este modelo sigue la línea del estado del arte al estar compuesto por
un bloque convolucional seguido de uno recurrente. A este modelo se le añadirá, como una
parte del mismo, un mecanismo de atención que más adelante será objeto de estudio. El
objetivo es observar si, a través de un entrenamiento no dirigido a la localización temporal
de eventos, la red neuronal y, en concreto, el mecanismo de atención, son capaces de obtener
información sobre los intervalos en los que ocurren los eventos.
Tras varias iteraciones sobre distintos modelos, el objetivo se acaba logrando. Una vez
entrenada la red, se dispone el mecanismo de atención como capa de salida para analizarla.
Se observa que, en los intervalos en los que en el espectrograma se marca la ocurrencia del
evento del audio, también se da un aumento en el valor de salida del mecanismo de atención.
A pesar de este logro, se encuentran algunas dificultades. Por ejemplo, el modelo de atención
no es capaz de separar entre las distintas clases. Los distintos vectores de atención para cada
una de las clases resaltan la ocurrencia del resto de clases, por lo que en una grabación donde
se da más de una clase, no queda claro que activaciones hacen referencia a una clase y cual
a la otra. Lo que sí queda claro es el potencial de estos mecanismos y del mundo de
posibilidades que se presenta.
Files in this item
Google Scholar:Segovia Fernández, Guillermo
This item appears in the following Collection(s)
Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/
Related items
Showing items related by title, author, creator and subject.
-
Redes neuronales profundas para reconocimiento de eventos acústicos
Darna Sequeiros, Javier
2018-06 -
Detección de palabras clave en voz mediante ejemplos empleando redes neuronales profundas
Quintela Gironás, Juan Carlos
2019-06