Modelos de atención en redes neuronales profundas para detección de eventos de audio

Este Trabajo de Fin de Grado trata de estudiar los posibles beneficios que se pueden obtener de la utilización de mecanismos de atención en los problemas de clasificación y detección de eventos de audio. Este problema trata sobre localizar los intervalos de la grabación donde ocurren los eventos de audio, además de clasificarlos en las distintas clases del problema. En concreto se quiere estudiar si es posible, a través de la información que se obtiene de los mecanismos de atención, localizar los eventos de audio dentro de una grabación sin haber entrenado la red neuronal con marcas temporales, es decir, entrenando la red con etiquetas a nivel de grabación. El trabajo se realizará dentro del marco de la evaluación Challenge 2020 Task 4 de DCASE, junto con el grupo de investigación de AUDIAS de la Universidad Autónoma de Madrid. Es por esto que el conjunto de datos utilizados tanto para el entrenamiento como para la evaluación de este trabajo son un subconjunto del proporcionado para este concurso. Además, el modelo de partida sobre el que se introducirán cambios para este trabajo pertenece a los ganadores de la convocatoria de 2019 de esta misma evaluación. El conjunto de datos utilizado tiene grabaciones con dos tipos de etiquetado. Por un lado, hay grabaciones etiquetadas a nivel de archivo, es decir, tan solo se dice que clases, o eventos de audio, se dan en la grabación. Por el otro lado, hay grabaciones etiquetadas con marcas temporales, es decir, además de decir las clases que se dan en la grabación, se indica el intervalo temporal en el que se dan. Con este objetivo en mente, se preparará un modelo típico de clasificación de audios sin localización de eventos. Este modelo sigue la línea del estado del arte al estar compuesto por un bloque convolucional seguido de uno recurrente. A este modelo se le añadirá, como una parte del mismo, un mecanismo de atención que más adelante será objeto de estudio. El objetivo es observar si, a través de un entrenamiento no dirigido a la localización temporal de eventos, la red neuronal y, en concreto, el mecanismo de atención, son capaces de obtener información sobre los intervalos en los que ocurren los eventos. Tras varias iteraciones sobre distintos modelos, el objetivo se acaba logrando. Una vez entrenada la red, se dispone el mecanismo de atención como capa de salida para analizarla. Se observa que, en los intervalos en los que en el espectrograma se marca la ocurrencia del evento del audio, también se da un aumento en el valor de salida del mecanismo de atención. A pesar de este logro, se encuentran algunas dificultades. Por ejemplo, el modelo de atención no es capaz de separar entre las distintas clases. Los distintos vectores de atención para cada una de las clases resaltan la ocurrencia del resto de clases, por lo que en una grabación donde se da más de una clase, no queda claro que activaciones hacen referencia a una clase y cual a la otra. Lo que sí queda claro es el potencial de estos mecanismos y del mundo de posibilidades que se presenta.

Show full item record