Detección de voz y música en un corpus a gran escala de eventos de audio

El reconocimiento de eventos acústicos es la capacidad para extraer información de un suceso a partir de los sonidos producidos por el mismo. El desarrollo de esta habilidad, básica en el sistema auditivo humano, en la inteligencia computacional es un problema que se está abordando mediante la investigación en modelos de aprendizaje automático (machine learning) como las redes neuronales. En este Trabajo Fin de Máster se estudia la aplicación de diferentes arquitecturas de redes neuronales a la detección de eventos de voz y de música sobre un conjunto de 77.396 segmentos de audio de 10 segundos (216 horas) obtenidos de la base de datos Google AudioSet. Estos segmentos pertenecen a fragmentos de vídeos de la plataforma YouTube. Se proponen y comparan dos enfoques distintos para el problema: uno de ellos es el entrenamiento de dos redes neuronales separadas, una para detección de presencia de voz y otra para detección de presencia de música, y el otro consiste en el entrenamiento de una red neuronal conjunta que se enfrente simultáneamente a ambas tareas. Entre las arquitecturas estudiadas se encuentran las redes fully-connected, las redes convolucionales y las redes LSTM (Long Short-Term Memory). A lo largo del trabajo se describe la organización de la base de datos, la construcción de los conjuntos de datos empleados y el diseño de los modelos propuestos. Además, se proveen resultados comparativos de las distintas configuraciones evaluadas, tanto en rendimiento como en complejidad de los modelos.

Acoustic event recognition is the ability to extract information about ocurrences from the sounds produced by them. Such is a basic skill for the human auditory system, but its development in computational intelligence is currently an active research field involving machine learning models such as neural networks. This Master’s Thesis aims to study the implementation of several neural network architectures to speech and music event recognition over a collection of 77,936 ten seconds audio segments (216 hours), obtained from the Google AudioSet dataset. These segments belong to YouTube videos. Two different approaches are proposed and compared: one of them is training two separated neural networks for speech event detection and music event detection, while the other one consists on training a joint neural network to tackle both tasks at the same time. Among the studied architectures, fully-connected networks, convolutional networks and LSTM (Long Short- Term Memory) are included. Along this report, the organization of the dataset, the selection of the used segments and the design of the proposed models are described. Additionally, comparative results of the evaluated settings are provided in terms of performance and model complexity.

Show full item record