Detección de voz y música en un corpus a gran escala de eventos de audio
Author
Benito Gorrón, Diego deAdvisor
González Rodríguez, JoaquínEntity
UAM. Departamento de Tecnología Electrónica y de las ComunicacionesDate
2018-06Subjects
Aprendizaje automático; Deep learning; Redes neuronales; TelecomunicacionesNote
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las ComunicacionesEsta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Abstract
El reconocimiento de eventos acústicos es la capacidad para extraer información
de un suceso a partir de los sonidos producidos por el mismo. El desarrollo
de esta habilidad, básica en el sistema auditivo humano, en la inteligencia
computacional es un problema que se está abordando mediante la investigación
en modelos de aprendizaje automático (machine learning) como las redes neuronales.
En este Trabajo Fin de Máster se estudia la aplicación de diferentes arquitecturas
de redes neuronales a la detección de eventos de voz y de música
sobre un conjunto de 77.396 segmentos de audio de 10 segundos (216 horas)
obtenidos de la base de datos Google AudioSet. Estos segmentos pertenecen a
fragmentos de vídeos de la plataforma YouTube.
Se proponen y comparan dos enfoques distintos para el problema: uno de ellos
es el entrenamiento de dos redes neuronales separadas, una para detección de
presencia de voz y otra para detección de presencia de música, y el otro consiste
en el entrenamiento de una red neuronal conjunta que se enfrente simultáneamente
a ambas tareas. Entre las arquitecturas estudiadas se encuentran las
redes fully-connected, las redes convolucionales y las redes LSTM (Long
Short-Term Memory).
A lo largo del trabajo se describe la organización de la base de datos, la
construcción de los conjuntos de datos empleados y el diseño de los modelos
propuestos. Además, se proveen resultados comparativos de las distintas
configuraciones evaluadas, tanto en rendimiento como en complejidad de los
modelos. Acoustic event recognition is the ability to extract information about
ocurrences from the sounds produced by them. Such is a basic skill for the human
auditory system, but its development in computational intelligence is currently
an active research field involving machine learning models such as neural
networks.
This Master’s Thesis aims to study the implementation of several neural
network architectures to speech and music event recognition over a collection
of 77,936 ten seconds audio segments (216 hours), obtained from the Google
AudioSet dataset. These segments belong to YouTube videos.
Two different approaches are proposed and compared: one of them is training
two separated neural networks for speech event detection and music
event detection, while the other one consists on training a joint neural network
to tackle both tasks at the same time. Among the studied architectures,
fully-connected networks, convolutional networks and LSTM (Long Short-
Term Memory) are included.
Along this report, the organization of the dataset, the selection of the
used segments and the design of the proposed models are described. Additionally,
comparative results of the evaluated settings are provided in terms of
performance and model complexity.
Files in this item
Google Scholar:Benito Gorrón, Diego de
This item appears in the following Collection(s)
Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/
Related items
Showing items related by title, author, creator and subject.
-
Modelos de atención en redes neuronales profundas para detección de eventos de audio
Segovia Fernández, Guillermo
2020-06