Detección de palabras clave en voz mediante ejemplos empleando redes neuronales profundas

Actualmente nos vemos inmersos en un mundo donde los datos multimedia son cada vez más cuantiosos y frecuentes. Con el objetivo de extraer información y detectar palabras clave en ficheros de audio presentes en medios de comunicación e Internet, entre otras aplicaciones como la interacción con sistemas sin teclado o búsquedas para personas ciegas, surgen los sistemas QbE-STD (Query-by-Example Spoken Term Detecion). Estos sistemas tienen como objetivo, buscar un ejemplo de un objeto o parte de él en otro objeto, que aplicado a nuestro trabajo consiste, en el reconocimiento de palabras o secuencias de ellas en archivos de audio. En este Trabajo Fin de Grado se ha tomado como punto de partida el Trabajo Fin de Máster con el título de “Implementación y evaluación de un sistema QbE-STD (Query-by-Example Spoken Term Detection)” de María Cabello Aguilar con el fin de desarrollar un nuevo módulo, donde emplearemos redes neuronales profundas, que servirá para mejorar los resultados obtenidos en las últimas evaluaciones Albayzin 2016 y 2018 Search on Speech. Al igual que anteriormente nuestro sistema deberá realizar la correcta detección independiente del idioma de la entrada o query, basada en términos hablados. Llegando incluso a ser posible que un usuario realice una búsqueda en un repositorio de audio emitiendo con su voz el término a buscar. La técnica empleada para representar estos términos hablados ha sido la de posteriorgramas fonéticos. Estos posteriorgramas se han obtenido haciendo uso de los decodificadores fonéticos desarrollados por la Universidad de Tecnología de Brno (BUT), empleandose también el kit de herramientas de modelos ocultos de Markov oculto (HTK) para la correcta utilización de estos posteriorgramas. Para realizar la detección de los terminos hablados en los correspondientes repositorios de audio se ha empleado las ya mencionadas redes neuronales profundas. Previo a esto se realizó un exahustivo trabajo de tratamiento de la base de datos con el fin de poder adaptar el material disponible a este nuevo módulo. De esta manera conseguimos desarrollar un sistema que puede servir como punto de partida para futuras vías de trabajo del grupo AUDIAS. 1 Para el desarrollo de la solución y la realización de las pruebas se han utilizado los audios pertenecientes a las evaluaciones Albayzin 2016 y 2018 Search on Speech, mencionado anteriormente. Con la intención de obtener resultados que se puedan contrastar con otros sistemas publicados similares pudiendo llegar a ser competitivos y semejantes a los de otras implementaciones parecidas.

Mostrar el registro completo del ítem