Adaptación de un sistema de detección de personas en cámaras omnidireccionales a descriptores Deep Learning
Author
García Crespo, NicolásEntity
UAM. Departamento de Tecnología Electrónica y de las ComunicacionesDate
2019-06Subjects
Redes neuronales convolucionales pre-entrenadas; descriptores deep learning; extracción de características; Telecomunicaciones
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Abstract
En el campo de la visión por ordenador, las redes neuronales convolucionales (CNN) destacan
en tareas de detección y clasificación de objetos debido a su capacidad de procesar información
de casi cualquier tipo de datos que puedan representarse en un espacio de dos dimensiones, como
las imágenes o incluso la música.
Este trabajo trata de mejorar la eficacia de un sistema de detección de personas en tiempo
real con cámaras omnidireccionales y su capacidad de generalización, gracias a las ventajas que
ofrecen las redes neuronales convolucionales pre-entrenadas frente a los descriptores de imagen
clásicos. Debido a que entrenar un red es un proceso lento y costoso, usamos una red preentrenada
porque ofrece buenos resultados y no existe la necesidad de ajustarla o re-entrenarla.
Por tanto, el objetivo es incorporar en el sistema la posibilidad de extraer descriptores de estas
redes.
El clasificador del sistema de detección de personas consiste en una malla de máquinas de
soporte vectorial (SVM) repartidas por toda la imagen, con un área de actuación llamada fóvea.
De esta manera, el clasificador es capaz de distinguir las diferentes distorsiones que se producen
en una imagen omnidireccional en función de la localización espacial de un objeto o, en este
caso, de una persona.
Los resultados finales se han obtenido extrayendo los descriptores desde alguna de las capas
de las CNN pre-entrenadas más populares, como AlexNet, Densenet201, MobileNetV2 y VGG19.
Estas redes han sido entrenadas con bases de datos de millones de imágenes y miles de clases,
como ImageNet, que hacen posible su uso en este tipo de aplicaciones. Por último, se analizarán
los resultados de cada una de las redes y capas y se medirá el rendimiento del sistema con estos
descriptores.
Files in this item
Google Scholar:García Crespo, Nicolás
This item appears in the following Collection(s)
Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/
Related items
Showing items related by title, author, creator and subject.
-
Estudio comparativo de descriptores visuales para la detección de escenas cuasi-duplicadas
Boullosa García, Óscar
2011 -
Adaptación automática de la detección de personas a la escena
Monedero Grifo, Aarón
2017-07