Mejora del rendimiento de redes convolucionales entrenadas para el reconocimiento de escena mediante el uso de información sobre los objetos comunes a éstas
Author
García Jiménez, RaúlEntity
UAM. Departamento de Tecnología Electrónica y de las ComunicacionesDate
2018-06Subjects
Reconocimiento de escena; Redes convolucionales; Segmentación semántica; TelecomunicacionesNote
Máster Universitario en Ingeniería de TelecomunicaciónEsta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Abstract
Este trabajo estudia el rendimiento de esquemas basados en redes convolucionales
en la tarea de reconocimiento automático de escenas. Comienza con un breve estudio
cualitativo de cinco de las arquitecturas más utilizadas. Posteriormente se evalúa
cuantitativamente el rendimiento de estas arquitecturas en la tarea de reconocimiento
de escena, particularizando en la dependencia con la categoría y la arquitectura.
Asimismo, se evalúan las salidas de las redes ante imágenes que representan categorías
de escena no entrenadas, así como se explora la robustez de las soluciones analizadas
a la existencia de ruido en la imagen de entrada.
Los resultados de este estudio cuantitativo motivan el diseño y desarrollo de un
esquema para mejorar el rendimiento de las redes sin tener que reentrenarlas ni ajustarlas.
Para ello, se esboza un mecanismo de refocalización de una de las redes
convolucionales estudiadas, que denominaremos red convolucional de escena. Este
esquema hace uso de una red neuronal complementaria que se entrena a partir de
descripciones de la escena basadas en los objetos presentes en ella. Para obtener estas
descripciones se hace uso de otra red convolucional que está diseñada y entrenada
para obtener la segmentación semántica—asignación de cada píxel a una clase de objeto—
de una imagen. Las anotaciones así obtenidas se ponderan por la focalización
de la red convolucional de escena, dando más relevancia en la descripción a las zonas
de la imagen con mayor impacto en la predicción.
Las predicciones de la red convolucional y la red neuronal de escena se comparan
en un esquema iterativo de consenso. En este esquema, la imagen se va modificando
gradualmente si las predicciones de ambas redes no coinciden, forzando a que la
red convolucional utilice distintas zonas de la imagen para realizar la predicción.
Los resultados preliminares en un subconjunto de la base de datos analizada son
prometedores, alcanzando mejoras relativas del 8,85 % respecto al rendimiento de la
red convolucional de escena. This work studies the performance of schemes based on convolutional networks
in the task of automatic scenes recognition. The work begins with a brief qualitative
study of five of the most used architectures. Subsequently, the performance of
these architectures is evaluated quantitatively in the task of scene recognition, particularizing
in the effect on the performance of the category and the nets architecture.
Likewise, the responses of the networks to images that represent untrained scene categories
are studied. Furthermore, the robustness of the analyzed solutions to image
noise is also evaluated.
The results of this quantitative study motivate the design and development of a
scheme to improve the performance of networks without having to retrain or adjust
them. For this purpose, a refocusing mechanism of one of the studied convolutional
networks is outlined. This scheme makes use of a complementary neural network
that is trained from descriptions of the scene based on the objects present in it. To
obtain these descriptions, another convolutional network that is designed and trained
to obtain the semantic segmentation of an image is used. This network provides
object-wise annotations of each image pixel. The annotations thereby obtained are
weighted by a focusing information of the scene convolutional network, giving more
relevance to the areas of the image with the greatest impact on prediction. The
predictions of the convolutional network and this scene neural network are compared
in an iterative consensus scheme. In this scheme, the image is gradually modified if
the predictions of both networks do not coincide, forcing the convolutional network
to rely on different areas of the image to predict the scene.
Preliminary results in a subset of the analyzed database are promising, reaching
relative improvements of 8.85% with respect to the performance of the scene convolutional
network.
Files in this item
Google Scholar:García Jiménez, Raúl
This item appears in the following Collection(s)
Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/
Related items
Showing items related by title, author, creator and subject.
-
Reconocimiento de escenas mediante integración multiescala de redes convolucionales
Collado Recio, Pablo
2021-06 -
Sistemas de Reconocimiento Facial basados en Redes Neuronales Convolucionales usando Información de Género y Raza
Simón Chico, Julia
2021-06 -
Segmentación objeto-fondo mediante redes convolucionales
Peña Almansa, Alejandro
2018-05