Mejora del rendimiento de redes convolucionales entrenadas para el reconocimiento de escena mediante el uso de información sobre los objetos comunes a éstas

Este trabajo estudia el rendimiento de esquemas basados en redes convolucionales en la tarea de reconocimiento automático de escenas. Comienza con un breve estudio cualitativo de cinco de las arquitecturas más utilizadas. Posteriormente se evalúa cuantitativamente el rendimiento de estas arquitecturas en la tarea de reconocimiento de escena, particularizando en la dependencia con la categoría y la arquitectura. Asimismo, se evalúan las salidas de las redes ante imágenes que representan categorías de escena no entrenadas, así como se explora la robustez de las soluciones analizadas a la existencia de ruido en la imagen de entrada. Los resultados de este estudio cuantitativo motivan el diseño y desarrollo de un esquema para mejorar el rendimiento de las redes sin tener que reentrenarlas ni ajustarlas. Para ello, se esboza un mecanismo de refocalización de una de las redes convolucionales estudiadas, que denominaremos red convolucional de escena. Este esquema hace uso de una red neuronal complementaria que se entrena a partir de descripciones de la escena basadas en los objetos presentes en ella. Para obtener estas descripciones se hace uso de otra red convolucional que está diseñada y entrenada para obtener la segmentación semántica—asignación de cada píxel a una clase de objeto— de una imagen. Las anotaciones así obtenidas se ponderan por la focalización de la red convolucional de escena, dando más relevancia en la descripción a las zonas de la imagen con mayor impacto en la predicción. Las predicciones de la red convolucional y la red neuronal de escena se comparan en un esquema iterativo de consenso. En este esquema, la imagen se va modificando gradualmente si las predicciones de ambas redes no coinciden, forzando a que la red convolucional utilice distintas zonas de la imagen para realizar la predicción. Los resultados preliminares en un subconjunto de la base de datos analizada son prometedores, alcanzando mejoras relativas del 8,85 % respecto al rendimiento de la red convolucional de escena.

This work studies the performance of schemes based on convolutional networks in the task of automatic scenes recognition. The work begins with a brief qualitative study of five of the most used architectures. Subsequently, the performance of these architectures is evaluated quantitatively in the task of scene recognition, particularizing in the effect on the performance of the category and the nets architecture. Likewise, the responses of the networks to images that represent untrained scene categories are studied. Furthermore, the robustness of the analyzed solutions to image noise is also evaluated. The results of this quantitative study motivate the design and development of a scheme to improve the performance of networks without having to retrain or adjust them. For this purpose, a refocusing mechanism of one of the studied convolutional networks is outlined. This scheme makes use of a complementary neural network that is trained from descriptions of the scene based on the objects present in it. To obtain these descriptions, another convolutional network that is designed and trained to obtain the semantic segmentation of an image is used. This network provides object-wise annotations of each image pixel. The annotations thereby obtained are weighted by a focusing information of the scene convolutional network, giving more relevance to the areas of the image with the greatest impact on prediction. The predictions of the convolutional network and this scene neural network are compared in an iterative consensus scheme. In this scheme, the image is gradually modified if the predictions of both networks do not coincide, forcing the convolutional network to rely on different areas of the image to predict the scene. Preliminary results in a subset of the analyzed database are promising, reaching relative improvements of 8.85% with respect to the performance of the scene convolutional network.

Show full item record

Files in this item

Name

garcia_jimenez_raul_tfm.pdf

Size

7.760Mb

Format

PDF

Google™ Scholar:García Jiménez, Raúl

This item appears in the following Collection(s)

Trabajos de estudiantes (tesis doctorales, TFMs, TFGs, etc.) [20060]

Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/

UAM_Biblioteca