Abstract:
La navegación a través de entornos no estructurados es una capacidad básica de las criaturas inteligentes, y por lo tanto, es de interés fundamental en el estudio y desarrollo de la inteligencia artificial. La capacidad para automatizarlo, pudiendo navegar sin el uso de mapas, sólo con imágenes a través de entornos urbanos está siendo objetivo de incipientes trabajos. Los sistemas de navegación automática se basan en sistemas entrenados con imágenes del entorno urbano, de la ciudad. La segregación de elementos fijos y móviles puede ser útil para conseguir mejorar el proceso de entrenamiento de estos sistemas, haciendo que su aprendizaje se base en la apariencia de elementos fijos, y no en elementos móviles que pueden distorsionar el proceso de aprendizaje, y por lo tanto, funcionamiento. En este contexto, la segmentación semántica de los objetos podría ayudar a la mejora del sistema de localización y guiado.
El objetivo del trabajo es desarrollar un marco de trabajo para segmentación semántica en bases de datos de imágenes urbanas. Aprovechando la disponibilidad de Google Street View, se utiliza como base de datos para la implementación del trabajo por su cobertura mundial y contenido fotográfico, mostrando imágenes de distintas localizaciones con distintas características de cámara como, por ejemplo, el campo de visión (fov), el ángulo de toma de la imagen, tanto horizontal (heading) como vertical (pitch), etc. Esto hace que de una sola localización se pueda abarcar los 360º con imágenes, mostrando diferentes puntos de vista de la localización. Como hay disponibilidad de información 360º, en este marco de trabajo se incluye la reproyección de máscaras semánticas en la esfera para agregar la información redundante de los diferentes puntos de vista. Ante esto, surge la siguiente hipótesis, ¿la utilización de los diferentes puntos de vista podría ayudar a mejorar la segmentación semántica que se obtiene de un solo punto de vista? Para evaluar y responder a esto se establece un marco de evaluación de diferentes algoritmos de reproyección y agregación. Los métodos de agregación que se proponen son sencillos.
Este trabajo recoge un conjunto de conclusiones preliminares sobre un conjunto limitado de datos, mostrando que en la mayoría de casos los resultados obtenidos por los métodos de agregación sencillos implementados no superan los obtenidos por segmentación directa.