Diseño y desarrollo de una herramienta para la extracción semi-supervisada de la información de contexto
Author
García Jiménez, RaúlEntity
UAM. Departamento de Tecnología Electrónica y de las ComunicacionesDate
2016-07Subjects
Telecomunicaciones
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Abstract
Se ha desarrollado una herramienta de anotación de objetos de información contextual
para zonas exteriores (carreteras,árboles, mar, etc.) y para zonas interiores
(muebles, decoración, etc.). Las herramientas de anotación existentes están diseñadas
para facilitar el etiquetado de personas o vehículos que interaccionan en la escena,
pero no de los objetos con los que interaccionan. El diseño parte de una herramienta
base del estado del arte. El objetivo principal es el etiquetado de un objeto a lo largo
de un vídeo con la menor interacción posible del usuario pero manteniendo resultados
de utilidad (relativa a la de la herramienta base). Para ello se aprovecha que
los objetos contextuales varían poco en forma, color y posición durante el vídeo. En
particular, se busca que la anotación realizada por el usuario en el primer cuadro del
vídeo se propague a lo largo del vídeo. Además se diseñan e implementan estrategias
de interacción en situaciones donde nuevos objetos entren en la escena. Podemos
categorizar a la herramienta desarrollada como semi-supervisada.
El proceso comienza con la división de cada cuadro de la secuencia analizada en
regiones homogéneas en color. Para ello se ha integrado un segmentador en regiones
en la herramienta. En el primer cuadro (o cuando se activen los procesos de interacción)
el usuario debe agrupar las regiones así obtenidas en regiones de interés con
mayor entidad semántica (cercana a la definición de objetos) para adaptar el área
espacial agrupada al contorno de los objetos contextuales que se desean anotar. Posteriormente,
debe asignar una etiqueta de clase a cada región de interés agrupada.
Estas anotaciones, en particular las regiones de interés sobre las que aplican, se utilizan
como máscara en el siguiente cuadro para realizar la selección de regiones de
interés automáticamente sin la interacción del usuario. De la misma forma se propagan
las etiquetas de cada región de interés inicial a las regiones propagadas. La
anotación así obtenida se propaga al siguiente cuadro del vídeo mediante el mismo
procedimiento, y así sucesivamente. Siguiendo esta sencilla estrategia, la herramienta
diseñada tiene potencialmente la capacidad de reducir la interacción del usuario y a
la vez, gracias al proceso de segmentación en regiones, de adaptarse a los cambios
graduales de forma, apariencia y posición de los objetos contextuales anotados.
Se han realizado dos pruebas experimentales. La primera evalúa el número de
interacciones del usuario en el etiquetado de los objetos contextuales con cada una
de las dos herramientas. La segunda evalúa la calidad de las anotaciones propagadas
respecto a las anotadas por el usuario con la herramienta base. Los resultados de
ambas evaluaciones validan el diseño y desarrollo de la herramienta realizada. Adicionalmente,
se han realizado pruebas de experiencia subjetiva con usuarios. Para
ello, se ha desarrollado un manual de instrucciones para la herramienta desarrollada
y la herramienta base y un cuestionario para evaluar la experiencia de usuario. Las
respuestas de 10 usuarios a este cuestionario sugieren que la herramienta diseñada
facilita la anotación de los objetos contextuales en diferentes escenarios. A contextual annotation tool has been designed and developed. The tool is specially
focused on the annotations of contextual outdoor (e.g. roads, trees or sea) and
indoor areas (e.g. furniture or decoration, etc.). Existing tools are designed to ease
the annotation of objects of interest in video-analysis applications, e.g.. people or
cars, but do not considered the annotation of the contextual objects that surround
them.
Proposed design builds on an existing annotation tool, which we name base tool.
The base tool is modified in order to minimize the number of required user interactions
while maintaining the degree of usability of the annotations in similar terms
to those obtained via the base tool. To this aim, we take advantage of the intrinsic
characteristic of contextual objects: gradual and moderate temporal variation in
terms of appearance, shape and position. In general terms, the aim is to propagate an
initial user annotation in the first frame along the whole video. User-tool interaction
strategies are also included to cope with system failures and new object appearances.
These interaction strategies define the designed tool as a semi-supervised annotation
tool.
The process can be sketched as follows. First, each video frame is segmented in
color homogeneous areas via a state of the art region segmentation method. Then, in
the first frame and in every frame on which the interaction strategies are activated,
the user has to group these regions into regions of interest. These regions on interest
are entities of a higher semantic level (close to the object level). This process is
devoted to adapt the spatial area to the contours of a particular contextual object.
The so-obtained regions of interest are then user-labelled as members of a contextual
class. Obtained annotations are used to propagate the information on the next frame
by automatically grouping regions without the requirement of user interaction. The
so-obtained annotations are subsequently propagated to the next video frame and so
on until the end of the video. Through this naive strategy, the tool is potentially able
to drastically reduce the number of required user interactions. Furthermore, due to
the region-driven scheme, is also able to adapt the annotations to gradual changes of
shape, appearance and position of the annotated contextual objects.
In order to evaluate the goodness of the designed tool respect to the base tool,
two different evaluations have been performed. The first one measures the number
of user interactions required in the annotation of a set of sequences when using each
of the tools. The second evaluates the quality of the propagated annotations respect
to those obtained manually. Results of both experiments support the tool design
and development. Finally, the quality of the user subjective experience is evaluated
through a questionnaire. Responses of 10 users suggest that the designed tool ease
the annotation of contextual objects in different and varied scenarios.
Files in this item
Google Scholar:García Jiménez, Raúl
This item appears in the following Collection(s)
Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/
Related items
Showing items related by title, author, creator and subject.
-
Caracterización de hablantes mediante extracción de información de cualidad vocal
García Cantalapiedra, Adrián
2015-07