dc.description.abstract | El objetivo principal de este trabajo de fin de máster es la predicción e identificación de patrones en la conducta humana, mediante la aplicación de algoritmos de aprendizaje por refuerzo.
Para ello se ha desarrollado un agente capaz de aprender en base a un entorno artificialmente
generado, en el cual, este agente, se basa en las características visuales de rostros humanos para
encontrar estos patrones. Una vez se han encontrado estos patrones, el objetivo del agente es
aprovecharlos para, en un juego de decisión en el que se enfrenta a la persona de cuya imagen
dispone, obtener el mayor beneficio posible a largo plazo.
Este agente, mediante un algoritmo de aprendizaje por refuerzo denominado Q-Learning y
redes neuronales, será capaz de desarrollar un proceso de aprendizaje a lo largo de las iteraciones.
A su vez, se ha desarrollado un sistema de generación del entorno (la información a la
que accede el agente para poder aprender) basado en imágenes. Estas imágenes son rostros
de personas procedentes de una base de datos generada artificialmente, de cara a respetar la
privacidad.
Adicionalmente al agente y al entorno que le rodeará, se han desarrollado varios sistemas
de recompensas que el agente tomará como referencia para poder aprender. Estos sistemas
recompensarán al agente positivamente cuando realice determinadas acciones y negativamente
al contrario. El sistema de recompensa final que se ha desarrollado corresponde a una similitud
con el popular dilema del prisionero, en el cual dos personas son recompensadas positivamente
a largo plazo si colaboran y negativamente si ambas deciden no hacerlo.
Una vez se han desarrollado los elementos principales para ejecutar el algoritmo de aprendizaje por refuerzo, se realizará una serie de pruebas y experimentos para evaluar su rendimiento.
En estas pruebas se modificarán características del agente, el sistema de recompensa o se modificará, artificialmente, el entorno para crear patrones de comportamiento y observar si un agente,
con las suficientes iteraciones, es capaz de detectar estos patrones de conducta.
Para cada prueba se describirá el contexto de la misma y se analizarán sus resultados individualmente.
Finalmente, tras todas las pruebas realizadas, se enunciarán unas conclusiones globales y se
describirá que trabajo futuro se podría realizar en base a la temática y resultados de este trabajo
de fin de máster. | es_ES |