Predicción de conducta humana a través de Aprendizaje por Refuerzo Profundo
Author
Romero del Campo, AlejandroAdvisor
Morales Moreno, Aythami
Entity
UAM. Departamento de Tecnología Electrónica y de las ComunicacionesDate
2021-06Subjects
Aprendizaje por refuerzo; Agente; Entorno; Telecomunicaciones
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Abstract
El objetivo principal de este trabajo de fin de máster es la predicción e identificación de patrones en la conducta humana, mediante la aplicación de algoritmos de aprendizaje por refuerzo.
Para ello se ha desarrollado un agente capaz de aprender en base a un entorno artificialmente
generado, en el cual, este agente, se basa en las características visuales de rostros humanos para
encontrar estos patrones. Una vez se han encontrado estos patrones, el objetivo del agente es
aprovecharlos para, en un juego de decisión en el que se enfrenta a la persona de cuya imagen
dispone, obtener el mayor beneficio posible a largo plazo.
Este agente, mediante un algoritmo de aprendizaje por refuerzo denominado Q-Learning y
redes neuronales, será capaz de desarrollar un proceso de aprendizaje a lo largo de las iteraciones.
A su vez, se ha desarrollado un sistema de generación del entorno (la información a la
que accede el agente para poder aprender) basado en imágenes. Estas imágenes son rostros
de personas procedentes de una base de datos generada artificialmente, de cara a respetar la
privacidad.
Adicionalmente al agente y al entorno que le rodeará, se han desarrollado varios sistemas
de recompensas que el agente tomará como referencia para poder aprender. Estos sistemas
recompensarán al agente positivamente cuando realice determinadas acciones y negativamente
al contrario. El sistema de recompensa final que se ha desarrollado corresponde a una similitud
con el popular dilema del prisionero, en el cual dos personas son recompensadas positivamente
a largo plazo si colaboran y negativamente si ambas deciden no hacerlo.
Una vez se han desarrollado los elementos principales para ejecutar el algoritmo de aprendizaje por refuerzo, se realizará una serie de pruebas y experimentos para evaluar su rendimiento.
En estas pruebas se modificarán características del agente, el sistema de recompensa o se modificará, artificialmente, el entorno para crear patrones de comportamiento y observar si un agente,
con las suficientes iteraciones, es capaz de detectar estos patrones de conducta.
Para cada prueba se describirá el contexto de la misma y se analizarán sus resultados individualmente.
Finalmente, tras todas las pruebas realizadas, se enunciarán unas conclusiones globales y se
describirá que trabajo futuro se podría realizar en base a la temática y resultados de este trabajo
de fin de máster.
Files in this item
Google Scholar:Romero del Campo, Alejandro
This item appears in the following Collection(s)
Related items
Showing items related by title, author, creator and subject.
-
Aprendizaje por refuerzo profundo con OpenAI Gym
García Pascual, Mario
2021-06 -
Clasificación de flujos de tráfico en Internet utilizando técnicas de aprendizaje automático
Romero del Campo, Alejandro
2019-06 -
Entrenamiento de drones para la monitorización de incendios mediante aprendizaje por refuerzo
Cirugeda Pablos, Alejandro
2021-07