Predicción de conducta humana a través de Aprendizaje por Refuerzo Profundo

Romero del Campo, Alejandro

UAM_Biblioteca

dc.contributor.advisor	Morales Moreno, Aythami	es_ES
dc.contributor.author	Romero del Campo, Alejandro	es_ES
dc.contributor.other	UAM. Departamento de Tecnología Electrónica y de las Comunicaciones	es_ES
dc.date.accessioned	2021-09-10T18:09:34Z	en_US
dc.date.available	2021-09-10T18:09:34Z	en_US
dc.date.issued	2021-06	en_US
dc.identifier.uri	http://hdl.handle.net/10486/697488	en_US
dc.description	Máster Universitario en Ingeniería de Telecomunicación	es_ES
dc.description.abstract	El objetivo principal de este trabajo de fin de máster es la predicción e identificación de patrones en la conducta humana, mediante la aplicación de algoritmos de aprendizaje por refuerzo. Para ello se ha desarrollado un agente capaz de aprender en base a un entorno artificialmente generado, en el cual, este agente, se basa en las características visuales de rostros humanos para encontrar estos patrones. Una vez se han encontrado estos patrones, el objetivo del agente es aprovecharlos para, en un juego de decisión en el que se enfrenta a la persona de cuya imagen dispone, obtener el mayor beneficio posible a largo plazo. Este agente, mediante un algoritmo de aprendizaje por refuerzo denominado Q-Learning y redes neuronales, será capaz de desarrollar un proceso de aprendizaje a lo largo de las iteraciones. A su vez, se ha desarrollado un sistema de generación del entorno (la información a la que accede el agente para poder aprender) basado en imágenes. Estas imágenes son rostros de personas procedentes de una base de datos generada artificialmente, de cara a respetar la privacidad. Adicionalmente al agente y al entorno que le rodeará, se han desarrollado varios sistemas de recompensas que el agente tomará como referencia para poder aprender. Estos sistemas recompensarán al agente positivamente cuando realice determinadas acciones y negativamente al contrario. El sistema de recompensa final que se ha desarrollado corresponde a una similitud con el popular dilema del prisionero, en el cual dos personas son recompensadas positivamente a largo plazo si colaboran y negativamente si ambas deciden no hacerlo. Una vez se han desarrollado los elementos principales para ejecutar el algoritmo de aprendizaje por refuerzo, se realizará una serie de pruebas y experimentos para evaluar su rendimiento. En estas pruebas se modificarán características del agente, el sistema de recompensa o se modificará, artificialmente, el entorno para crear patrones de comportamiento y observar si un agente, con las suficientes iteraciones, es capaz de detectar estos patrones de conducta. Para cada prueba se describirá el contexto de la misma y se analizarán sus resultados individualmente. Finalmente, tras todas las pruebas realizadas, se enunciarán unas conclusiones globales y se describirá que trabajo futuro se podría realizar en base a la temática y resultados de este trabajo de fin de máster.	es_ES
dc.format.extent	56 pág.	es_ES
dc.format.mimetype	application/pdf	en_US
dc.language.iso	spa	en_US
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.other	Aprendizaje por refuerzo	es_ES
dc.subject.other	Agente	es_ES
dc.subject.other	Entorno	es_ES
dc.title	Predicción de conducta humana a través de Aprendizaje por Refuerzo Profundo	es_ES
dc.type	masterThesis	en_US
dc.subject.eciencia	Telecomunicaciones	es_ES
dc.rights.cc	Reconocimiento – NoComercial – SinObraDerivada	es_ES
dc.rights.accessRights	openAccess	en_US
dc.facultadUAM	Escuela Politécnica Superior

Files in this item

Name:: romero_del_campo_alejandro_tfm.pdf
Size:: 3.702Mb
Format:: PDF

This item appears in the following Collection(s)

Trabajos de estudiantes (tesis doctorales, TFMs, TFGs, etc.) [20002]

Show simple item record

Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/

UAM_Biblioteca

Predicción de conducta humana a través de Aprendizaje por Refuerzo Profundo

Files in this item

This item appears in the following Collection(s)

Related items

Aprendizaje por refuerzo profundo con OpenAI Gym ﻿

Clasificación de flujos de tráfico en Internet utilizando técnicas de aprendizaje automático ﻿

Entrenamiento de drones para la monitorización de incendios mediante aprendizaje por refuerzo ﻿

Aprendizaje por refuerzo profundo con OpenAI Gym

Clasificación de flujos de tráfico en Internet utilizando técnicas de aprendizaje automático

Entrenamiento de drones para la monitorización de incendios mediante aprendizaje por refuerzo