Show simple item record

dc.contributor.advisorMorales Moreno, Aythami es_ES
dc.contributor.authorRomero del Campo, Alejandroes_ES
dc.contributor.otherUAM. Departamento de Tecnología Electrónica y de las Comunicacioneses_ES
dc.date.accessioned2021-09-10T18:09:34Zen_US
dc.date.available2021-09-10T18:09:34Zen_US
dc.date.issued2021-06en_US
dc.identifier.urihttp://hdl.handle.net/10486/697488en_US
dc.descriptionMáster Universitario en Ingeniería de Telecomunicaciónes_ES
dc.description.abstractEl objetivo principal de este trabajo de fin de máster es la predicción e identificación de patrones en la conducta humana, mediante la aplicación de algoritmos de aprendizaje por refuerzo. Para ello se ha desarrollado un agente capaz de aprender en base a un entorno artificialmente generado, en el cual, este agente, se basa en las características visuales de rostros humanos para encontrar estos patrones. Una vez se han encontrado estos patrones, el objetivo del agente es aprovecharlos para, en un juego de decisión en el que se enfrenta a la persona de cuya imagen dispone, obtener el mayor beneficio posible a largo plazo. Este agente, mediante un algoritmo de aprendizaje por refuerzo denominado Q-Learning y redes neuronales, será capaz de desarrollar un proceso de aprendizaje a lo largo de las iteraciones. A su vez, se ha desarrollado un sistema de generación del entorno (la información a la que accede el agente para poder aprender) basado en imágenes. Estas imágenes son rostros de personas procedentes de una base de datos generada artificialmente, de cara a respetar la privacidad. Adicionalmente al agente y al entorno que le rodeará, se han desarrollado varios sistemas de recompensas que el agente tomará como referencia para poder aprender. Estos sistemas recompensarán al agente positivamente cuando realice determinadas acciones y negativamente al contrario. El sistema de recompensa final que se ha desarrollado corresponde a una similitud con el popular dilema del prisionero, en el cual dos personas son recompensadas positivamente a largo plazo si colaboran y negativamente si ambas deciden no hacerlo. Una vez se han desarrollado los elementos principales para ejecutar el algoritmo de aprendizaje por refuerzo, se realizará una serie de pruebas y experimentos para evaluar su rendimiento. En estas pruebas se modificarán características del agente, el sistema de recompensa o se modificará, artificialmente, el entorno para crear patrones de comportamiento y observar si un agente, con las suficientes iteraciones, es capaz de detectar estos patrones de conducta. Para cada prueba se describirá el contexto de la misma y se analizarán sus resultados individualmente. Finalmente, tras todas las pruebas realizadas, se enunciarán unas conclusiones globales y se describirá que trabajo futuro se podría realizar en base a la temática y resultados de este trabajo de fin de máster.es_ES
dc.format.extent56 pág.es_ES
dc.format.mimetypeapplication/pdfen_US
dc.language.isospaen_US
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.otherAprendizaje por refuerzoes_ES
dc.subject.otherAgentees_ES
dc.subject.otherEntornoes_ES
dc.titlePredicción de conducta humana a través de Aprendizaje por Refuerzo Profundoes_ES
dc.typemasterThesisen_US
dc.subject.ecienciaTelecomunicacioneses_ES
dc.rights.ccReconocimiento – NoComercial – SinObraDerivadaes_ES
dc.rights.accessRightsopenAccessen_US
dc.facultadUAMEscuela Politécnica Superior


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

https://creativecommons.org/licenses/by-nc-nd/4.0/
Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/