Recomendación basada en procesos de decisión de Markov

Pertejo Mangas, Adrián

UAM_Biblioteca

Author

Pertejo Mangas, Adrián

Advisor

Castells Azpilicueta, Pablo

Entity

UAM. Departamento de Ingeniería Informática

Date

2020-06

Subjects

Recuperación de Información; Sistemas de Recomendación; Aprendizaje por Refuerzo; Informática

URI

http://hdl.handle.net/10486/695027

Note

Trabajo Fin de Máster en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones

Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Abstract

En los últimos años, el campo del Aprendizaje por Refuerzo (Reinforcement Learning) ha adquirido una relevancia notoria en múltiples áreas de estudio. Mediante la propuesta de un paradigma de aprendizaje interactivo, busca modelar la idea del aprendizaje natural que tiene un ser vivo en relación con su entorno. En la literatura, se ha empezado a trabajar en la integración de este nuevo área con problemas clásicos de Machine Learning, y entre ellos, la recomendación no es una excepción. Durante este trabajo, se ha realizado un estudio del campo del Reinforcement Learning, con la intención de comprender cómo funcionan estos algoritmos, y poder proponer un sistema de recomendación basado en él. A partir de este estudio, se transita al desarrollo de un sistema basado en Deep Q-Learning, uno de los algoritmos más prometedores del campo, que utiliza una red neuronal como aproximador para estimar la función de valor. Además, usando factorización de matrices, extraemos las características latentes de usuarios y objetos, y las usamos para modelar los estados del agente, guiándonos por propuestas ya presentadas en la literatura. Una vez desarrollado el sistema, realizamos experimentos con el objetivo de, primero, evaluar la efectividad de diferentes estrategias de Deep Q-Learning, utilizando un conjunto de datos que representa un arranque en frío, donde hay pocos datos de entrenamiento. Por último, comparamos el rendimiento de la estrategia más interesante del paso anterior, con otros algoritmos clásicos de recomendación, basados en filtrado colaborativo: vecinos próximos, factorización de matrices, etc.

Show full item record