Aprendizaje por refuerzo profundo con OpenAI Gym
Author
García Pascual, MarioAdvisor
Lago Fernández, Luis FernandoEntity
UAM. Departamento de Ingeniería InformáticaDate
2021-06Subjects
Aprendizaje por refuerzo profundo; Aprendizaje por refuerzo; Aprendizaje automático; InformáticaEsta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Abstract
El Aprendizaje por refuerzo profundo (DRL) surge de la inserción de métodos de Aprendizaje profundo (DL) en los algoritmos de Aprendizaje por refuerzo (RL). A pesar de los hitos logrados en este campo durante los últimos años, sigue ocupando un estatus de nicho en el panorama del Aprendizaje automático (ML), y apenas se ha nombrado durante el grado. El objetivo de este trabajo es partir de un estudio del RL clásico para terminar haciendo un estudio detallado de los principales algoritmos de DRL. Luego, hacemos una comparativa del rendimiento de los algoritmos en entornos de OpenAI Gym. El primer algoritmo de DRL que estudiamos es Deep Q-Network (DQN), que logra fusionar por primera vez RL y DL con éxito. Luego, investigamos sus tres extensiones más conocidas: Double Deep Q-Network (DDQN), Dueling Network y Prioritized Experience Replay (PER). Finalmente, introducimos una familia distinta de algoritmos con el estudio de Advantage Actor-Critic (A2C), que trata de resolver el mismo problema con un enfoque diferente. La comparativa la hacemos en cuatro entornos clásicos de OpenAI Gym y usando la librería Stable Baselines. Concluimos que, en los entornos sencillos que probamos, no se percibe la diferencia entre DQNysus extensiones. Por último, comprobamos que las mejoras que introdujo DQN son relevantes, desactivándolas y viendo que no logra aprender.
Files in this item
Google Scholar:García Pascual, Mario
This item appears in the following Collection(s)
Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/
Related items
Showing items related by title, author, creator and subject.
-
Predicción de conducta humana a través de Aprendizaje por Refuerzo Profundo
Romero del Campo, Alejandro
2021-06 -
Algoritmos de aprendizaje profundo para procesamiento de video en dispositivos Xilin Zynq UltraScale+ de bajo coste
Gil Martínez, Mario
2021-06 -
Hermenéutica de la pregunta pedagógica: Aprendizaje mediado por la práctica de la libertad desde la perspectiva de Freire
Rillo, Arturo G.; Pimentel Ramírez, Maria Luisa; Arceo Guzmán, Mario Enrique; Jaimes García, Javier
2015