Fundamentos matemáticos del aprendizaje por refuerzo

García Madrid, Manuel

Título

dc.contributor.advisor	Barrio Tellado, Eustasio del	es
dc.contributor.author	García Madrid, Manuel
dc.contributor.editor	Universidad de Valladolid. Facultad de Ciencias	es
dc.date.accessioned	2025-10-08T15:21:55Z
dc.date.available	2025-10-08T15:21:55Z
dc.date.issued	2025
dc.identifier.uri	https://uvadoc.uva.es/handle/10324/78471
dc.description.abstract	Este trabajo presenta los fundamentos matemáticos del aprendizaje por refuerzo, trabajando previamente el problema del bandido multibrazo. El enfoque principal es el estudio de los procesos de decisión de Markov y de su control estocástico. Se introducen las ecuaciones de Bellman y su optimización en MDPs, lo que permite el desarrollo de métodos tabulares como la iteración de valor y la iteración de política. Además, se comprueba su convergencia y se incluyen implementaciones prácticas de algoritmos en problemas discretos. Estos conceptos proporcionan una base teórica sólida para la planificación y el control en entornos de decisión secuenciales.	es
dc.description.abstract	This work presents the mathematical foundations of reinforcement learning, first addressing the multi-armed bandit problem. The main focus is the study of Markov decision processes and their stochastic control. Bellman equations and their optimization in MDPs are introduced, enabling the development of tabular methods such as value iteration and policy iteration. Additionally, their convergence is analyzed, and practical algorithm implementations are included for discrete problems. These concepts provide a solid theoretical foundation for planning and control in sequential decision-making environments.	es
dc.description.sponsorship	Departamento de Estadística e Investigación Operativa	es
dc.format.mimetype	application/pdf	es
dc.language.iso	spa	es
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject.classification	Aprendizaje por refuerzo	es
dc.subject.classification	Proceso de decisión de Markov	es
dc.subject.classification	Ecuaciones de Bellman	es
dc.title	Fundamentos matemáticos del aprendizaje por refuerzo	es
dc.type	info:eu-repo/semantics/bachelorThesis	es
dc.description.degree	Grado en Matemáticas	es
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*

Fichier(s) constituant ce document

Nom:: TFG-G7522.pdf
Taille:: 582.9Ko
Format:: PDF

Voir/Ouvrir

Ce document figure dans la(les) collection(s) suivante(s)

Trabajos Fin de Grado UVa [33142]

Afficher la notice abrégée

Excepté là où spécifié autrement, la license de ce document est décrite en tant que Attribution-NonCommercial-NoDerivatives 4.0 Internacional