dc.contributor.advisor | Barrio Tellado, Eustasio del | es |
dc.contributor.author | García Madrid, Manuel | |
dc.contributor.editor | Universidad de Valladolid. Facultad de Ciencias | es |
dc.date.accessioned | 2025-10-08T15:21:55Z | |
dc.date.available | 2025-10-08T15:21:55Z | |
dc.date.issued | 2025 | |
dc.identifier.uri | https://uvadoc.uva.es/handle/10324/78471 | |
dc.description.abstract | Este trabajo presenta los fundamentos matemáticos del aprendizaje por
refuerzo, trabajando previamente el problema del bandido multibrazo. El enfoque principal es el estudio de los procesos de decisión de Markov y de su
control estocástico. Se introducen las ecuaciones de Bellman y su optimización en MDPs, lo que permite el desarrollo de métodos tabulares como la
iteración de valor y la iteración de política. Además, se comprueba su convergencia y se incluyen implementaciones prácticas de algoritmos en problemas
discretos. Estos conceptos proporcionan una base teórica sólida para la planificación y el control en entornos de decisión secuenciales. | es |
dc.description.abstract | This work presents the mathematical foundations of reinforcement learning, first addressing the multi-armed bandit problem. The main focus is
the study of Markov decision processes and their stochastic control. Bellman
equations and their optimization in MDPs are introduced, enabling the development of tabular methods such as value iteration and policy iteration.
Additionally, their convergence is analyzed, and practical algorithm implementations are included for discrete problems. These concepts provide a solid
theoretical foundation for planning and control in sequential decision-making
environments. | es |
dc.description.sponsorship | Departamento de Estadística e Investigación Operativa | es |
dc.format.mimetype | application/pdf | es |
dc.language.iso | spa | es |
dc.rights.accessRights | info:eu-repo/semantics/openAccess | es |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject.classification | Aprendizaje por refuerzo | es |
dc.subject.classification | Proceso de decisión de Markov | es |
dc.subject.classification | Ecuaciones de Bellman | es |
dc.title | Fundamentos matemáticos del aprendizaje por refuerzo | es |
dc.type | info:eu-repo/semantics/bachelorThesis | es |
dc.description.degree | Grado en Matemáticas | es |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 Internacional | * |