Show simple item record

dc.contributor.advisorBarrio Tellado, Eustasio del es
dc.contributor.authorGarcía Madrid, Manuel
dc.contributor.editorUniversidad de Valladolid. Facultad de Ciencias es
dc.date.accessioned2025-10-08T15:21:55Z
dc.date.available2025-10-08T15:21:55Z
dc.date.issued2025
dc.identifier.urihttps://uvadoc.uva.es/handle/10324/78471
dc.description.abstractEste trabajo presenta los fundamentos matemáticos del aprendizaje por refuerzo, trabajando previamente el problema del bandido multibrazo. El enfoque principal es el estudio de los procesos de decisión de Markov y de su control estocástico. Se introducen las ecuaciones de Bellman y su optimización en MDPs, lo que permite el desarrollo de métodos tabulares como la iteración de valor y la iteración de política. Además, se comprueba su convergencia y se incluyen implementaciones prácticas de algoritmos en problemas discretos. Estos conceptos proporcionan una base teórica sólida para la planificación y el control en entornos de decisión secuenciales.es
dc.description.abstractThis work presents the mathematical foundations of reinforcement learning, first addressing the multi-armed bandit problem. The main focus is the study of Markov decision processes and their stochastic control. Bellman equations and their optimization in MDPs are introduced, enabling the development of tabular methods such as value iteration and policy iteration. Additionally, their convergence is analyzed, and practical algorithm implementations are included for discrete problems. These concepts provide a solid theoretical foundation for planning and control in sequential decision-making environments.es
dc.description.sponsorshipDepartamento de Estadística e Investigación Operativaes
dc.format.mimetypeapplication/pdfes
dc.language.isospaes
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subject.classificationAprendizaje por refuerzoes
dc.subject.classificationProceso de decisión de Markoves
dc.subject.classificationEcuaciones de Bellmanes
dc.titleFundamentos matemáticos del aprendizaje por refuerzoes
dc.typeinfo:eu-repo/semantics/bachelorThesises
dc.description.degreeGrado en Matemáticases
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internacional*


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record