RT info:eu-repo/semantics/bachelorThesis
T1 Fundamentos matemáticos del aprendizaje por refuerzo
A1 García Madrid, Manuel
A2 Universidad de Valladolid. Facultad de Ciencias
K1 Aprendizaje por refuerzo
K1 Proceso de decisión de Markov
K1 Ecuaciones de Bellman
AB Este trabajo presenta los fundamentos matemáticos del aprendizaje porrefuerzo, trabajando previamente el problema del bandido multibrazo. El enfoque principal es el estudio de los procesos de decisión de Markov y de sucontrol estocástico. Se introducen las ecuaciones de Bellman y su optimización en MDPs, lo que permite el desarrollo de métodos tabulares como laiteración de valor y la iteración de política. Además, se comprueba su convergencia y se incluyen implementaciones prácticas de algoritmos en problemasdiscretos. Estos conceptos proporcionan una base teórica sólida para la planificación y el control en entornos de decisión secuenciales.
YR 2025
FD 2025
LK https://uvadoc.uva.es/handle/10324/78471
UL https://uvadoc.uva.es/handle/10324/78471
LA spa
NO Departamento de Estadística e Investigación Operativa
DS UVaDOC
RD 02-abr-2026