RT info:eu-repo/semantics/bachelorThesis T1 Fundamentos matemáticos del aprendizaje por refuerzo A1 García Madrid, Manuel A2 Universidad de Valladolid. Facultad de Ciencias K1 Aprendizaje por refuerzo K1 Proceso de decisión de Markov K1 Ecuaciones de Bellman AB Este trabajo presenta los fundamentos matemáticos del aprendizaje porrefuerzo, trabajando previamente el problema del bandido multibrazo. El enfoque principal es el estudio de los procesos de decisión de Markov y de sucontrol estocástico. Se introducen las ecuaciones de Bellman y su optimización en MDPs, lo que permite el desarrollo de métodos tabulares como laiteración de valor y la iteración de política. Además, se comprueba su convergencia y se incluyen implementaciones prácticas de algoritmos en problemasdiscretos. Estos conceptos proporcionan una base teórica sólida para la planificación y el control en entornos de decisión secuenciales. YR 2025 FD 2025 LK https://uvadoc.uva.es/handle/10324/78471 UL https://uvadoc.uva.es/handle/10324/78471 LA spa NO Departamento de Estadística e Investigación Operativa DS UVaDOC RD 22-oct-2025