• español
  • English
  • français
  • Deutsch
  • português (Brasil)
  • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Parcourir

    Tout UVaDOCCommunautésPar date de publicationAuteursSujetsTitres

    Mon compte

    Ouvrir une session

    Statistiques

    Statistiques d'usage de visualisation

    Compartir

    Voir le document 
    •   Accueil de UVaDOC
    • PROJET DE FIN D'ÉTUDES
    • Trabajos Fin de Grado UVa
    • Voir le document
    •   Accueil de UVaDOC
    • PROJET DE FIN D'ÉTUDES
    • Trabajos Fin de Grado UVa
    • Voir le document
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano

    Exportar

    RISMendeleyRefworksZotero
    • edm
    • marc
    • xoai
    • qdc
    • ore
    • ese
    • dim
    • uketd_dc
    • oai_dc
    • etdms
    • rdf
    • mods
    • mets
    • didl
    • premis

    Citas

    Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/78471

    Título
    Fundamentos matemáticos del aprendizaje por refuerzo
    Autor
    García Madrid, Manuel
    Director o Tutor
    Barrio Tellado, Eustasio delAutoridad UVA
    Editor
    Universidad de Valladolid. Facultad de CienciasAutoridad UVA
    Año del Documento
    2025
    Titulación
    Grado en Matemáticas
    Résumé
    Este trabajo presenta los fundamentos matemáticos del aprendizaje por refuerzo, trabajando previamente el problema del bandido multibrazo. El enfoque principal es el estudio de los procesos de decisión de Markov y de su control estocástico. Se introducen las ecuaciones de Bellman y su optimización en MDPs, lo que permite el desarrollo de métodos tabulares como la iteración de valor y la iteración de política. Además, se comprueba su convergencia y se incluyen implementaciones prácticas de algoritmos en problemas discretos. Estos conceptos proporcionan una base teórica sólida para la planificación y el control en entornos de decisión secuenciales.
     
    This work presents the mathematical foundations of reinforcement learning, first addressing the multi-armed bandit problem. The main focus is the study of Markov decision processes and their stochastic control. Bellman equations and their optimization in MDPs are introduced, enabling the development of tabular methods such as value iteration and policy iteration. Additionally, their convergence is analyzed, and practical algorithm implementations are included for discrete problems. These concepts provide a solid theoretical foundation for planning and control in sequential decision-making environments.
    Palabras Clave
    Aprendizaje por refuerzo
    Proceso de decisión de Markov
    Ecuaciones de Bellman
    Departamento
    Departamento de Estadística e Investigación Operativa
    Idioma
    spa
    URI
    https://uvadoc.uva.es/handle/10324/78471
    Derechos
    openAccess
    Aparece en las colecciones
    • Trabajos Fin de Grado UVa [32321]
    Afficher la notice complète
    Fichier(s) constituant ce document
    Nombre:
    TFG-G7522.pdf
    Tamaño:
    582.9Ko
    Formato:
    Adobe PDF
    Thumbnail
    Voir/Ouvrir
    Attribution-NonCommercial-NoDerivatives 4.0 InternacionalExcepté là où spécifié autrement, la license de ce document est décrite en tant que Attribution-NonCommercial-NoDerivatives 4.0 Internacional

    Universidad de Valladolid

    Powered by MIT's. DSpace software, Version 5.10