• español
  • English
  • français
  • Deutsch
  • português (Brasil)
  • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Navegar

    Todo o repositórioComunidadesPor data do documentoAutoresAssuntosTítulos

    Minha conta

    Entrar

    Estatística

    Ver as estatísticas de uso

    Compartir

    Ver item 
    •   Página inicial
    • TRABALHO DE CONCLUSÃO DE ESTUDO
    • Trabajos Fin de Grado UVa
    • Ver item
    •   Página inicial
    • TRABALHO DE CONCLUSÃO DE ESTUDO
    • Trabajos Fin de Grado UVa
    • Ver item
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano

    Exportar

    RISMendeleyRefworksZotero
    • edm
    • marc
    • xoai
    • qdc
    • ore
    • ese
    • dim
    • uketd_dc
    • oai_dc
    • etdms
    • rdf
    • mods
    • mets
    • didl
    • premis

    Citas

    Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/79700

    Título
    Evaluación de múltiples arquitecturas de detección de la pose humana mediante aprendizaje profundo en aplicaciones de análisis cinemático respecto al uso de sensores inerciales
    Autor
    Medrano Paredes, Mario
    Director o Tutor
    Martínez Zarzuela, MarioAutoridad UVA
    Editor
    Universidad de Valladolid. Escuela Técnica Superior de Ingenieros de TelecomunicaciónAutoridad UVA
    Año del Documento
    2025
    Titulación
    Grado en Ingeniería de Tecnologías de Telecomunicación
    Resumo
    El análisis cuantitativo del movimiento humano es una herramienta fundamental en el diagnóstico y la rehabilitación clínica, si bien los sistemas tradicionales de captura de movimiento presentan limitaciones en cuanto a su coste, complejidad de uso y accesibilidad. Este Trabajo de Fin de Grado aborda estas limitaciones desde una doble perspectiva, explorando el potencial del aprendizaje profundo no sólo para la captura cinemática, sino también para aplicaciones médicas, y, en específico, para la segmentación de la marcha mediante alternativas robustas y de bajo coste fuera de laboratorios especializados. La primera parte del trabajo se centra en la evaluación de cuatro arquitecturas para la Estimación de la Pose Humana (HPE) en 3D a partir de vídeo monocular (MotionAGFormer, MotionBERT, VideoPose3D y NVIDIA BodyTrack). Utilizando el dataset VIDIMU, se calcularon los ángulos articulares de múltiples sujetos en diversas actividades cotidianas y se comparó el rendimiento de cada modelo basado en vídeo frente a los datos de referencia obtenidos de sensores inerciales (IMUs) mediante métricas de error y correlación estadística. Los resultados revelaron que, a pesar de que ningún modelo es universalmente superior, MotionAGFormer ofreció el menor RMSE (9.27° ± 4.80°) y la mayor correlación (0.67 ± 0.28) para el conjunto de datos evaluado. Esto verificó la viabilidad de los sistemas visión como alternativa al hardware dedicado para el análisis cinemático en entornos no controlados, destacando los compromisos entre precisión, tiempo de inferencia y eficiencia computacional. La segunda parte se enfoca en el desarrollo de un modelo de deep learning para la segmentación de las fases de la marcha. Para ello, se estimaron las señales de velocidad angular a partir de los cuaterniones de los IMUs y se detectaron los eventos clave (heel strike, toe off). Posteriormente, se desarrolló una interfaz gráfica de usuario (GUI) para supervisar el etiquetado de los datos. Finalmente, se entrenó y optimizó una red BiLSTM para clasificar las fases de la marcha a partir de secuencias de ángulos articulares de la rodilla obtenidos mediante IMUs y modelos HPE. El modelo entrenado demostró una capacidad de segmentación prometedora, con F1-Score y accuracy superior a 80% para los datos de los sensores inerciales y superior al 70% para los de vídeo, validando la hipótesis de que es posible aprender patrones temporales complejos a partir de ciclos de marcha.
     
    Quantitative human movement analysis is a fundamental tool in clinical diagnosis and rehabilitation, although traditional motion capture systems present limitations regarding cost, complexity, and accessibility. This thesis addresses these limitations from a dual perspective, exploring the potential of deep learning not only for kinematic capture but also for medical applications, specifically for gait segmentation using robust and low-cost alternatives outside specialized laboratories. The first part of the work focus on evaluating four state-of-the-art architectures for 3D Human Pose Estimation (HPE) from monocular video (MotionAGFormer, MotionBERT, VideoPose3D, and NVIDIA BodyTrack). Using the VIDIMU dataset, the joint angles of multiple subjects across various daily activities were calculated, and the performance of each video-based model was compared against reference data from inertial measurement units (IMUs) using error and statistical correlation metrics. The results revealed that, although no single model was universally superior, MotionAGFormer offered the lowest RMSE (9.27° ± 4.80°) and the highest correlation (0.67 ± 0.28) for the evaluated dataset. This verified the viability of vision-based systems as an alternative to dedicated hardware for kinematic analysis in uncontrolled environments, highlighting the trade-offs between accuracy, inference time, and computational efficiency. The second part consists of developing a deep learning model for gait phase segmentation. To this end, angular velocity signals were estimated from IMU quaternions to detect key gait events (heel strike, toe off). Subsequently, a graphical user interface (GUI) was developed to supervise the data labeling. Finally, a BiLSTM network was trained and optimized to classify gait phases from sequences of knee joint angles obtained using IMUs and HPE models. The trained model demonstrated promising segmentation capabilities, with an F1-Score and accuracy greater than 80% for inertial sensor data and greater than 70% for video data, validating the hypothesis that it is possible to learn complex temporal patterns from gait cycles.
    Palabras Clave
    Aprendizaje profundo
    Análisis cinemático
    Segmentación de la marcha
    Departamento
    Departamento de Teoría de la Señal y Comunicaciones e Ingeniería Telemática
    Idioma
    spa
    URI
    https://uvadoc.uva.es/handle/10324/79700
    Derechos
    openAccess
    Aparece en las colecciones
    • Trabajos Fin de Grado UVa [32834]
    Mostrar registro completo
    Arquivos deste item
    Nombre:
    TFG-G7731.pdf
    Tamaño:
    33.03Mb
    Formato:
    Adobe PDF
    Thumbnail
    Visualizar/Abrir
    Attribution-NonCommercial-NoDerivatives 4.0 InternacionalExceto quando indicado o contrário, a licença deste item é descrito como Attribution-NonCommercial-NoDerivatives 4.0 Internacional

    Universidad de Valladolid

    Powered by MIT's. DSpace software, Version 5.10