Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/79700
Título
Evaluación de múltiples arquitecturas de detección de la pose humana mediante aprendizaje profundo en aplicaciones de análisis cinemático respecto al uso de sensores inerciales
Autor
Director o Tutor
Año del Documento
2025
Titulación
Grado en Ingeniería de Tecnologías de Telecomunicación
Resumen
El análisis cuantitativo del movimiento humano es una herramienta fundamental en el
diagnóstico y la rehabilitación clínica, si bien los sistemas tradicionales de captura de movimiento
presentan limitaciones en cuanto a su coste, complejidad de uso y accesibilidad. Este Trabajo de
Fin de Grado aborda estas limitaciones desde una doble perspectiva, explorando el potencial del
aprendizaje profundo no sólo para la captura cinemática, sino también para aplicaciones médicas,
y, en específico, para la segmentación de la marcha mediante alternativas robustas y de bajo coste
fuera de laboratorios especializados.
La primera parte del trabajo se centra en la evaluación de cuatro arquitecturas para la
Estimación de la Pose Humana (HPE) en 3D a partir de vídeo monocular (MotionAGFormer,
MotionBERT, VideoPose3D y NVIDIA BodyTrack). Utilizando el dataset VIDIMU, se calcularon
los ángulos articulares de múltiples sujetos en diversas actividades cotidianas y se comparó el
rendimiento de cada modelo basado en vídeo frente a los datos de referencia obtenidos de sensores
inerciales (IMUs) mediante métricas de error y correlación estadística. Los resultados revelaron
que, a pesar de que ningún modelo es universalmente superior, MotionAGFormer ofreció el menor
RMSE (9.27° ± 4.80°) y la mayor correlación (0.67 ± 0.28) para el conjunto de datos evaluado.
Esto verificó la viabilidad de los sistemas visión como alternativa al hardware dedicado para el
análisis cinemático en entornos no controlados, destacando los compromisos entre precisión,
tiempo de inferencia y eficiencia computacional.
La segunda parte se enfoca en el desarrollo de un modelo de deep learning para la
segmentación de las fases de la marcha. Para ello, se estimaron las señales de velocidad angular a
partir de los cuaterniones de los IMUs y se detectaron los eventos clave (heel strike, toe off).
Posteriormente, se desarrolló una interfaz gráfica de usuario (GUI) para supervisar el etiquetado
de los datos. Finalmente, se entrenó y optimizó una red BiLSTM para clasificar las fases de la
marcha a partir de secuencias de ángulos articulares de la rodilla obtenidos mediante IMUs y
modelos HPE. El modelo entrenado demostró una capacidad de segmentación prometedora, con
F1-Score y accuracy superior a 80% para los datos de los sensores inerciales y superior al 70%
para los de vídeo, validando la hipótesis de que es posible aprender patrones temporales complejos
a partir de ciclos de marcha. Quantitative human movement analysis is a fundamental tool in clinical diagnosis and
rehabilitation, although traditional motion capture systems present limitations regarding cost,
complexity, and accessibility. This thesis addresses these limitations from a dual perspective,
exploring the potential of deep learning not only for kinematic capture but also for medical
applications, specifically for gait segmentation using robust and low-cost alternatives outside
specialized laboratories.
The first part of the work focus on evaluating four state-of-the-art architectures for 3D
Human Pose Estimation (HPE) from monocular video (MotionAGFormer, MotionBERT,
VideoPose3D, and NVIDIA BodyTrack). Using the VIDIMU dataset, the joint angles of multiple
subjects across various daily activities were calculated, and the performance of each video-based
model was compared against reference data from inertial measurement units (IMUs) using error
and statistical correlation metrics. The results revealed that, although no single model was
universally superior, MotionAGFormer offered the lowest RMSE (9.27° ± 4.80°) and the highest
correlation (0.67 ± 0.28) for the evaluated dataset. This verified the viability of vision-based
systems as an alternative to dedicated hardware for kinematic analysis in uncontrolled
environments, highlighting the trade-offs between accuracy, inference time, and computational
efficiency.
The second part consists of developing a deep learning model for gait phase segmentation.
To this end, angular velocity signals were estimated from IMU quaternions to detect key gait events
(heel strike, toe off). Subsequently, a graphical user interface (GUI) was developed to supervise
the data labeling. Finally, a BiLSTM network was trained and optimized to classify gait phases
from sequences of knee joint angles obtained using IMUs and HPE models. The trained model
demonstrated promising segmentation capabilities, with an F1-Score and accuracy greater than
80% for inertial sensor data and greater than 70% for video data, validating the hypothesis that it
is possible to learn complex temporal patterns from gait cycles.
Palabras Clave
Aprendizaje profundo
Análisis cinemático
Segmentación de la marcha
Departamento
Departamento de Teoría de la Señal y Comunicaciones e Ingeniería Telemática
Idioma
spa
Derechos
openAccess
Aparece en las colecciones
- Trabajos Fin de Grado UVa [32822]
Ficheros en el ítem
La licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional









