Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/79584
Título
Estudio de librerías de detección de posturas sobre dispositivos móviles
Director o Tutor
Año del Documento
2025
Titulación
Máster en Inteligencia de Negocio y Big Data en Entornos Seguros / Business Intelligence and Big Data in Cyber-Secure Environments
Abstract
Este trabajo presenta un estudio comparativo de diversos modelos de visión artificial
preentrenados en estimación de posturas humanas integrables en dispositivos móviles. Existen
numerosos modelos de estimación de posturas con características muy heterogéneas y
documentaciones dispares según sus desarrolladores, por lo que la aportación principal de este
trabajo radica en ofrecer una evaluación homogénea de su funcionamiento. El objetivo es
facilitar la elección del más adecuado de ellos para su posterior incorporación en el desarrollo
de una futura aplicación para la asistencia a ejercicios de tele-rehabilitación en domicilio que
permita guiar al usuario en estos ejercicios y registrar información relevante para el seguimiento
clínico, sin necesidad de sensores adicionales ni conexión a internet para el proceso de
realización de los ejercicios.
Para garantizar un análisis homogéneo, se eligió un subconjunto de imágenes filtrado
del conjunto de datos COCO, compuesto por 316 imágenes que contienen una única persona
con al menos 15 keypoints (puntos clave) anotados sobre el cual se han evaluado diferentes
versiones de tres familias de modelos: MoveNet, BlazePose y YOLOv8-Pose, desde dos
perspectivas:
- Precisión en la detección de puntos clave para identificación de posturas: exactitud
de los modelos al predecir las posturas, medida mediante la métrica AP (Average
Precision). Se ha utilizado con la finalidad de poder validar resultados del modelo
así como para evaluar la idoneidad de las imágenes seleccionadas.
- Rendimiento: tiempo medio de inferencia por imagen sobre un dispositivo móvil
Android en condiciones reales. Se ha utilizado para medir el rendimiento de cada
modelo (tiempo de ejecución de cada inferencia de cada imagen) en diferentes
dispositivos con el fin de poder evaluar la velocidad con la que cada modelo efectúa
la estimación.
Los resultados muestran diferencias significativas entre modelos en cuanto a la relación
precisión-tiempo, destacando las variantes de la subfamilia Thunder de MoveNet y la versión
Nano de YOLOv8-Pose por su equilibrio entre rendimiento y exactitud.
Este estudio aporta una visión clara y práctica sobre la aplicabilidad de distintos
enfoques de estimación de postura en entornos móviles, sirviendo como referencia para
desarrolladores e investigadores interesados en sistemas embebidos de visión por computador. This paper presents a comparative study of various pre-trained computer vision models
for human pose estimation that can be integrated into mobile devices. There are numerous pose
estimation models with highly heterogeneous characteristics and uneven documentation
provided by their developers, so the main contribution of this work lies in offering a
homogeneous evaluation of their performance. The aim is to facilitate the selection of the most
suitable model for subsequent incorporation into the development of a future application for
assisting with home telerehabilitation exercises that will guide the user through these exercises
and record relevant information for clinical follow-up, without the need for additional sensors
or an internet connection during the exercise process.
To ensure a homogeneous analysis, a filtered subset of images from the COCO dataset
was selected. This subset consists of 316 images containing a single person with at least 15
annotated keypoints. Different versions of three model families, MoveNet, BlazePose, and
YOLOv8-Pose, were evaluated from two perspectives:
- Keypoint detection accuracy for pose identification: the accuracy of the models in
predicting poses, measured using the Average Precision (AP) metric. It was used to
validate model results and to evaluate the suitability of the selected images.
- Performance: average inference time per image on an Android mobile device under
real-world conditions. It was used to measure the performance of each model
(inference execution time for each image) on different devices to evaluate the speed
with which each model performs the estimation.
The results show significant differences between models in terms of accuracy-time ratio,
with the Thunder subfamily of MoveNet and the Nano version of YOLOv8-Pose standing out
for their balance between performance and accuracy.
This study provides a clear and practical insight into the applicability of different pose
estimation approaches in mobile environments, serving as a reference for developers and
researchers interested in embedded computer vision systems.
Palabras Clave
Visión artificial
Android
Análisis de eficiencia
Tele-rehabilitación
Departamento
Departamento de Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)
Idioma
spa
Derechos
openAccess
Aparece en las colecciones
- Trabajos Fin de Máster UVa [7566]
Files in questo item
La licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional









