Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/79223
Título
Estudio comparativo de clasificación de imágenes médicas, usando técnicas de Inteligencia Artificial basadas en Transformers, frente a Redes Convolucionales
Autor
Director o Tutor
Año del Documento
2025
Titulación
Grado en Ingeniería Informática
Resumen
La aplicación de modelos de Aprendizaje Automático en el ámbito de la Medicina, ha
demostrado un gran potencial en tareas de diagnóstico y clasificación de imágenes. En este
Trabajo de Fin de Grado, se ha explorado el uso de arquitecturas Vision Transformer (ViT),
un enfoque relativamente reciente que ha mostrado resultados prometedores en Visión Artificial como alternativa a las tradicionales Redes Neuronales Convolucionales (CNN).
El objetivo principal ha sido desarrollar e implementar un sistema de clasificación de
imágenes médicas basado en ViT, evaluando su rendimiento sobre tres conjuntos de datos
distintos: radiografías de tórax, resonancias magnéticas cerebrales (MRI) y tomografías de
coherencia óptica (OCT). Para ello, se han desarrollado desde cero diversas variantes de
modelos ViT, incorporando diferentes técnicas. Cada uno de estos modelos cuenta con mapas
de explicabilidad a través de ViT-ReciproCAM.
En cuanto a los resultados, se ha observado una mejora notable respecto a modelos previos
en uno de los tres conjuntos de datos. Sin embargo, en los otros dos conjuntos, no se han
obtenido resultados superiores a los logrados con enfoques basados en CNN, principalmente
debido a las dificultades de generalización que presentan los ViT en situaciones de muestras
limitadas. Machine Learning applied to Medicine has shown great potential in diagnosis and image
classification tasks. In this Double Degree Thesis has been explored the use of Vision Transformer (ViT) architectures, a relatively recent approach that has demonstrated promising
results in Computer Vision as an alternative to traditional Convolutional Neural Networks
(CNNs).
The main goal of this work has been to develop and implement a medical image classification system based on ViT, evaluating its performance on three different datasets: chest
X-rays, brain magnetic resonance imaging (MRI) and optical coherence tomography scans
(OCT). To do that, several ViT model variants have been developed from scratch. Each of
these models includes explainability maps using ViT-ReciproCAM.
Regarding the results, a significant improvement was observed in just one of the related
datasets. However, for the other ones, the results are not bigger than those achieved with
CNN-based approaches. It is mainly because ViT models with an insufficient number of
samples present serious limitations due to a reduced power of generalization in practice.
Palabras Clave
Aprendizaje profundo
Vision Transformer
Clasificación de imágenes médicas (CXR, MRI, OCT)
ViT-ReciproCAM
Departamento
Departamento de Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)
Idioma
spa
Derechos
openAccess
Aparece en las colecciones
- Trabajos Fin de Grado UVa [33164]
Ficheros en el ítem
La licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional









