Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/63132
Título
Técnicas avanzadas de aprendizaje profundo para la detección y análisis de tos en pacientes respiratorios
Autor
Director o Tutor
Año del Documento
2023
Titulación
Máster en Ingeniería de Telecomunicación
Resumen
Antecedentes: La tos es un mecanismo de defensa y expulsión del aparato respiratorio que provoca una respuesta
refleja y sonora. En la actualidad, el análisis de la tos como marcador sintomático del avance de una enfermedad
se apoya en instrumentos poco adecuados para el seguimiento en escenarios de la vida real. Algunos solo se han
evaluado en ambientes silenciosos y controlados, otros se diseñaron para resolver un problema más general que la
detección de la tos o se enfocan en una población muy concreta. Asimismo, algunos enfoques no se han concebido
con la eficiencia requerida para operar en un smartphone. Por estos motivos, los métodos de análisis de audio
empleados en estos dispositivos no son capaces de manejar ambientes ruidosos, como el caso de un paciente que
use su smartphone en el bolsillo como dispositivo de captura de datos.
Objetivo: Este Trabajo de Fin de Máster (TFM) tiene como propósito emplear técnicas de aprendizaje profundo
(Deep Learning) para diseñar un sistema de “audición máquina” (Machine Hearing) que procese espectrogramas
de señales acústicas y los clasifique de acuerdo a su contenido. Específicamente, se pretende reconocer los espectrogramas
que contienen tos y los que no, y además clasificar cada tos a partir de sus propiedades espectrales según
la enfermedad respiratorias asociada a la tos o el tipo de tos.
Métodos: Para llevar a cabo el proyecto, adquirimos 36866 señales de audio contaminadas por ruido de 20
pacientes respiratorios con distintas afecciones. La mitad de estas señales correspondieron a episodios de tos,
mientras que la otra mitad no contenía ningún sonido de tos. Estas señales de audio se someten a un preprocesamiento
en tres etapas. Primero, las señales de audio originales (señales de tos y no tos) se segmentan para que
cada segmento dure un segundo. En segundo lugar, se transforman las señales 1D temporales en imágenes (señales
2D) mediante tres métodos. Los dos primeros métodos transforman cada clip de audio, que son señales de tiempo
(1D), en señales de tiempo-frecuencia (imágenes 2D) realizando un espectrograma logarítmico o un espectrograma
de mel. El tercer método aplica a los audios la técnica de ventanas deslizadas cambiando la forma del vector y
transformándolo en una matriz. Posteriormente, los datos se normalizan para poder alimentar a una red neuronal
recurrente convolucional (C-LSTM). La red neuronal convolucional (Convolutional Neural Network, CNN) extrae
características de los espectrogramas de audio automáticamente para identificar “patrones” espectrales o temporales.
Luego, se alimenta a una red neuronal recurrente de memoria a corto plazo (Long Short-Term Memory, LSTM),
que predice el frame actual haciendo referencia a los frames adyacentes. De esta manera, primero detecta si el clip
de audio contiene tos o no, y en caso afirmativo, procedemos a realizar un análisis posterior con el objetivo de
detectar el tipo de tos o la enfermedad subyacente.
Resultados: El sistema de audiodetección de tos que obtuvo una especificidad mas alta presenta sensibilidad
del 86,23% y una especificidad del 93,90 %. Por otro lado, el método de clasificación de tos que obtuvo la mayor
exactitud fue el que discriminó entre tos de pacientes con COVID-19 y tos de pacientes que tiene síntomas pero
sin diagnóstico de COVID-19, que obtuvo un 58,21 %.
Conclusiones: Los resultados de este TFM abren la posibilidad de crear un dispositivo cómodo y no invasivo,
con una mínima interferencia en las actividades cotidianas, capaz de detectar con carácter temprano enfermedades
respiratorias, beneficiando a pacientes, profesionales sanitarios y sistemas nacionales de salud. Background: Coughing is a defense mechanism and expulsion mechanism of the respiratory system that causes
a reflexive and audible response. Currently, the analysis of cough as a symptomatic marker of disease progression
relies on instruments that are poorly suited for monitoring in real-life scenarios. Some have only been evaluated
in quiet and controlled environments, while others were designed to solve a problem more general than cough
detection or focus on a very specific population. Additionally, some approaches have not been conceived with the
required efficiency to operate on a smartphone. For these reasons, the audio analysis methods used in these devices
are not capable of handling noisy environments, such as the case of a patient using their smartphone in their pocket
as a data capture device.
Objective: The purpose of this Master’s Thesis is to employ deep learning techniques to design a “machine
hearing” system that processes spectrograms of acoustic signals and classifies them according to their content.
Specifically, the aim is to recognize spectrograms that contain coughing and those that do not, as well as classify
the disease associated with each cough based on their spectral properties.
Methods: To carry out the project, audio signals contaminated with noise from twenty patients with various
respiratory conditions were used, along with 18,433 audio signals recorded during cough episodes and 18,433
audio signals recorded during non-cough episodes. These audio signals undergo preprocessing in three stages.
First, the original audio signals (cough and non-cough signals) are segmented to have a duration of one second
each. Secondly, the temporal 1D signals are transformed into images (2D signals) using three methods. The first
two methods transform each audio, which are time-domain signals, into time-frequency signals by performing a
logarithmic spectrogram or a mel spectrogram. The third method applies sliding windows to the audios, changing
the vector shape and transforming it into a matrix. Subsequently, the data is normalized to feed into a Convolutional
Long Short-Term Memory (C-LSTM) neural network. The Convolutional Neural Network (CNN) automatically
extracts features from the audio spectrograms to identify spectral or temporal “patterns”. Finally, the processed
data is fed into a Long Short-Term Memory (LSTM) recurrent neural network, which predicts the current frame
by referencing adjacent frames. In this way, it first detects if the audio contains a cough or not, and if it does, it
proceeds to diagnose the respiratory disease.
Results: The audio detection system for coughs that achieved the highest specificity had a sensitivity of 86.23%
and a specificity of 93.90 %. On the other hand, the cough classification method with the highest accuracy was the
one that discriminated between coughs from COVID-19 patients and coughs from patients with symptoms but
without a COVID-19 diagnosis, which achieved 58.21 %.
Conclusions: The results of this Master’s Thesis open up the possibility of creating a comfortable and noninvasive
device with minimal interference in daily activities, capable of early detecting respiratory diseases, benefiting
patients, healthcare professionals, and national health systems.
Palabras Clave
Deep Learning
Tos
Detector
Departamento
Departamento de Teoría de la Señal y Comunicaciones e Ingeniería Telemática
Idioma
spa
Derechos
openAccess
Aparece en las colecciones
- Trabajos Fin de Máster UVa [6579]
Ficheros en el ítem
La licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional