Técnicas avanzadas de aprendizaje profundo para la detección y análisis de tos en pacientes respiratorios

Pérez Alonso, Diego Asay

Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/63132

Título

Técnicas avanzadas de aprendizaje profundo para la detección y análisis de tos en pacientes respiratorios

Autor

Pérez Alonso, Diego Asay

Director o Tutor

Casaseca de la Higuera, Juan Pablo

Editor

Universidad de Valladolid. Escuela Técnica Superior de Ingenieros de Telecomunicación

Año del Documento

2023

Titulación

Máster en Ingeniería de Telecomunicación

Abstract

Antecedentes: La tos es un mecanismo de defensa y expulsión del aparato respiratorio que provoca una respuesta refleja y sonora. En la actualidad, el análisis de la tos como marcador sintomático del avance de una enfermedad se apoya en instrumentos poco adecuados para el seguimiento en escenarios de la vida real. Algunos solo se han evaluado en ambientes silenciosos y controlados, otros se diseñaron para resolver un problema más general que la detección de la tos o se enfocan en una población muy concreta. Asimismo, algunos enfoques no se han concebido con la eficiencia requerida para operar en un smartphone. Por estos motivos, los métodos de análisis de audio empleados en estos dispositivos no son capaces de manejar ambientes ruidosos, como el caso de un paciente que use su smartphone en el bolsillo como dispositivo de captura de datos. Objetivo: Este Trabajo de Fin de Máster (TFM) tiene como propósito emplear técnicas de aprendizaje profundo (Deep Learning) para diseñar un sistema de “audición máquina” (Machine Hearing) que procese espectrogramas de señales acústicas y los clasifique de acuerdo a su contenido. Específicamente, se pretende reconocer los espectrogramas que contienen tos y los que no, y además clasificar cada tos a partir de sus propiedades espectrales según la enfermedad respiratorias asociada a la tos o el tipo de tos. Métodos: Para llevar a cabo el proyecto, adquirimos 36866 señales de audio contaminadas por ruido de 20 pacientes respiratorios con distintas afecciones. La mitad de estas señales correspondieron a episodios de tos, mientras que la otra mitad no contenía ningún sonido de tos. Estas señales de audio se someten a un preprocesamiento en tres etapas. Primero, las señales de audio originales (señales de tos y no tos) se segmentan para que cada segmento dure un segundo. En segundo lugar, se transforman las señales 1D temporales en imágenes (señales 2D) mediante tres métodos. Los dos primeros métodos transforman cada clip de audio, que son señales de tiempo (1D), en señales de tiempo-frecuencia (imágenes 2D) realizando un espectrograma logarítmico o un espectrograma de mel. El tercer método aplica a los audios la técnica de ventanas deslizadas cambiando la forma del vector y transformándolo en una matriz. Posteriormente, los datos se normalizan para poder alimentar a una red neuronal recurrente convolucional (C-LSTM). La red neuronal convolucional (Convolutional Neural Network, CNN) extrae características de los espectrogramas de audio automáticamente para identificar “patrones” espectrales o temporales. Luego, se alimenta a una red neuronal recurrente de memoria a corto plazo (Long Short-Term Memory, LSTM), que predice el frame actual haciendo referencia a los frames adyacentes. De esta manera, primero detecta si el clip de audio contiene tos o no, y en caso afirmativo, procedemos a realizar un análisis posterior con el objetivo de detectar el tipo de tos o la enfermedad subyacente. Resultados: El sistema de audiodetección de tos que obtuvo una especificidad mas alta presenta sensibilidad del 86,23% y una especificidad del 93,90 %. Por otro lado, el método de clasificación de tos que obtuvo la mayor exactitud fue el que discriminó entre tos de pacientes con COVID-19 y tos de pacientes que tiene síntomas pero sin diagnóstico de COVID-19, que obtuvo un 58,21 %. Conclusiones: Los resultados de este TFM abren la posibilidad de crear un dispositivo cómodo y no invasivo, con una mínima interferencia en las actividades cotidianas, capaz de detectar con carácter temprano enfermedades respiratorias, beneficiando a pacientes, profesionales sanitarios y sistemas nacionales de salud.

Background: Coughing is a defense mechanism and expulsion mechanism of the respiratory system that causes a reflexive and audible response. Currently, the analysis of cough as a symptomatic marker of disease progression relies on instruments that are poorly suited for monitoring in real-life scenarios. Some have only been evaluated in quiet and controlled environments, while others were designed to solve a problem more general than cough detection or focus on a very specific population. Additionally, some approaches have not been conceived with the required efficiency to operate on a smartphone. For these reasons, the audio analysis methods used in these devices are not capable of handling noisy environments, such as the case of a patient using their smartphone in their pocket as a data capture device. Objective: The purpose of this Master’s Thesis is to employ deep learning techniques to design a “machine hearing” system that processes spectrograms of acoustic signals and classifies them according to their content. Specifically, the aim is to recognize spectrograms that contain coughing and those that do not, as well as classify the disease associated with each cough based on their spectral properties. Methods: To carry out the project, audio signals contaminated with noise from twenty patients with various respiratory conditions were used, along with 18,433 audio signals recorded during cough episodes and 18,433 audio signals recorded during non-cough episodes. These audio signals undergo preprocessing in three stages. First, the original audio signals (cough and non-cough signals) are segmented to have a duration of one second each. Secondly, the temporal 1D signals are transformed into images (2D signals) using three methods. The first two methods transform each audio, which are time-domain signals, into time-frequency signals by performing a logarithmic spectrogram or a mel spectrogram. The third method applies sliding windows to the audios, changing the vector shape and transforming it into a matrix. Subsequently, the data is normalized to feed into a Convolutional Long Short-Term Memory (C-LSTM) neural network. The Convolutional Neural Network (CNN) automatically extracts features from the audio spectrograms to identify spectral or temporal “patterns”. Finally, the processed data is fed into a Long Short-Term Memory (LSTM) recurrent neural network, which predicts the current frame by referencing adjacent frames. In this way, it first detects if the audio contains a cough or not, and if it does, it proceeds to diagnose the respiratory disease. Results: The audio detection system for coughs that achieved the highest specificity had a sensitivity of 86.23% and a specificity of 93.90 %. On the other hand, the cough classification method with the highest accuracy was the one that discriminated between coughs from COVID-19 patients and coughs from patients with symptoms but without a COVID-19 diagnosis, which achieved 58.21 %. Conclusions: The results of this Master’s Thesis open up the possibility of creating a comfortable and noninvasive device with minimal interference in daily activities, capable of early detecting respiratory diseases, benefiting patients, healthcare professionals, and national health systems.

Palabras Clave

Deep Learning

Tos

Detector

Departamento

Departamento de Teoría de la Señal y Comunicaciones e Ingeniería Telemática