Análisis de datos y modelos de aprendizaje para monitorizar el consumo de agua en redes de abastecimiento usando tecnologías Big Data

Leguizamón Rojas, Gloria Ayde

Por favor, use este identificador para citar o enlazar este ítem:http://uvadoc.uva.es/handle/10324/33328

Título

Análisis de datos y modelos de aprendizaje para monitorizar el consumo de agua en redes de abastecimiento usando tecnologías Big Data

Autor

Leguizamón Rojas, Gloria Ayde

Director o Tutor

Bregón Bregón, Aníbal

Martínez Prieto, Miguel Angel

Editor

Universidad de Valladolid. Escuela de Ingeniería Informática de Valladolid

Año del Documento

2018

Titulación

Máster en Ingeniería Informática

Resumo

Todo sistema de abastecimiento de agua está integrado por una estructura compleja, en la que se llevan a cabo procesos de producción, transporte y distribución de agua, entre otros. Dichos procesos, tienen como fin satisfacer la demanda de los consumidores en tiempo real. Ello implica proporcionar continuamente a los usuarios agua de calidad en volúmenes adecuados a una presión razonable, asegurando así una distribución de agua confiable. Por tanto, el diseño de planes de mantenimiento y gestión, tanto para las condiciones actuales como las futuras demandas que afectan las presiones en la red de tuberías -en ciudades cada vez más diversas y aglomeradas-, así como la reducción de costes para las empresas, representa una parte capital dentro de la estrategia de gestión de toda red de suministro. Para enfrentar esta necesidad, la disponibilidad de datos es imprescindible. Así, las empresas abastecedoras de agua han implementado variadas estrategias para la recolección de los mismos casi en tiempo real, donde estos son obtenidos directamente desde los sensores. Antes de esta sustancial mejora, las lecturas disponibles solían ser mensuales o bimensuales y se recopilaban in situ, lo que dificultaba el análisis adecuado del comportamiento del cliente y la evaluación para ampliar el estado de la infraestructura y mejorar su calidad. Así, en este nuevo escenario, si bien el conocimiento de los datos mejora la capacidad de anticipación a los problemas, la acumulación de toda esa información, supera los límites de cualquier herramienta de análisis estadístico convencional. Por ello se abre, no sólo la posibilidad, sino la conveniencia, de la implementación de tecnologías Big Data. En este trabajo se plantea el procesamiento, análisis y la creación de modelos de aprendizaje automático para monitorizar la demanda en redes de agua utilizando datos recopilados de los sensores de caudal y presión, haciendo uso del paradigma del descubrimiento de conocimiento en base de datos (KDD), junto con el proceso extracción, carga y transformación (ELT) para la construcción del Data Lake, en un entorno Big Data. El proceso se inicia con la extracción y carga de los datos fuente, que hace parte de la construcción del Data Lake. Luego se realiza el análisis de los datos en bruto con el modelado conceptual, donde se construye el diccionario de datos y se diseña el modelo entidad relación y el mapa lógico de datos que describe las características que relacionan los datos en bruto y los datos refinados. Así, se realizan todas las transformaciones necesarias, hasta obtener el archivo que se usará en el modelo de aprendizaje y cuya estructura fue definida en el mapa lógico. En la etapa de aprendizaje, se usan 3 métodos de regresión disponibles en la biblioteca ML de Spark, Decision Tree, Random Forest y Gradient-boosted tree y se evalúan en los conjuntos de prueba con los parámetros óptimos obtenidos con validación cruzada. Finalmente se visualizan los resultados de las predicciones de los modelos entrenados en la etapa de aprendizaje, usando la herramienta Qlik, donde se muestra la comparación de los 3 modelos entrenados y la contrastación empírica de las hipótesis propuestas.

Palabras Clave

Abastecimiento de agua

Big Data

Departamento

Departamento de Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)