Por favor, use este identificador para citar o enlazar este ítem:http://uvadoc.uva.es/handle/10324/44453
Título
Control, análisis y predicción de la calidad del aire en Valladolid mediante tecnología Big Data
Autor
Director o Tutor
Año del Documento
2020
Titulación
Máster en Ingeniería Informática
Abstract
La presencia de contaminantes en el aire se sitúa como una de las mayores causas de muerte prematura en el
mundo, con el 91% de la población humana viviendo en ambientes con niveles de polución peligrosos. Además, la
reducción de los niveles de contaminante es uno de los Objetivos de Desarrollo Sostenible de las Naciones Unidas,
por lo que es importante para gobiernos y entidades locales contar con un sistema complejo de control de la calidad
del aire. Uno de los primeros pasos para ello es tener una amplia red de medición, como es el caso en la provincia
de Valladolid, que además ofrece sus datos de manera abierta. Sin embargo, no dispone de sistemas de exploración
de datos y predicción, con los que se mejoraría la transparencia y fomentaría la creación de estudios sobre el tema.
En este Trabajo Fin de Máster se plantea la creación de un sistema Big Data que permita el control, análisis
y predicción de datos horarios de once estaciones de medición de la calidad del aire en la provincia de Valladolid,
utilizando datos totalmente públicos, con una metodología iterativa apoyada en un proceso ETL completamente
automatizado.
El resultado es un Data Lake con actualización diaria implementado sobre un clúster Hadoop real, una herramienta
de visualización elaborada en PowerBI, que proporciona un dashboard con la información necesaria para
realizar un seguimiento diario de la calidad del aire, y un análisis exploratorio y predictivo, utilizando algoritmos
de Aprendizaje Automático, con resultados satisfactorios respecto a la capacidad de producir predicciones certeras
en múltiples puntos de la provincia a partir de los datos recogidos. The presence of pollutants in the air is currently one of the top causes for premature deaths in the world, with
91% of the world's population living with dangerous levels of air pollution. Besides this, the reduction of pollution
levels is one of the Sustainable Development Goals of the United Nations, which makes it key for governments and
local authorities to have a complex system for air quality control. One of the rst steps towards this goal is having
a vast measurement network, as is the case in Valladolid, whose data is also o ered openly. However, there's a lack
of data exploration systems and predictions in the resources that Valladolid o ers, with which transparency could
be improved, besides also sponsoring the creation of new projects around the theme.
In this End of Master's Project we set up the creation of a Big Data system that would allow for the control,
analysis and prediction of hourly pollution data from eleven measurement stations around the province of Valladolid,
using data that is completely public, with an iterative methodology based on am entirely automated ETL process.
The result is a Data Lake updated daily deployed over a real Hadoop cluster, a visualization tool implemented
in PowerBI, providing a dashboard with the information needed to follow up on daily air quality, and lastly an
exploratory and predictive analysis using Machine Learning algorithms, with satisfactory results with regards to
the capacity of producing accurate predictions in multiple points of the province from the data used.
Palabras Clave
Big Data
Calidad del aire
Departamento
Departamento de Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)
Idioma
spa
Derechos
openAccess
Collections
- Trabajos Fin de Máster UVa [6579]
Files in this item
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 Internacional