Biblioteca Python para el apoyo al desarrollo de pipelines de procesamiento de datos con Spark

Sanz San José, Óliver Luis

Por favor, use este identificador para citar o enlazar este ítem:http://uvadoc.uva.es/handle/10324/33254

Título

Biblioteca Python para el apoyo al desarrollo de pipelines de procesamiento de datos con Spark

Autor

Sanz San José, Óliver Luis

Director o Tutor

Vivaracho Pascual, Carlos Enrique

Simón Hurtado, María Aránzazu

Editor

Universidad de Valladolid. Escuela de Ingeniería Informática de Valladolid

Año del Documento

2018

Titulación

Grado en Ingeniería Informática

Resumo

Esta es la memoria del trabajo de fin de grado presentado por Óliver L. Sanz en el Grado en Ingeniería Informática de la Universidad de Valladolid en Julio de 2018. En ella, se describe el contexto, motivación, así como el proceso de diseño, desarrollo y validación de una biblioteca escrita en el lenguaje de programación Python para el desarrollo de pipelines (secuencias) de tratamiento de datos con el motor de procesamiento Spark, desarrollada para la empresa Luce Innovative Technologies. Los objetivos de diseño de esta biblioteca son que sea sencilla de utilizar, de forma que facilite iteraciones rápidas en el proceso de análisis de datos; y extensible, de forma que pueda adaptarse a necesidades futuras. Posteriormente, también se describe en esta memoria una necesidad de tratamiento de datos, así como la forma de cubrir esta necesidad aplicando la biblioteca desarrollada.

Palabras Clave

Biblioteca Python

Pipeline

Spark

PySpark