Por favor, use este identificador para citar o enlazar este ítem:http://uvadoc.uva.es/handle/10324/33254
Título
Biblioteca Python para el apoyo al desarrollo de pipelines de procesamiento de datos con Spark
Director o Tutor
Año del Documento
2018
Titulación
Grado en Ingeniería Informática
Abstract
Esta es la memoria del trabajo de fin de grado presentado por Óliver L. Sanz en el Grado en
Ingeniería Informática de la Universidad de Valladolid en Julio de 2018. En ella, se describe el
contexto, motivación, así como el proceso de diseño, desarrollo y validación de una biblioteca escrita
en el lenguaje de programación Python para el desarrollo de pipelines (secuencias) de tratamiento de
datos con el motor de procesamiento Spark, desarrollada para la empresa Luce Innovative
Technologies. Los objetivos de diseño de esta biblioteca son que sea sencilla de utilizar, de forma
que facilite iteraciones rápidas en el proceso de análisis de datos; y extensible, de forma que pueda
adaptarse a necesidades futuras. Posteriormente, también se describe en esta memoria una
necesidad de tratamiento de datos, así como la forma de cubrir esta necesidad aplicando la
biblioteca desarrollada.
Palabras Clave
Biblioteca Python
Pipeline
Spark
PySpark
Idioma
spa
Derechos
openAccess
Collections
- Trabajos Fin de Grado UVa [29685]
Files in this item
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 International