Refinamiento del proceso ETL para la ingesta automatizada de datos financieros en un Data Lake

Rubio Gómez, Juan

Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/71455

Título

Refinamiento del proceso ETL para la ingesta automatizada de datos financieros en un Data Lake

Autor

Rubio Gómez, Juan

Director o Tutor

Moro Sancho, Quiliano Isaac

Pastor Gómez, Paula

Editor

Universidad de Valladolid. Escuela de Ingeniería Informática de Valladolid

Año del Documento

2024

Titulación

Grado en Ingeniería Informática

Resumen

En el actual panorama empresarial, la capacidad de recoger, almacenar y analizar grandes volúmenes de datos financieros de manera eficiente es crucial para la toma de decisiones estratégicas y alcanzar los objetivos comerciales. Es por eso que cualquier empresa hoy en día, independientemente de su tamaño, recopila y almacena una inmensa cantidad de datos. Para ello, el uso de almacenes de datos como los Data Lakes se ha convertido en una parte fundamental de este proceso, permitiendo la consolidación de datos de diversas fuentes de origen para su posterior análisis. Sin embargo, la eficacia de un almacén depende en gran medida de la calidad y la integridad de los datos que se ingieren en él. El proceso de Extracción, Transformación y Carga (ETL) desempeña un papel fundamental en la ingesta de datos. Este proceso, dividido en tres fases, implica la extracción de datos de múltiples fuentes, su adecuada transformación para alcanzar la estructura y formato necesaria y, finalmente, su carga en el almacén de datos destino. El presente Trabajo de Fin de Grado se enfoca en el diseño y la implementación de una lógica de transformación para un proceso ETL en la ingestión automatizada de datos financieros en un Data Lake. En esta memoria se explorarán diversas estrategias y metodologías para perfeccionar la calidad y la eficiencia de este proceso, con el objetivo de obtener un contexto global de este tipo de procesos y conocer las tecnologías y metodologías más comunes. Además, se realizarán análisis detallados y pruebas para validar la efectividad y la corrección de la lógica de transformación propuesta.

In today’s business landscape, the ability to collect, store and analyze large volumes of financial data efficiently is crucial to making strategic decisions and achieving business objectives. That is why any company today, regardless of its size, collects and stores an immense amount of data. To this end, the use of data warehouses such as Data Lakes has become a fundamental part of this process, enabling the consolidation of data from various sources of origin for further analysis. However, the effectiveness of a warehouse is highly dependent on the quality and integrity of the data being ingested into it. The Extract, Transform and Load (ETL) process plays a key role in data ingestion. This process, divided into three phases, involves the extraction of data from multiple sources, its own transformation to achieve the required structure and format, and finally its loading into the target data warehouse. This final degree project focuses on the design and implementation of a transformation logic for an ETL process in the automated ingestion of financial data in a Data Lake. In this document we will explore different strategies and methodologies to improve the quality and efficiency of this process, in order to obtain a global context of this type of processes and to know the most common technologies and methodologies. In addition, detailed analysis and testing will be performed to validate the effectiveness and correctness of the proposed transformation logic.

Palabras Clave

Big Data

Data Lake

ETL

Lógica de transformación de datos

Departamento

Departamento de Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)