Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/71506
Título
Phishingutils: estudio sobre herramientas de detección de phishing en URLs
Autor
Director o Tutor
Año del Documento
2024
Titulación
Máster en Ingeniería Informática
Abstract
Los ciberataques son cada vez más frecuentes, complejos y pueden tener mayor
potencial de causar daños graves en sociedades completas. El phishing es uno de
ellos, y constituye una de las más grandes vulnerabilidades actuales, siendo objeto
de numerosas investigaciones sobre su prevención. La mayoría de ataques ocurren
por medio de páginas web, y la identificación de phishing por medio de URLs ha
demostrado ser una de las técnicas más efectivas, utilizando técnicas de clasificación
de Machine Learning. Debido a que es requerido realizar la tarea de recopilar
un gran volumen de muestras para desarrollar una detección fiable, se evidencia
la necesidad de crear herramientas que realicen este proceso automáticamente,
además de hacer disponibles conjuntos de datos masivos para investigaciones futuras.
Para contribuir con dicha necesidad, se ha creado en este proyecto una biblioteca
de Python, que permite gestionar automáticamente el proceso de recopilación y
consolidación de conjuntos de datos, a partir de solo algunas configuraciones por
parte del usuario. Para demostrar el funcionamiento de esta biblioteca, se realizó
una revisión literaria de 30 artículos relacionados y publicados en los últimos 5
años, para obtener el estado del arte de atributos y parámetros para la detección de
URLs phishing. Como resultados, se cuenta con la versión publicable de la biblioteca
desarrollada, un conjunto de datos de 2.500.000 muestras, aproximadamente 20
veces el tamaño de la más grandes fuentes de datos existentes actualmente, también
como la documentación de la revisión literaria realizada, propuesta como referencia
para investigaciones futuras. Se aplicaron modelos de clasificación al conjunto de
datos construido, resultando en valores de precisión de más de 99 %. Cyberattacks are becoming more frequent, complex and can represent a bigger
risk of causing great damage in whole societies. Phishing is one type of these attacks,
constitutes one of the most important vulnerabilities currently, and is being object of
numerous investigations about its prevention. Most attacks are transmitted via web
pages, and identifying phishing by its source URL has proved to be one of the most
effective detection techniques, accompanied by modeling using Machine Learning
classifier algorithms. As it is required to collect - often manually - considerable
amount of samples to implement reliable detection, there is an evident demand of
tools which handle this process automatically, as well as curated massive datasets
that are publicly available for future research. To contribute with this perceived
need, this study presents phishingutils, a custom-made Python package that
allows a way of automatically downloading data sources and creating high-volume
datasets for phishing URL detection, by defining model attributes and features
using few high level instructions. To demonstrate its applicability, we performed
a literature review of 30 articles published in the last 5 years, to document the
state of the art in phishing URL detection. As a result, we published the latest
stable version of the implemented package, as well as a dataset with 2.500.000
URL samples, approximately more than 20 times the volume of most data sources
available currently. We also publish via this document the process and conclusions
of the literally review, with the goal of aiding future research in identifying related
works. Finally, we tested the resulting dataset with state-of-the-art classifier models,
reporting accuracy of more than 99 %.
Palabras Clave
Framework
Machine Learning
Página web
Phishing
Departamento
Departamento de Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)
Idioma
spa
Derechos
openAccess
Aparece en las colecciones
- Trabajos Fin de Máster UVa [6579]
Files in questo item
La licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional