<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="static/style.xsl"?><OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"><responseDate>2026-05-05T18:32:56Z</responseDate><request verb="GetRecord" identifier="oai:uvadoc.uva.es:10324/71506" metadataPrefix="uketd_dc">https://uvadoc.uva.es/oai/request</request><GetRecord><record><header><identifier>oai:uvadoc.uva.es:10324/71506</identifier><datestamp>2024-11-15T20:02:17Z</datestamp><setSpec>com_10324_38</setSpec><setSpec>col_10324_787</setSpec></header><metadata><uketd_dc:uketddc xmlns:uketd_dc="http://naca.central.cranfield.ac.uk/ethos-oai/2.0/" xmlns:doc="http://www.lyncode.com/xoai" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:uketdterms="http://naca.central.cranfield.ac.uk/ethos-oai/terms/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" xsi:schemaLocation="http://naca.central.cranfield.ac.uk/ethos-oai/2.0/ http://naca.central.cranfield.ac.uk/ethos-oai/2.0/uketd_dc.xsd">
<dc:title>Phishingutils: estudio sobre herramientas de detección de phishing en URLs</dc:title>
<dc:creator>Agudelo Bernal, Sergio</dc:creator>
<uketdterms:advisor>Vegas Hernández, Jesús María</uketdterms:advisor>
<dcterms:abstract>Los ciberataques son cada vez más frecuentes, complejos y pueden tener mayor&#xd;
potencial de causar daños graves en sociedades completas. El phishing es uno de&#xd;
ellos, y constituye una de las más grandes vulnerabilidades actuales, siendo objeto&#xd;
de numerosas investigaciones sobre su prevención. La mayoría de ataques ocurren&#xd;
por medio de páginas web, y la identificación de phishing por medio de URLs ha&#xd;
demostrado ser una de las técnicas más efectivas, utilizando técnicas de clasificación&#xd;
de Machine Learning. Debido a que es requerido realizar la tarea de recopilar&#xd;
un gran volumen de muestras para desarrollar una detección fiable, se evidencia&#xd;
la necesidad de crear herramientas que realicen este proceso automáticamente,&#xd;
además de hacer disponibles conjuntos de datos masivos para investigaciones futuras.&#xd;
Para contribuir con dicha necesidad, se ha creado en este proyecto una biblioteca&#xd;
de Python, que permite gestionar automáticamente el proceso de recopilación y&#xd;
consolidación de conjuntos de datos, a partir de solo algunas configuraciones por&#xd;
parte del usuario. Para demostrar el funcionamiento de esta biblioteca, se realizó&#xd;
una revisión literaria de 30 artículos relacionados y publicados en los últimos 5&#xd;
años, para obtener el estado del arte de atributos y parámetros para la detección de&#xd;
URLs phishing. Como resultados, se cuenta con la versión publicable de la biblioteca&#xd;
desarrollada, un conjunto de datos de 2.500.000 muestras, aproximadamente 20&#xd;
veces el tamaño de la más grandes fuentes de datos existentes actualmente, también&#xd;
como la documentación de la revisión literaria realizada, propuesta como referencia&#xd;
para investigaciones futuras. Se aplicaron modelos de clasificación al conjunto de&#xd;
datos construido, resultando en valores de precisión de más de 99 %.</dcterms:abstract>
<dcterms:abstract>Cyberattacks are becoming more frequent, complex and can represent a bigger&#xd;
risk of causing great damage in whole societies. Phishing is one type of these attacks,&#xd;
constitutes one of the most important vulnerabilities currently, and is being object of&#xd;
numerous investigations about its prevention. Most attacks are transmitted via web&#xd;
pages, and identifying phishing by its source URL has proved to be one of the most&#xd;
effective detection techniques, accompanied by modeling using Machine Learning&#xd;
classifier algorithms. As it is required to collect - often manually - considerable&#xd;
amount of samples to implement reliable detection, there is an evident demand of&#xd;
tools which handle this process automatically, as well as curated massive datasets&#xd;
that are publicly available for future research. To contribute with this perceived&#xd;
need, this study presents phishingutils, a custom-made Python package that&#xd;
allows a way of automatically downloading data sources and creating high-volume&#xd;
datasets for phishing URL detection, by defining model attributes and features&#xd;
using few high level instructions. To demonstrate its applicability, we performed&#xd;
a literature review of 30 articles published in the last 5 years, to document the&#xd;
state of the art in phishing URL detection. As a result, we published the latest&#xd;
stable version of the implemented package, as well as a dataset with 2.500.000&#xd;
URL samples, approximately more than 20 times the volume of most data sources&#xd;
available currently. We also publish via this document the process and conclusions&#xd;
of the literally review, with the goal of aiding future research in identifying related&#xd;
works. Finally, we tested the resulting dataset with state-of-the-art classifier models,&#xd;
reporting accuracy of more than 99 %.</dcterms:abstract>
<dcterms:issued>2024</dcterms:issued>
<dc:type>info:eu-repo/semantics/masterThesis</dc:type>
<dc:language xsi:type="dcterms:ISO639-2">spa</dc:language>
<uketdterms:sponsor>Departamento de Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)</uketdterms:sponsor>
<dcterms:isReferencedBy>https://uvadoc.uva.es/handle/10324/71506</dcterms:isReferencedBy>
<dcterms:license>https://uvadoc.uva.es/bitstream/10324/71506/3/license.txt</dcterms:license>
<uketdterms:checksum xsi:type="uketdterms:MD5">289d98c1665ee0d20312360f0e8643c8</uketdterms:checksum>
<dc:identifier xsi:type="dcterms:URI">https://uvadoc.uva.es/bitstream/10324/71506/1/TFM-G1991.pdf</dc:identifier>
<uketdterms:checksum xsi:type="uketdterms:MD5">73800d9ed6c1689003082b3f25bd82e6</uketdterms:checksum>
<dc:rights>Attribution-NonCommercial-NoDerivatives 4.0 Internacional</dc:rights>
</uketd_dc:uketddc></metadata></record></GetRecord></OAI-PMH>