<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="static/style.xsl"?><OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"><responseDate>2026-05-05T18:46:20Z</responseDate><request verb="GetRecord" identifier="oai:uvadoc.uva.es:10324/71506" metadataPrefix="qdc">https://uvadoc.uva.es/oai/request</request><GetRecord><record><header><identifier>oai:uvadoc.uva.es:10324/71506</identifier><datestamp>2024-11-15T20:02:17Z</datestamp><setSpec>com_10324_38</setSpec><setSpec>col_10324_787</setSpec></header><metadata><qdc:qualifieddc xmlns:qdc="http://dspace.org/qualifieddc/" xmlns:doc="http://www.lyncode.com/xoai" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" xsi:schemaLocation="http://purl.org/dc/elements/1.1/ http://dublincore.org/schemas/xmls/qdc/2006/01/06/dc.xsd http://purl.org/dc/terms/ http://dublincore.org/schemas/xmls/qdc/2006/01/06/dcterms.xsd http://dspace.org/qualifieddc/ http://www.ukoln.ac.uk/metadata/dcmi/xmlschema/qualifieddc.xsd">
<dc:title>Phishingutils: estudio sobre herramientas de detección de phishing en URLs</dc:title>
<dc:creator>Agudelo Bernal, Sergio</dc:creator>
<dc:contributor>Vegas Hernández, Jesús María</dc:contributor>
<dc:contributor>Universidad de Valladolid. Escuela de Ingeniería Informática de Valladolid</dc:contributor>
<dcterms:abstract>Los ciberataques son cada vez más frecuentes, complejos y pueden tener mayor&#xd;
potencial de causar daños graves en sociedades completas. El phishing es uno de&#xd;
ellos, y constituye una de las más grandes vulnerabilidades actuales, siendo objeto&#xd;
de numerosas investigaciones sobre su prevención. La mayoría de ataques ocurren&#xd;
por medio de páginas web, y la identificación de phishing por medio de URLs ha&#xd;
demostrado ser una de las técnicas más efectivas, utilizando técnicas de clasificación&#xd;
de Machine Learning. Debido a que es requerido realizar la tarea de recopilar&#xd;
un gran volumen de muestras para desarrollar una detección fiable, se evidencia&#xd;
la necesidad de crear herramientas que realicen este proceso automáticamente,&#xd;
además de hacer disponibles conjuntos de datos masivos para investigaciones futuras.&#xd;
Para contribuir con dicha necesidad, se ha creado en este proyecto una biblioteca&#xd;
de Python, que permite gestionar automáticamente el proceso de recopilación y&#xd;
consolidación de conjuntos de datos, a partir de solo algunas configuraciones por&#xd;
parte del usuario. Para demostrar el funcionamiento de esta biblioteca, se realizó&#xd;
una revisión literaria de 30 artículos relacionados y publicados en los últimos 5&#xd;
años, para obtener el estado del arte de atributos y parámetros para la detección de&#xd;
URLs phishing. Como resultados, se cuenta con la versión publicable de la biblioteca&#xd;
desarrollada, un conjunto de datos de 2.500.000 muestras, aproximadamente 20&#xd;
veces el tamaño de la más grandes fuentes de datos existentes actualmente, también&#xd;
como la documentación de la revisión literaria realizada, propuesta como referencia&#xd;
para investigaciones futuras. Se aplicaron modelos de clasificación al conjunto de&#xd;
datos construido, resultando en valores de precisión de más de 99 %.</dcterms:abstract>
<dcterms:abstract>Cyberattacks are becoming more frequent, complex and can represent a bigger&#xd;
risk of causing great damage in whole societies. Phishing is one type of these attacks,&#xd;
constitutes one of the most important vulnerabilities currently, and is being object of&#xd;
numerous investigations about its prevention. Most attacks are transmitted via web&#xd;
pages, and identifying phishing by its source URL has proved to be one of the most&#xd;
effective detection techniques, accompanied by modeling using Machine Learning&#xd;
classifier algorithms. As it is required to collect - often manually - considerable&#xd;
amount of samples to implement reliable detection, there is an evident demand of&#xd;
tools which handle this process automatically, as well as curated massive datasets&#xd;
that are publicly available for future research. To contribute with this perceived&#xd;
need, this study presents phishingutils, a custom-made Python package that&#xd;
allows a way of automatically downloading data sources and creating high-volume&#xd;
datasets for phishing URL detection, by defining model attributes and features&#xd;
using few high level instructions. To demonstrate its applicability, we performed&#xd;
a literature review of 30 articles published in the last 5 years, to document the&#xd;
state of the art in phishing URL detection. As a result, we published the latest&#xd;
stable version of the implemented package, as well as a dataset with 2.500.000&#xd;
URL samples, approximately more than 20 times the volume of most data sources&#xd;
available currently. We also publish via this document the process and conclusions&#xd;
of the literally review, with the goal of aiding future research in identifying related&#xd;
works. Finally, we tested the resulting dataset with state-of-the-art classifier models,&#xd;
reporting accuracy of more than 99 %.</dcterms:abstract>
<dcterms:dateAccepted>2024-11-15T08:56:10Z</dcterms:dateAccepted>
<dcterms:available>2024-11-15T08:56:10Z</dcterms:available>
<dcterms:created>2024-11-15T08:56:10Z</dcterms:created>
<dcterms:issued>2024</dcterms:issued>
<dc:type>info:eu-repo/semantics/masterThesis</dc:type>
<dc:identifier>https://uvadoc.uva.es/handle/10324/71506</dc:identifier>
<dc:language>spa</dc:language>
<dc:rights>info:eu-repo/semantics/openAccess</dc:rights>
<dc:rights>http://creativecommons.org/licenses/by-nc-nd/4.0/</dc:rights>
<dc:rights>Attribution-NonCommercial-NoDerivatives 4.0 Internacional</dc:rights>
</qdc:qualifieddc></metadata></record></GetRecord></OAI-PMH>