Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/83748
Título
HDT++: improving HDT for SPARQL triple pattern resolution
Autor
Año del Documento
2020
Editorial
SAGE Publications Ltd
Descripción
Producción Científica
Documento Fuente
Journal of Intelligent & Fuzzy Systems: Applications in Engineering and Technology, 2020, vol. 39, n. 2, p. 2249-2261
Abstract
Los autoíndices RDF son capaces de comprimir las colecciones de RDF y proporcionar acceso eficiente a sus datos sin necesidad de una descompresión previa, mediante los denominados patrones de triples SPARQL. HDT es una de las soluciones de referencia en este escenario, con diversas aplicaciones orientadas a reducir la barrera tanto de publicación como de consumo de Big Semantic Data. HDT ofrece una solución competitiva en términos de espacio y tiempo, dada su capacidad para resolver consultas de escaneo y basadas en el sujeto. Sin embargo, HDT requiere índices adicionales para resolver patrones de triples SPARQL basados en predicado y objeto.
Una variante reciente de HDT: HDT++, mejora sus tasas de compresión, pero no conserva las capacidades originales de recuperación de HDT. En este artículo, extendemos HDT++ con índices adicionales para soportar la resolución completa de patrones de triples SPARQL, consolidando una configuración más ligera que la planteada en la propuesta de indexación original de HDT: HDT-FoQ. Nuestra evaluación muestra que la estructura resultante, iHDT++, requiere entre un 70 % y un 85 % del espacio del HDT-FoQ original (y hasta un 48 %–72 % en una variante HDT Community). Además, iHDT++ presenta mejoras significativas de rendimiento en las operaciones de acceso a los datos comprimidos. RDF self-indexes compress the RDF collection and provide efficient access to the data without a previous decompression (via the so-called SPARQL triple patterns). HDT is one of the reference solutions in this scenario, with several applications to lower the barrier of both publication and consumption of Big Semantic Data. However, the simple design of HDT takes a compromise position between compression effectiveness and retrieval speed. In particular, it supports scan and subject-based queries, but it requires additional indexes to resolve predicate and object-based SPARQL triple patterns.
A recent variant, HDT++, improves HDT compression ratios, but it does not retain the original HDT retrieval capabilities. In this article, we extend HDT++ with additional indexes to support full SPARQL triple pattern resolution with a lower memory footprint than the original indexed HDT (called HDT-FoQ). Our evaluation shows that the resultant structure, iHDT++, requires 70−85% of the original HDT-FoQ space (and up to 48−72% for an HDT Community variant). In addition, iHDT++ shows significant performance improvements (up to one level of magnitude) for most triple pattern queries, being competitive with state-of-the-art RDF self-indexes.
Materias Unesco
1203.18 Sistemas de Información, Diseño Componentes
1203.12 Bancos de Datos
1203.04 Inteligencia Artificial
Palabras Clave
HDT
Compresión RDF
SPARQL
Linked Data
ISSN
1064-1246
Revisión por pares
SI
Patrocinador
MINECO-AEI/FEDERUE: TIN2016-78011-C4-1-R; by EU H2020: 731601 (SPECIAL) and 690941 (BIRDS); by FFG: 861213 (CitySPIN); by Xunta de Galicia/FEDER-UE [CSI: ED431G/01 and GRC: ED431C 2017/58]; by Xunta de Galicia Conecta-Peme 2018 [Gema: IN852A 2018/14]; by MCIU-AEI/ FEDER-UE [ETOME-RDFD3: TIN2015- 69951-R; BIZDEVOPS: RTI2018-098309-B-C32]
Idioma
spa
Tipo de versión
info:eu-repo/semantics/submittedVersion
Derechos
openAccess
Aparece en las colecciones
Files in questo item
La licencia del ítem se describe como Atribución-NoComercial-CompartirIgual 4.0 Internacional










