HDT++: improving HDT for SPARQL triple pattern resolution

Hernández Illera, Antonio; Martínez Prieto, Miguel Angel; Fernández García, Javier David; Fariña, Antonio

doi:https://doi.org/10.3233/JIFS-179888

Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/83748

Título

HDT++: improving HDT for SPARQL triple pattern resolution

Autor

Hernández Illera, Antonio

Martínez Prieto, Miguel Angel

Fernández García, Javier David

Fariña, Antonio

Año del Documento

2020

Editorial

SAGE Publications Ltd

Descripción

Producción Científica

Documento Fuente

Journal of Intelligent & Fuzzy Systems: Applications in Engineering and Technology, 2020, vol. 39, n. 2, p. 2249-2261

Abstract

Los autoíndices RDF son capaces de comprimir las colecciones de RDF y proporcionar acceso eficiente a sus datos sin necesidad de una descompresión previa, mediante los denominados patrones de triples SPARQL. HDT es una de las soluciones de referencia en este escenario, con diversas aplicaciones orientadas a reducir la barrera tanto de publicación como de consumo de Big Semantic Data. HDT ofrece una solución competitiva en términos de espacio y tiempo, dada su capacidad para resolver consultas de escaneo y basadas en el sujeto. Sin embargo, HDT requiere índices adicionales para resolver patrones de triples SPARQL basados en predicado y objeto. Una variante reciente de HDT: HDT++, mejora sus tasas de compresión, pero no conserva las capacidades originales de recuperación de HDT. En este artículo, extendemos HDT++ con índices adicionales para soportar la resolución completa de patrones de triples SPARQL, consolidando una configuración más ligera que la planteada en la propuesta de indexación original de HDT: HDT-FoQ. Nuestra evaluación muestra que la estructura resultante, iHDT++, requiere entre un 70 % y un 85 % del espacio del HDT-FoQ original (y hasta un 48 %–72 % en una variante HDT Community). Además, iHDT++ presenta mejoras significativas de rendimiento en las operaciones de acceso a los datos comprimidos.

RDF self-indexes compress the RDF collection and provide efficient access to the data without a previous decompression (via the so-called SPARQL triple patterns). HDT is one of the reference solutions in this scenario, with several applications to lower the barrier of both publication and consumption of Big Semantic Data. However, the simple design of HDT takes a compromise position between compression effectiveness and retrieval speed. In particular, it supports scan and subject-based queries, but it requires additional indexes to resolve predicate and object-based SPARQL triple patterns. A recent variant, HDT++, improves HDT compression ratios, but it does not retain the original HDT retrieval capabilities. In this article, we extend HDT++ with additional indexes to support full SPARQL triple pattern resolution with a lower memory footprint than the original indexed HDT (called HDT-FoQ). Our evaluation shows that the resultant structure, iHDT++, requires 70−85% of the original HDT-FoQ space (and up to 48−72% for an HDT Community variant). In addition, iHDT++ shows significant performance improvements (up to one level of magnitude) for most triple pattern queries, being competitive with state-of-the-art RDF self-indexes.

Materias Unesco

1203.18 Sistemas de Información, Diseño Componentes

1203.12 Bancos de Datos

1203.04 Inteligencia Artificial

Palabras Clave

HDT

Compresión RDF

SPARQL

Linked Data

ISSN

1064-1246

Revisión por pares

DOI

10.3233/JIFS-179888

Patrocinador

MINECO-AEI/FEDERUE: TIN2016-78011-C4-1-R; by EU H2020: 731601 (SPECIAL) and 690941 (BIRDS); by FFG: 861213 (CitySPIN); by Xunta de Galicia/FEDER-UE [CSI: ED431G/01 and GRC: ED431C 2017/58]; by Xunta de Galicia Conecta-Peme 2018 [Gema: IN852A 2018/14]; by MCIU-AEI/ FEDER-UE [ETOME-RDFD3: TIN2015- 69951-R; BIZDEVOPS: RTI2018-098309-B-C32]