Recuperación de información en Persa: revisión crítica y propuestas de mejora

Sadeghi Hassanabadi, Mohammad

doi:10.35376/10324/16008

Por favor, use este identificador para citar o enlazar este ítem:http://uvadoc.uva.es/handle/10324/16008

Título

Recuperación de información en Persa: revisión crítica y propuestas de mejora

Autor

Sadeghi Hassanabadi, Mohammad

Director o Tutor

Vegas Hernández, Jesús María

Editor

Universidad de Valladolid. Escuela Técnica Superior de Ingeniería Informática

Año del Documento

2015

Resumen

Los principales modelos y técnicas propuestas por los investigadores en la recuperación de información dependen en mayor o menor medida del idioma, tanto de los documentos como de las consultas que se formulan. Al respecto existen muchos estudios, desde el procesamiento del texto hasta los modelos de recuperación, para las lenguas occidentales o predominantes como el inglés. Sin embargo, las lenguas minoritarias como la lengua persa no han sido suficientemente tratadas en los sistemas de RI tanto tradicional como Web y deberían ser mejoradas desarrollando algoritmos y técnicas que consideran las características de esas lenguas. Además, la diferencia morfológica y lingüística de persa frente al inglés en todos sus niveles no permite una extrapolación al idioma persa de los resultados obtenidos para el inglés, demandando la realización de trabajos específicos. El objetivo principal de esta tesis es analizar la recuperación de información en persa y poner de manifiesto los factores que afectan a la eficiencia en los sistemas de recuperación de información con documentos persas y dar propuestas para mejorar la eficiencia de la recuperación de documentos relevantes. Los resultados obtenidos por nuestros experimentos revelan que la mala representación de documentos es el gran desafío que presenta la lengua persa en un sistema de recuperación de información. La representación de documentos es el conjunto de operaciones que se hacen sobre el contenido de un documento desde su creación hasta su indexación. Las diferentes formas de la escritura, ambigüedades en el texto escrito, la dispersión en posición alfabética diferente y no estándar de la ortografía son los principales problemas que hacen necesaria una pre-normalización o estandarización del texto para cumplir con los criterios de un sistema de RI. La segmentación del texto y la definición del límite de las palabras son tareas muy difíciles en persa. Hay de uno a cuatro formas de escribir un carácter alfabético según su posición en una palabra. Cada forma puede ser inicial, media, final y aislada. Hay varias formas de escribir textos persas que difieren en el estilo de escritura de palabras usando o eliminando los espacios dentro o entre las palabras utilizando diversas formas de caracteres. Entonces la correcta tokenizatión y la conversión de estas formas y estilos en una única norma es un paso necesario en la construcción de los sistemas de RI con documentos en persa. En la lengua persa, las palabras se construyen generalmente a partir de la forma imperativa de los verbos. Por lo tanto, desde un punto de vista de la lingüística, la primera etapa para extraer la raíz es encontrar el modo imperativo de la palabra. En general, no es fácil obtener el modo imperativo ya que hay muchos infinitivos irregulares. La forma imperativa del infinitivo irregular se basa en cómo se escuchan o se usan las palabras. En este caso, se necesita buscar el modo imperativo en el léxico. Además, la diversidad de formas plurales, plurales irregulares y las palabras no plurales terminando con los signos plurales son algunos de los retos en la construcción de lematizadores para la lengua persa. Otro objetivo de esta tesis es la evaluación del rendimiento y calidad de los buscadores de web frente a los documentos persas, en particular, de Google que es utilizado por el 92% de los usuarios iraníes. Los resultados obtenidos han destacado que el buscador Google considera las palabras vacías persas como palabras claves del contenido de un documento persa. Además, la tokenización del texto no realiza correctamente la separación adecuada de las palabras y la lematización contiene muchos errores. En conclusión, Google debe mejorar las operaciones que corresponden a la representación de documentos persas teniendo en cuenta de la estructura y gramática de la lengua persa. Analizando los trabajos previos, hemos constatado que no hay ninguna investigación que consiga en identificar automáticamente las palabras vacías en un sistema de RI. Por lo tanto, la última aportación de este trabajo es desarrollar un método automático que permita identificar las palabras vacías para sistemas de RI con documentos persas. Nuestro método está basado en los modelos estadísticos y en el modelo de información. El modelo estadístico extrae las palabras vacías teniendo en cuenta la distribución de estas palabras en un corpus y en cada documento del corpus. El modelo de información mide el significado de una palabra en el texto mediante el uso de la teoría de la información.

Materias (normalizadas)

Persa (Lengua)

Recuperación de la información

Sistemas de información

Departamento

Departamento de Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)

DOI

10.35376/10324/16008