Nerws: hacia la mejora de la recuperación de información del sistema de gestión de bibliotecas digitales utilizando el reconocimiento de entidades nombradas y el sentido de las palabras
Autores: Aliwy, Ahmed; Abbas, Ayad; Alkhayyat, Ahmed
Idioma: Inglés
Editor: MDPI
Año: 2021
Disponible con Suscripción Virtualpro
Artículos
Categoría
Ingeniería y Tecnología
Licencia
Atribución – Compartir igual
Consultas: 3
Citaciones: Sin citaciones
Un sistema de recuperación de información (RI) es el núcleo de muchas aplicaciones, incluidos los sistemas de gestión de bibliotecas digitales (DLMS). El DLMS basado en RI depende ya sea del título con palabras clave o del contenido como cadenas simbólicas. En contraste, ignora el significado del contenido o lo que indica. Muchos investigadores intentaron mejorar los sistemas de RI utilizando la técnica de reconocimiento de entidades nombradas (NER) o el significado de las palabras (sentido de la palabra) e implementaron las mejoras con un lenguaje específico. Sin embargo, no probaron el sistema de RI utilizando NER y desambiguación de sentido de palabra juntos para estudiar el comportamiento de este sistema en presencia de estas técnicas. Este artículo tiene como objetivo mejorar el sistema de recuperación de información utilizado por el DLMS al agregar el NER y la desambiguación de sentido de palabra (WSD) juntos para los idiomas inglés y árabe. Para NER, se utilizó una técnica de votación entre tres clasificadores completamente diferentes: basado en reglas, campo aleatorio condicional (CRF) y bidireccional LSTM-CNN. Para WSD, se utilizó un método basado en ejemplos para implementarlo por primera vez con el idioma inglés. Para el sistema de RI, se utilizó un modelo de espacio vectorial (VSM) para probar el sistema de recuperación de información, y se probó en muestras de la biblioteca de la Universidad de Kufa para los idiomas árabe e inglés. Los resultados generales del sistema muestran que la precisión, la recuperación y las medidas F aumentaron del 70,9%, 74,2% y 72,5% al 89,7%, 91,5% y 90,6% para el idioma inglés y del 66,3%, 69,7% y 68,0% al 89,3%, 87,1% y 88,2% para el idioma árabe.
Descripción
Un sistema de recuperación de información (RI) es el núcleo de muchas aplicaciones, incluidos los sistemas de gestión de bibliotecas digitales (DLMS). El DLMS basado en RI depende ya sea del título con palabras clave o del contenido como cadenas simbólicas. En contraste, ignora el significado del contenido o lo que indica. Muchos investigadores intentaron mejorar los sistemas de RI utilizando la técnica de reconocimiento de entidades nombradas (NER) o el significado de las palabras (sentido de la palabra) e implementaron las mejoras con un lenguaje específico. Sin embargo, no probaron el sistema de RI utilizando NER y desambiguación de sentido de palabra juntos para estudiar el comportamiento de este sistema en presencia de estas técnicas. Este artículo tiene como objetivo mejorar el sistema de recuperación de información utilizado por el DLMS al agregar el NER y la desambiguación de sentido de palabra (WSD) juntos para los idiomas inglés y árabe. Para NER, se utilizó una técnica de votación entre tres clasificadores completamente diferentes: basado en reglas, campo aleatorio condicional (CRF) y bidireccional LSTM-CNN. Para WSD, se utilizó un método basado en ejemplos para implementarlo por primera vez con el idioma inglés. Para el sistema de RI, se utilizó un modelo de espacio vectorial (VSM) para probar el sistema de recuperación de información, y se probó en muestras de la biblioteca de la Universidad de Kufa para los idiomas árabe e inglés. Los resultados generales del sistema muestran que la precisión, la recuperación y las medidas F aumentaron del 70,9%, 74,2% y 72,5% al 89,7%, 91,5% y 90,6% para el idioma inglés y del 66,3%, 69,7% y 68,0% al 89,3%, 87,1% y 88,2% para el idioma árabe.