Firma topológica de novelistas del siglo XIX: Homología persistente en la minería de textos
Autores: Gholizadeh, Shafie; Seyeditabari, Armin; Zadrozny, Wlodek
Idioma: Inglés
Editor: MDPI
Año: 2018
Disponible con Suscripción Virtualpro
Artículos
Categoría
Ingeniería y Tecnología
Licencia
Atribución – Compartir igual
Consultas: 5
Citaciones: Sin citaciones
El Análisis de Datos Topológicos (TDA) se refiere a una colección de métodos que encuentran la estructura de formas en los datos. Aunque recientemente, los métodos de TDA se han utilizado en muchas áreas de la minería de datos, no se ha aplicado ampliamente a las tareas de minería de texto. En la mayoría de los algoritmos de procesamiento de texto, se pierde el orden en el que aparecen o coaparecen diferentes entidades. Suponiendo que estos órdenes perdidos son características informativas de los datos, el TDA puede desempeñar un papel significativo en la brecha resultante en el estado del arte del procesamiento de texto. Una vez proporcionada, la topología de diferentes entidades a través de un documento textual puede revelar información adicional sobre el documento que no se refleja en ninguna otra característica de los métodos convencionales de procesamiento de texto. En este documento, presentamos un enfoque novedoso que emplea TDA en el procesamiento de texto para capturar y utilizar la topología de diferentes entidades del mismo tipo en documentos textuales. Primero, mostraremos cómo extraer algunas firmas topológicas en el texto utilizando homología persistente, es decir, una herramienta de TDA que captura la firma topológica de un conjunto de datos en forma de nube. Luego mostraremos cómo utilizar estas firmas para la clasificación de texto.
Descripción
El Análisis de Datos Topológicos (TDA) se refiere a una colección de métodos que encuentran la estructura de formas en los datos. Aunque recientemente, los métodos de TDA se han utilizado en muchas áreas de la minería de datos, no se ha aplicado ampliamente a las tareas de minería de texto. En la mayoría de los algoritmos de procesamiento de texto, se pierde el orden en el que aparecen o coaparecen diferentes entidades. Suponiendo que estos órdenes perdidos son características informativas de los datos, el TDA puede desempeñar un papel significativo en la brecha resultante en el estado del arte del procesamiento de texto. Una vez proporcionada, la topología de diferentes entidades a través de un documento textual puede revelar información adicional sobre el documento que no se refleja en ninguna otra característica de los métodos convencionales de procesamiento de texto. En este documento, presentamos un enfoque novedoso que emplea TDA en el procesamiento de texto para capturar y utilizar la topología de diferentes entidades del mismo tipo en documentos textuales. Primero, mostraremos cómo extraer algunas firmas topológicas en el texto utilizando homología persistente, es decir, una herramienta de TDA que captura la firma topológica de un conjunto de datos en forma de nube. Luego mostraremos cómo utilizar estas firmas para la clasificación de texto.