Optimizando Apache Spark MLlib: rendimiento predictivo de modelos a gran escala para análisis de big data
Autores: Theodorakopoulos, Leonidas; Karras, Aristeidis; Krimpas, George A.
Idioma: Inglés
Editor: MDPI
Año: 2025
Disponible con Suscripción Virtualpro
Artículos
Categoría
Ingeniería y Tecnología
Licencia
Atribución – Compartir igual
Consultas: 2
Citaciones: Sin citaciones
En este estudio, analizamos el rendimiento de los operadores de aprendizaje automático en Apache Spark MLlib para K-Means, Regresión de Bosques Aleatorios y Word2Vec. Utilizamos un clúster Spark multinodo junto con métricas de ejecución detalladas recopiladas a partir de datos de diversos conjuntos de datos y configuraciones de parámetros. Los datos se utilizaron para entrenar modelos predictivos que tenían hasta un 98% de precisión en el rendimiento de pronóstico. Al construir modelos predictivos aplicables, nuestra investigación proporciona un tratamiento único para los desafíos clave de ajuste de hiperparámetros, escalabilidad y asignación de recursos en tiempo real. Específicamente, se demostró el valor práctico de los modelos tradicionales en la optimización de los flujos de trabajo de Apache Spark MLlib, logrando hasta un 30% de ahorro de recursos y una reducción del 25% en el tiempo de procesamiento. Estos modelos permiten la optimización del sistema, reducen la cantidad de gastos computacionales y mejoran el rendimiento general de las aplicaciones de big data. En última instancia, este trabajo no solo cierra brechas significativas en la modelización del rendimiento predictivo, sino que también allana el camino para el análisis en tiempo real en un entorno distribuido.
Descripción
En este estudio, analizamos el rendimiento de los operadores de aprendizaje automático en Apache Spark MLlib para K-Means, Regresión de Bosques Aleatorios y Word2Vec. Utilizamos un clúster Spark multinodo junto con métricas de ejecución detalladas recopiladas a partir de datos de diversos conjuntos de datos y configuraciones de parámetros. Los datos se utilizaron para entrenar modelos predictivos que tenían hasta un 98% de precisión en el rendimiento de pronóstico. Al construir modelos predictivos aplicables, nuestra investigación proporciona un tratamiento único para los desafíos clave de ajuste de hiperparámetros, escalabilidad y asignación de recursos en tiempo real. Específicamente, se demostró el valor práctico de los modelos tradicionales en la optimización de los flujos de trabajo de Apache Spark MLlib, logrando hasta un 30% de ahorro de recursos y una reducción del 25% en el tiempo de procesamiento. Estos modelos permiten la optimización del sistema, reducen la cantidad de gastos computacionales y mejoran el rendimiento general de las aplicaciones de big data. En última instancia, este trabajo no solo cierra brechas significativas en la modelización del rendimiento predictivo, sino que también allana el camino para el análisis en tiempo real en un entorno distribuido.