logo móvil

Optimizando Apache Spark MLlib: rendimiento predictivo de modelos a gran escala para análisis de big data

Autores: Theodorakopoulos, Leonidas; Karras, Aristeidis; Krimpas, George A.

Idioma: Inglés

Editor: MDPI

Año: 2025

Disponible con Suscripción Virtualpro

Artículos


Categoría

Ingeniería y Tecnología

Licencia

Atribución – Compartir igual

Consultas: 2

Citaciones: Sin citaciones


Descripción
En este estudio, analizamos el rendimiento de los operadores de aprendizaje automático en Apache Spark MLlib para K-Means, Regresión de Bosques Aleatorios y Word2Vec. Utilizamos un clúster Spark multinodo junto con métricas de ejecución detalladas recopiladas a partir de datos de diversos conjuntos de datos y configuraciones de parámetros. Los datos se utilizaron para entrenar modelos predictivos que tenían hasta un 98% de precisión en el rendimiento de pronóstico. Al construir modelos predictivos aplicables, nuestra investigación proporciona un tratamiento único para los desafíos clave de ajuste de hiperparámetros, escalabilidad y asignación de recursos en tiempo real. Específicamente, se demostró el valor práctico de los modelos tradicionales en la optimización de los flujos de trabajo de Apache Spark MLlib, logrando hasta un 30% de ahorro de recursos y una reducción del 25% en el tiempo de procesamiento. Estos modelos permiten la optimización del sistema, reducen la cantidad de gastos computacionales y mejoran el rendimiento general de las aplicaciones de big data. En última instancia, este trabajo no solo cierra brechas significativas en la modelización del rendimiento predictivo, sino que también allana el camino para el análisis en tiempo real en un entorno distribuido.

Documentos Relacionados

Temas Virtualpro