Metodología de Investigación

Ciclo de vida completo de Machine Learning aplicado a la predicción energética en instituciones educativas públicas de Medellín

Ciclo de Vida del Machine Learning

Implementación rigurosa del proceso CRISP-DM adaptado para el análisis predictivo energético

1

Comprensión del Negocio

Análisis del contexto energético educativo en Medellín, identificación de necesidades y definición de objetivos SMART.

  • • Análisis de requerimientos EPM
  • • Definición de métricas de éxito
  • • Identificación de stakeholders
2

Comprensión de los Datos

Recolección y análisis exploratorio de datos históricos de consumo energético y variables asociadas (2018-2024).

  • • Datos de consumo mensual
  • • Variables climáticas IDEAM
  • • Características institucionales
3

Preparación de Datos

Limpieza, transformación y feature engineering para optimizar la calidad de los datos para el modelado.

  • • Normalización y estandarización
  • • Manejo de valores faltantes
  • • Ingeniería de características
4

Modelado

Implementación y entrenamiento de múltiples algoritmos de ML para comparar rendimiento y precisión.

  • • Regresión Lineal
  • • Árboles de Decisión
  • • Máquinas de Soporte Vectorial
5

Evaluación

Validación cruzada y análisis de métricas de rendimiento para seleccionar el mejor modelo.

  • • Validación cruzada k-fold
  • • Análisis de residuales
  • • Comparación de modelos
6

Despliegue

Implementación del modelo en producción y desarrollo de sistema de predicción en tiempo real.

  • • API REST para predicciones
  • • Dashboard interactivo
  • • Monitoreo de rendimiento

Variables del Estudio

Conjunto completo de variables analizadas para la predicción del consumo energético

Variable Dependiente

Consumo Energético Mensual

Medición en kWh de la energía eléctrica consumida por institución educativa en un período mensual (2018-2024)

kWh mensual Facturación energética Horas de uso

Variables Climáticas

Radiación Solar (kWh/m²/día) IDEAM
Temperatura Media (°C) IDEAM
Precipitación (mm) IDEAM
Humedad Relativa (%) IDEAM
Velocidad del Viento (km/h) IDEAM

Variables Socioeconómicas

Nivel Socioeconómico (Estrato) 1-6
Ingreso Familiar Promedio SMMLV
Tasa de Desempleo Local %
Densidad Poblacional hab/km²
Índice de Desarrollo 0-1

Variables de Planta Física

Área Construida (m²)
Número de Estudiantes personas
Antigüedad de Infraestructura años
Tipo de Institución categoría
Horario de Funcionamiento horas/día

Modelos de Machine Learning Aplicados

Implementación de algoritmos supervisados y no supervisados para análisis comprehensivo

Modelos Supervisados

Regresión Lineal

Modelo baseline para comparación de rendimiento

R² = 0.72 RMSE = 125.3
Árboles de Decisión

Modelo interpretable con capacidad de captura no lineal

R² = 0.85 RMSE = 98.7
Máquinas de Soporte Vectorial

Modelo con kernel RBF para relaciones complejas

R² = 0.89 RMSE = 87.4
Random Forest

Ensamble de árboles para mayor robustez

R² = 0.91 RMSE = 78.2

Modelos No Supervisados

K-Means Clustering

Segmentación de instituciones por patrones de consumo

k = 3 clusters Silhouette = 0.68
Análisis de Componentes Principales

Reducción de dimensionalidad y análisis de varianza

95% varianza 5 componentes
DBSCAN

Detección de outliers y patrones anómalos

ε = 0.5 minPts = 5

Métricas de Evaluación

Evaluación comprehensiva del rendimiento de los modelos implementados

Coeficiente de Determinación
Proporción de varianza explicada
RMSE
Root Mean Square Error
Error cuadrático medio
MAE
Mean Absolute Error
Error absoluto medio
MAPE
Mean Absolute Percentage Error
Error porcentual absoluto