Para determinar el modelo más adecuado, evaluamos diferentes enfoques, incluyendo regresión lineal, árboles de decisión y XGBoost.
Sin embargo, tras el análisis correspondiente, optamos por implementar un modelo de regresión logística, ya que ofrecía un equilibrio óptimo entre interpretabilidad, desempeño y facilidad de implementación.
Este modelo permite estimar probabilidades de churn de manera clara, lo que resulta fundamental para la toma de decisiones estratégicas orientadas a la retención de clientes.
Queríamos encontrar el mejor modelo, para ello hicimos uso de GridSearch, donde gracias a los parámetros que elegimos, podíamos generar 12 posibles modelos.
Realizamos la técnica de Cross-Validation con 5 folds, y realizamos 4 folds en paralelo para aprovechar los recursos del cluster. Adicionalmente, nuestra métrica de evaluación es el AUC.
Respecto a los mejores hiperparámetros que encontramos fueron los siguientes:
RegParam: 0.001 – Lo cual dice que nuestro modelo no sufre de sobreajuste
ElasticNetParam: 0.5 – Lo cual combina ventajas de Ridge y Lasso, encontrando un balance optimo.
En primer lugar, realizamos la división del dataset en dos subconjuntos: entrenamiento (train) y prueba (test), asignando un 70% de los datos para entrenamiento y un 30% para prueba.
Esta proporción es adecuada porque:
Permite que el modelo cuente con suficiente información para aprender patrones relevantes.
Garantiza un conjunto de prueba representativo para evaluar el desempeño del modelo en datos no vistos, reduciendo el riesgo de sobreajuste.
Es una práctica estándar en problemas de clasificación, asegurando un balance entre robustez y validación confiable.
Como lo logramos apreciar, las métricas de calidad obtenidas fueron lo suficientemente buenas como para poder implementar y desplegar nuestro modelo a producción.