Python, Pandas, Scikit-learn, LightGBM, XGBoost, Seaborn, Matplotlib

Predicción de Gravedad en Infracciones de Tráfico

Modelo de clasificación binaria para predecir si una infracción de tráfico es grave o no, permitiendo a aseguradoras ajustar primas de riesgo. Modelo final: LightGBM optimizado con ajuste de umbral, alcanzando un recall del 64% en la clase grave.

Rol Data Scientist

Tecnologías Python, Pandas, Scikit-learn, LightGBM, XGBoost, Seaborn, Matplotlib

Duración 3 semanas

El problema

Cuando un conductor asegurado notifica una multa a su compañía, la aseguradora necesita evaluar si esa infracción es grave para ajustar la prima de riesgo. El objetivo era construir un modelo de Machine Learning capaz de predecir automáticamente la gravedad de una infracción a partir de sus características, minimizando los casos graves no detectados (falsos negativos).

Proceso

Se trabajó con un dataset público de sanciones con detracción de puntos de 2023 (data.gob.es). Tras eliminar variables con fuga de información, se codificaron variables categóricas como sexo, experiencia y edad. Se compararon cuatro modelos (KNN, Regresión Logística, Random Forest y LightGBM) priorizando la métrica recall. Se aplicó validación cruzada estratificada, búsqueda de hiperparámetros con GridSearchCV y RandomizedSearchCV, y ajuste manual del umbral de decisión para maximizar la detección de infracciones graves.

Resultados

El modelo final fue LightGBM optimizado con ajuste de umbral, alcanzando un recall del 64% en la clase grave y una accuracy del 61%. El modelo identifica correctamente casi dos tercios de las infracciones graves reales, priorizando la detección sobre la precisión global. Constituye una base sólida y operativa para su aplicación en entornos de negocio de seguros.

Ver código en GitHub Volver a proyectos