Este proyecto utiliza el dataset de IBM HR Analytics Employee Attrition & Performance para analizar los factores que influyen en la rotación de empleados y el desempeño laboral dentro de una organización.
-
Carga y limpieza de datos:
Se importa el dataset, se eliminan duplicados y se revisan valores nulos para asegurar la calidad de los datos. -
Exploración de datos:
Se exploran las principales variables del dataset, incluyendo edad, género, ingresos, satisfacción laboral, años en la empresa, entre otros. -
Visualización:
Se generan gráficos como histogramas, boxplots, scatterplots y heatmaps para identificar patrones y relaciones entre variables clave (edad, género, satisfacción, rotación, ingresos, etc.). -
Modelado predictivo:
Se implementa un modelo de clasificación (Random Forest) para predecir la rotación de empleados (Attrition) usando variables relevantes. -
Clustering y reducción de dimensionalidad:
Se aplica K-Means para segmentar empleados y PCA para visualizar los clusters en dos dimensiones. -
Evaluación de modelos:
Se muestran métricas de desempeño como accuracy, confusion matrix, classification report, mean squared error y R².
- Python 3.x
- pandas
- numpy
- matplotlib
- seaborn
- scikit-learn
- Descarga el dataset
IBM.csvy colócalo en la rutaC:\pratics\Data_Science\Dataset\. - Ejecuta el notebook IBM-Proyect.ipynb en VS Code.
- Sigue las celdas para explorar, visualizar y modelar los datos.
Identificar los factores clave que afectan la rotación y satisfacción de los empleados, proporcionando visualizaciones y modelos predictivos útiles para la toma de decisiones en recursos humanos.
github.com/santiagomalak
======= Santiago Arrgano Malak
MAIl: [email protected]
GitHub: https://github.com/santiagomalak
Linkedin: https://www.linkedin.com/in/aragonmalak/