Este proyecto tiene como objetivo analizar los datos de clientes de una compañía aérea para evaluar la relación entre el nivel educativo y diversos aspectos de las reservas de vuelos. Se realiza un análisis descriptivo y pruebas estadísticas para determinar si existen diferencias significativas en el número de vuelos reservados en función del nivel educativo.
- Carga de datos: Los datos se cargan desde dos archivo CSV.
- Analisis y Limpieza de datos: Se eliminan duplicados y se conviertes tipos en los datos (por ejemplo, fechas).
- Filtrado temporal: Se filtran los clientes activos durante el periodo de enero 2017 a diciembre 2018.
- Cálculo de fechas: Se crean nuevas columnas para fechas combinando año, mes y día.
- Cálculo de estadísticas: Se agrupan los datos por nivel educativo y se calculan estadísticas descriptivas (media, mediana, desviación estándar, percentiles) del número de vuelos reservados.
- Agrupación: Se dividen los niveles educativos en grupos de alto, medio y bajo, y se calcula la media y desviación estándar del número de vuelos reservados para cada grupo.
- Prueba de Shapiro-Wilk: Se evalúa si los datos se ajustan a una distribución normal.
- Prueba t de Student: Se realiza para comparar las medias del número de vuelos reservados entre los grupos de alto y bajo nivel educativo.
- Prueba de Mann-Whitney U: Se utiliza si los datos no siguen una distribución normal para comparar las medianas entre los grupos de alto y bajo nivel educativo.
- Distribución por Provincia: Gráfico de barras mostrando la distribución de clientes por provincia.
- Salario por Nivel Educativo: Gráfico de barras que muestra el salario promedio por nivel educativo.
- Número de Vuelos Reservados: Gráfico de líneas que muestra la evolución mensual de los vuelos reservados.
- Relación entre Distancia y Puntos Acumulados: Gráfico de dispersión con una línea de regresión para evaluar la relación entre distancia y puntos acumulados.
El código fuente se encuentra en los archivos .py
y .ipynb
proporcionados. Asegúrate de tener todas las librerías necesarias instaladas, que incluyen:
pandas
numpy
matplotlib
seaborn
scipy
- Python 3.x
- Jupyter Notebook (si se usa el archivo
.ipynb
)
Puedes instalar las dependencias necesarias usando pip
:
pip install pandas numpy matplotlib seaborn scipy