Análisis predictivo de la supervivencia del cáncer de mama mediante datos clínicos y genéticos: un enfoque basado en aprendizaje automático
De forma general, el objetivo de este trabajo es identificar qué factores clínicos y genéticos influyen en la supervivencia de pacientes con cáncer de mama y en qué medida, así como predecir dicha supervivencia, para proporcionar información útil para el desarrollo de tratamientos personalizados y la mejora del pronóstico de los pacientes con esta enfermedad.
Objetivos principales:
-
Identificar los factores clínicos y genéticos que contribuyen a la supervivencia de los pacientes con cáncer de mama, y en qué medida.
-
Predecir la supervivencia en pacientes con cáncer de mama utilizando información clínica y genética, mediante un modelo de aprendizaje automático.
-
- elección conjuntos de datos.html: Explicación de los conjuntos de datos seleccionados. Ambos están formados por un seguido de características clínicas y un conjunto de características genéticas, juntamente con una variable que informa sobre el tiempo de supervivencia del paciente y otra que informa sobre su estado vital.
- all_metabric_dataset.csv: Conjunto de datos que se encuentra disponible en el repositorio CBioPortal for Cancer Genomics.
- NKI.csv: Conjunto de datos descargados del sitio web Data World.
- otros: Contiene otros conjuntos de datos, como los listados extraídos de las bases de datos Uniprot y Ensembl, y el conjunto de datos NKI con dimensionalidad reducida.
-
- analisis_exploratorio_MET.html: Exploración de la distribución de las características y su relación con la supervivencia, así como la identificación de patrones y relaciones entre las variables, mediante pruebas estadísticas o técnicas de selección de variables. Aplicado al conjunto de datos METABRIC.
- analisis_exploratorio_NKI.html: Exploración de la distribución de las características y su relación con la supervivencia, así como la identificación de patrones y relaciones entre las variables, mediante pruebas estadísticas o técnicas de selección de variables. Aplicado al conjunto de datos NKI.
- analisis_supervivencia_MET.html: Implementación de técnicas estadísticas enfocadas a analizar la probabilidad de supervivencia de los pacientes después del diagnóstico. Aplicado al conjunto de datos METABRIC.
- analisis_supervivencia_NKI.html: Implementación de técnicas estadísticas enfocadas a analizar la probabilidad de supervivencia de los pacientes después del diagnóstico. Aplicado al conjunto de datos NKI.
-
- libraries_variables.py: definición de las rutas y variables a usar durante la evaluación de los algoritmos.
- functions.py: definición de las funciones básicas a emplear durante la evaluación de los algoritmos.
- evaluating_algorithms.py: evaluación de la supervivencia a 5 y 10 años del cáncer de mama empleando los algoritmos Decision Tree, Random Forest, Artificial Neural Network, Logistic Regression y. Gradient Boosting.
- performances_output.py: resultados de rendimiento específicos: características importantes, k-fold, probabilidades...
-
- importancias: tablas que muestran la importancia de las características para cada uno de los conjuntos de datos y años de supervivencia predichos, en este caso utilizando el algoritmo Random Forest.
- matrices de confusión: gráficos de las matrices de confusion para cada uno de los modelos generados, por lo que respecta al conjunto de datos usado (metabric o nki), els años de supervivencia predichos (5 o 10), la aplicación o no de técnicas de aumento de datos y el algoritmo implementado. También consta de dichas matrices normalizadas para una mejor interpretación.
- predicciones: predicciones asociadas a cada uno de los pacientes, teniendo en cuenta el conjunto de datos, los años de supervivencia predichos, las técnicas de aumento de datos y el algoritmo usado. También consta de tablas con solo las predicciones incorrectas.
Todos los scripts se ejecutan de la misma manera:
python3 filename.py