Skip to content

albamalagon/TFM

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

53 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Análisis predictivo de la supervivencia del cáncer de mama mediante datos clínicos y genéticos: un enfoque basado en aprendizaje automático

Trabajo Final de Máster - Alba Malagón Márquez

De forma general, el objetivo de este trabajo es identificar qué factores clínicos y genéticos influyen en la supervivencia de pacientes con cáncer de mama y en qué medida, así como predecir dicha supervivencia, para proporcionar información útil para el desarrollo de tratamientos personalizados y la mejora del pronóstico de los pacientes con esta enfermedad.

Objetivos principales:

  • Identificar los factores clínicos y genéticos que contribuyen a la supervivencia de los pacientes con cáncer de mama, y en qué medida.

  • Predecir la supervivencia en pacientes con cáncer de mama utilizando información clínica y genética, mediante un modelo de aprendizaje automático.

Ficheros

  • Conjunto de datos

    • elección conjuntos de datos.html: Explicación de los conjuntos de datos seleccionados. Ambos están formados por un seguido de características clínicas y un conjunto de características genéticas, juntamente con una variable que informa sobre el tiempo de supervivencia del paciente y otra que informa sobre su estado vital.
    • all_metabric_dataset.csv: Conjunto de datos que se encuentra disponible en el repositorio CBioPortal for Cancer Genomics.
    • NKI.csv: Conjunto de datos descargados del sitio web Data World.
    • otros: Contiene otros conjuntos de datos, como los listados extraídos de las bases de datos Uniprot y Ensembl, y el conjunto de datos NKI con dimensionalidad reducida.
  • Análisis

    • analisis_exploratorio_MET.html: Exploración de la distribución de las características y su relación con la supervivencia, así como la identificación de patrones y relaciones entre las variables, mediante pruebas estadísticas o técnicas de selección de variables. Aplicado al conjunto de datos METABRIC.
    • analisis_exploratorio_NKI.html: Exploración de la distribución de las características y su relación con la supervivencia, así como la identificación de patrones y relaciones entre las variables, mediante pruebas estadísticas o técnicas de selección de variables. Aplicado al conjunto de datos NKI.
    • analisis_supervivencia_MET.html: Implementación de técnicas estadísticas enfocadas a analizar la probabilidad de supervivencia de los pacientes después del diagnóstico. Aplicado al conjunto de datos METABRIC.
    • analisis_supervivencia_NKI.html: Implementación de técnicas estadísticas enfocadas a analizar la probabilidad de supervivencia de los pacientes después del diagnóstico. Aplicado al conjunto de datos NKI.
  • Código

    • libraries_variables.py: definición de las rutas y variables a usar durante la evaluación de los algoritmos.
    • functions.py: definición de las funciones básicas a emplear durante la evaluación de los algoritmos.
    • evaluating_algorithms.py: evaluación de la supervivencia a 5 y 10 años del cáncer de mama empleando los algoritmos Decision Tree, Random Forest, Artificial Neural Network, Logistic Regression y. Gradient Boosting.
    • performances_output.py: resultados de rendimiento específicos: características importantes, k-fold, probabilidades...
  • Resultados

    • importancias: tablas que muestran la importancia de las características para cada uno de los conjuntos de datos y años de supervivencia predichos, en este caso utilizando el algoritmo Random Forest.
    • matrices de confusión: gráficos de las matrices de confusion para cada uno de los modelos generados, por lo que respecta al conjunto de datos usado (metabric o nki), els años de supervivencia predichos (5 o 10), la aplicación o no de técnicas de aumento de datos y el algoritmo implementado. También consta de dichas matrices normalizadas para una mejor interpretación.
    • predicciones: predicciones asociadas a cada uno de los pacientes, teniendo en cuenta el conjunto de datos, los años de supervivencia predichos, las técnicas de aumento de datos y el algoritmo usado. También consta de tablas con solo las predicciones incorrectas.

Uso

Todos los scripts se ejecutan de la misma manera:

python3 filename.py

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published