Diplomatura en Big Data y Machine Learning contra COVID-19
La evolución de la pandemia del SARS-CoV-2 produce nuevas variantes caracterizando las diferentes realidades epidemiológicas. En ese sentido, poder detectar a tiempo los nuevos clados y sus mutaciones asociadas (Figura 1), en especial, monitorear los cambios asociados a la proteína Spike del virus es una tarea rutinaria que se vuelve más compleja con el actual volumen de información generada cada día (Big data).
En el presente repositorio se comparten cuatro scripts desarrollados en lenguaje Python, los cuales son ejecutables en Google Colab. El conjunto de estos cuatro scripts forman la versión Beta 1 del software VTracker (Virus Tracker).
¿En qué nos ayuda?
Actualmente, la búsqueda y detección de posibles linajes emergentes es una tarea manual y debe de proponerse en la página oficial (https://github.com/cov-lineages/pango-designation) donde un grupo de expertos decide si es posible asignarle un nombre, basados en unas reglas sugeridas también por ellos (https://www.pango.network/the-pango-nomenclature-system/statement-of-nomenclature-rules/).
Nuestra propuesta pretende que los scripts desarrollados usen las reglas propuestas dando, como producto final, un posible linaje emergente a ser propuesto.
Figura 1. Representación de cluster nuevos detectados y sus mutaciones asociadas.
Flujo de trabajo de V.Tracker
Figura 2. Diagrama de flujo de trabajo desarrollado
Manual para el Usuario
Para poder familiarizarse con los programa V.Tracker recomendamos usar los datos compartidos en la carpeta Data/ y descargar los arcivhos scripts de Code_colab/ .ipynb. En la carpeta Data/ seguir las instrucciones del archivo Data_Information.rmd. para cada google colab.
Limitaciones
- Actualmente el VTracker solo se encuentra disponible en formato Google colab.
- Es necesario someterlo a más pruebas para comprobar su real rendimiento.
Desarrollo Futuro
- Desarrollar el pipiline completo para usuarios Linux.
Dependencias
Es necesario instalar estos programas para el correcto funcionamiento
Mafft - para el alinemiento de los genomas - (https://mafft.cbrc.jp/alignment/software/)
Iqtree2 - Para generar el análisis filogenético - (http://www.iqtree.org/)
Nextclade - Para realizar anotación de genomas - (https://clades.nextstrain.org/)
Treecluster - Para detectar los cluster en una filogenía - (https://github.com/niemasd/TreeCluster)
Autores
- Orson Mestanza
- Pierre Padilla
- Alejandro Lopez
- Edgar Aza
- Diana Tapia