-
Notifications
You must be signed in to change notification settings - Fork 2
Wishlist
https://github.com/genomic-medicine-sweden/gms_16S
Pipeline för taxonomisk klassificering av bakterier utifrån 16S reads. Pipelinen använder sig av ”EMU” som är en klassificerare som är optimerad för nanopore-reads. EMU har även stöd för short reads och pac-bio och tanken är att gms_16S ska kunna använda short reads och pacbio också. EMU är resurskrävande så höga threads-antal är rekommenderat.
gms_16S för nanopore-reads har stöd för följande:
Saker man kan lägga till eller arbeta på i pipelinen.
· Ordna en plats man kan ladda ner databaserna ifrån. Nu finns emus egna databas i repot men det går inte att ha fler databaser i repot, då blir det för lite utrymme.
· Lägg till stöd för pacbio och short reads. Pacbio verkar fungera såsom pipelinen är nu men man bör kontrollera att de verktygen som pipelinen har nu är bäst lämpade för pacbio. Short reads skulle behöva ytterligare moduler till pipelinen.
· Lägg till en logg-fil för emus stdout. Emu printar unassigned read count, assigned read count, och em-iterations till stdout. Skulle vara bra om man kan fånga in det här till en log-fil för emu.
· Ta hand om Issues/förslag https://github.com/genomic-medicine-sweden/gms_16S/issues
· Delta på möte för metavis https://github.com/genomic-medicine-sweden/meta-vis . gms-16S ska inkorporeras i det här projektet.
· Delta på möte med FOI och stockholm.
· Kolla vilka arter från “The Approved List of biological agents Advisory Committee on Dangerous Pathogens 2021” som finns i emus database. Detta är påbörjat men inte avslutat. L:\staphula\Public_data\emu_databases\emu_database_pathogens. Det kanske är enklast för den som ska göra det att göra det på sitt sätt. Men listan med patogener ligger i draft_clean.tsv och den kan ju vara bra att använda sig av om man inte vill konvertera från pdf. Det finns en readme-fil i samma katalog för att se hur jag gjort ungefär. Det kommer behövas lite manuell handpåläggning för att hitta alla arterna i listan troligen utöver att använda koden jag använt. Man kan eventuell behöva söka igenom databasens fasta-fil också och inte bara taxonomi-filen för att hitta alla. o Databasen ligger här L:\staphula\Public_data\emu_databases\emu_database
· Lägg till stöd för ITS. Unite database finns här -> L:\staphula\Public_data\emu_databases. Går också ladda ner den på nytt från emu´s github där jag också har hämtat den ifrån. Det borde fungera att köra ITS-prover med pipelinen nu men t.ex. Krona kan få problem med tax-idn som jag tror inte stämmer överens med unites tax-id. Detta bör man kolla på och om man isåfall kanske kan använda kronas verktyg för att bygga en ny taxonomi-fil?
· Se krav-spec utöver den här listan.
· Undersöka hur mycket humana reads som kommer med i körningarna.
· Lägg till en fil med potentiella kontaminanter. Ta med data från spik och andra prover.
· Undersöka om man behöver ta hänsyn till chimeric reads.
· Kontrollera att hela pipelinens singularity-images fungerar som dem ska.
· Pavian/sankey plottar (träd) om det går.
· Barplots där där den negativa kontrollens abundans, för varje art som hittats i ett prov och i den negativa kontrollen, plottas ovanpå provets abundans för den arten.
o Det finns ett r-script för detta redan som behöver modiferas lite.
o Inläsningen av samplesheet behöver modiferas så man kan lägga in vilken typ av prov ett prov är t.ex. neg_ctrl, pos_ctrl, prov.
· I kommandot man kör pipelinen med så behövs absolut väg för vissa av parametrarna t.ex. databasen för emu. Kan man lägga till att relativ path kan användas? Örebro:
Pipelinen finns lokalt på watson. Ligger under /labdata/GMS/gms_16S. Ska fungera smidigt.
Exempel:
Jag har gjort så att jag arbetat med fastq-filerna på /labdata/GMS/gms_16S/fastq_pass/
$ export APPTAINER_CACHEDIR=~/singularity-cache
$ nextflow run main.nf
--input absolute_path/samplesheet_merged.csv
--outdir absolute_path/gms_16S_results
--db /labdata/GMS/gms_16S/assets/databases/emu_database
--seqtype map-ont
-profile singularity,full
-c ~/cpu_config.config
--quality_filtering
--longread_qc_qualityfilter_min_mean_q 93.7
--longread_qc_qualityfilter_minlength 1200
--longread_qc_qualityfilter_maxlength 1800
--email xxxx@regionorebrolan.se
--save_preprocessed_reads
--keep_read_assignments
--output_unclassified
--multiqc_title namn_på_rapport
--run_krona
Används –c flaggan för att begränsa hur mycket resurser (threads och ram) som pipelinen kan använda sig av. I den konfigen som man anger efter ”-c” kan man definiera cpu såhär.
executor {
$local {
cpus = 64
}
}

Figur 1: Hur gms_16S ser ut när det är klart. Här kördes 315 prover. E-mail hade aktiverats och skickades när allt var klart. debug = true var satt på emu´s modul, därav syns ”Unassigned read count”, ”assigned read count” och ”Number of EM iterations”. debug kan kommenteras i modulens kod så det inte printas.