Skip to content

QIngyuanfl/predict-annotation-for-metagenome

Repository files navigation

宏基因组预测、注释与统计

适用于已经质控并组装的宏基因项目

环境准备

miniconda2 或miniconda3

# 安装miniconda| linux, 已装请忽略
$ wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
$ sh Miniconda3-latest-Linux-x86_64.sh
# conda环境
## 预测与注释环境
$ source activate /sysdata/Meta/conda_envs/py374
## 统计环境
$ source activate /sysdata/Meta/conda_envs/MetaSnakemake
## lefse
$ source activate /sysdata/Meta/conda_envs/lefse

第三方库

见下方conda环境

配置档设置

新特性

流程执行

# 在当前文件夹生成流程脚本 predict.sh和annotation.sh
$ source activate /sysdata/Meta/conda_envs/py374
$ python metagenome_pipeline_2taxa.py metagenome_config_2taxa.txt
# 宏基因组基因预测
$ nohup sh predict.sh > predict.log &
# 待预测完成后, 注释
$ nohup sh annotation.sh > annotation.log &
# 待注释完成后, 将Snakefile 复制到项目文件夹
$ conda deactivate
$ source activate /sysdata/Meta/conda_envs/MetaSnakemake
$ nohup snakemake --cores 32 > stat.log &
# 统计完成后
$ sh do_clean.sh

流程图

流程图

FAQs

问:如何设置CPU和并行数量?

答:在oss的系统配置下,为了避免内存使用超额 ,样品数超过10个的项目,每台服务器只能同时运行单个项目,cpu设置为64个。样品数少于10个的项目,每台服务器可以同时运行为两个项目,cpu设置为32个。剩余的资源留给售后及个性化分析。

问:如何断点运行?

答: 样品维度的分析产出结果后,将会通过发进度表给分析人员。倘若与上次的进度表相同或进度表迟迟不发,代表运行错误,可以追踪相应的样品,跑报错的样品。其余的错误可以通过追踪log文件, python 报错关键词为raise, perl 为 at line $.

结果文件

文件架构

About

宏基因组预测

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published