2018年9月12日,hyp在学习全基因组RNAseq流程,我便整理此流程希望能有帮助
此pipeline目前只适用pair end
双端测序数据, 有参考基因组RNA-seq分析。
- 此pipeline需要用到的软件
- fastp
- hisat
我希望,此pipeline的用户,在配置过依赖环境和软件后,只需要输入指定输入数据文件夹和输出数据文件夹:
- --input
- --output
即可获得:
-
数据质控结果&图
-
差异基因列表&图
质控
- 序列比对
-转录本拼接 (可选)
-表达定量
-差异基因
-功能富集
-定制分析
原始数据的质控,一般包含以下步骤:
- 测序质量,去除低质量的reads,基于
Q20, Q30
- 有无接头,去掉接头序列
- 去掉reads两端的低质量序列
- 左侧
13bp
- 右侧
3bp
- 左侧
使用的软件为:fastp
比对:基于参考基因组的情况下,HISAT2具有最快的比对速度和最准确的拼接。但灵敏度小于STAR。StringTie在基于比对的转录组组装分析下在速度、准确度和 灵敏度都优于Cufflinks;
对于比对和转录组构建,HISAT2-StringTie
组合具有更高的准确度和更快的速度。
使用流程:
hisat
-StringTie
-
RPKM
-
FPKM
-
TPM
DESeq2和edgeR可以获得高准确的差异分析。
RNA融合:对于短reads,FushionCatcher是最敏感和精确的工具。对于长reads,IDP-fushion精确度最高。