-
Notifications
You must be signed in to change notification settings - Fork 32
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
完成任意癌症的任意基因突变与否分组后的转录组测序的差异分析 #4290
Comments
完成任意癌症的任意基因突变与否分组后的转录组测序的差异分析 by 生信技能树
两种maf文件处理方式如何找到somatic的突变信息的maf文件,仍然是从UCSC的XENA浏览器里面选择NSCLC的里面的LUAD数据集即可,这个是网页里面的鼠标点击操作。值得注意的是网页里面关于同一个癌症有两个跳转链接哦(其中一个带有GDC的前缀):
首先可以看到不带GDC前缀的链接里面的突变主要是来源于mc3计划:
MC3(Multi-Center Mutation Calling in Multiple Cancers)计划则是TCGA(The Cancer Genome Atlas)项目中的一个子项目,专注于对多个癌症类型进行突变信息的分析和整理。以下是MC3计划的主要特点和工作内容:
有意思的是我读取这个MC3突变信息,发现本次作业涉及到的基因是没有的:
大概率是因为这个MC3计划过于严格,过滤了绝大部分基因。不过突变病人数量最多的仍然是TP53基因,说明这个MC3信息本身是值得信赖的。 其次可以看到那个带GDC的链接进去就有4个不同的软件产出的somatic突变信息,如下所示 : 4个不同的软件我在生信技能树发布的很多 找somatic mutation教程大概率是都过时了,如下: 毕竟是六年多过去了,然后在最新最全的mutect2教程,提到了其实大家不必在一棵树上吊死,而且如果是TCGA这样的公共数据集大概率是不需要自己从零开始处理fq文件后拿到somatic mutation信息。 直接下载即可,比如这个时候我们测试了muse这个软件的结果文件;
可以看到的是已经是可以获取到那些有STK11基因突变的肺癌患者的id啦。 表达量矩阵的处理仍然是从UCSC的XENA浏览器里面选择NSCLC的里面的LUAD数据集即可,值得注意的是选择带gdc前缀的哦,如下所示:
其实也是可以根据上面的网页链接的规律去获取所有的其它癌症的下载链接啦,然后就是读取TCGA-LUAD.htseq_counts.tsv.gz文件后的简单的处理,代码如下所示:
分组后差异分析需要根据突变信息对上面的表达量矩阵进行分组,所以是:
有了表达量矩阵和分组信息,差异分析就是常规代码即可:
大家赶快使用上面的代码去测试一下其它癌症吧,任意癌症的任意基因突变与否分组都可以。 其它看癌症突变全景图的方式下面的网页链接里面的癌症的缩略词替换即可访问任意癌症的突变全景图:
但是突变本身有很多不同的概念,germline和somatic,snv和indel,而且snv还根据是否影响蛋白质细分很多不同肿瘤。
文末友情宣传强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
|
https://mp.weixin.qq.com/s/ylbEAXo_8RMp0TA6JTvaMg
The text was updated successfully, but these errors were encountered: