功能描述:
atlas-utils uniques
计算非冗余序列,兼容USEARCH的注释文件。
命令行接口:
$ atlas-utils uniques
Usage: div_utils uniques [options] <in.fa/q>
Options:
-a size annotation
-l STR sequence label, default: [Uniq]
-w INT number of residues per line; 0 for 2^32-1 default:[0]
可选参数:
-a 注释大小;
-l 字符串 序列标签,默认为'Uniq';
-w 整数 每行的序列长度,默认为0, 不换行;
示例演示:
示例文件:A-1_1.fastq
$ cat A-1_1.fastq | head -n 4
@HISEQ:483:HLJ2LBCXY:1:1101:7924:2136 1:N:0:CACCGG
CCTATGGGACGCAGCAGTGGGGAATATTGGACAATGGGCGCAAGCCTGATCCAGCCATGCCGCGTGAGTGATGAAGGCCCTAGGGTTGTAAAGCCCTTTCGGCGGGGAAGATAATGACGGTACCCGCAGAAGAAGCCCCGGCTAACTTCGTGCCAGCAGCCGCGGTAATACGAAGGGGGCTAGCGTTGCTCGGAATTACTGGGCGTAAAGCGCACGTAGGCGGCTTTCTAAGTCGGGGGTGAA
+
HH1CHHHHDFHDHDH?C<DEG/CEHHIHEHCHECFHICHHHHHDHIICHHIEHCHCEGHHIICH?EEHFHHHIECEE?HE?1GHHHHDHHHHHFFGHHHCHHHII?H?HHEHCHF1CGHC0DEHEHHD<<FEHHHIGHIC??HHCGHHHHIHH@FFEEHIHDHHCHHIHIHE@GH-G??EDEGEHIHIICHHC?EHH-6@8-B-=C,5@@FHHHHHHHCEHH#####################
运行命令:
获得非冗余序列。
$ atlas-utils uniques A-1_1.fastq | head -n 4
>Uniq1
CCTATGGGATGCAGCAGTAAGGAATATTGGTCAATGGACGCAAGTCTGAACCAGCCATGCCGCGTGAAGGATGAATGCCCTCAGGGTTGTAAACTTCTTTTATCTGGGAAGAAATCCTCGATTTCCATCGGGGTTGACGGTACCAGAGGAATAAGCACCGGCTAACTCCGTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTATCCGGATTTACTGGGTTTAAAGGGTGCGTAGGCGG
>Uniq2
CCTATGGGGTGCAGCAGTAAGGAATATTGGTCAATGGACGCAAGTCTGAACCAGCCATGCCGCGTGAAGGATGAATGCCCTCAGGGTTGTAAACTTCTTTTATCTGGGAAGAAATCCTCGATTTCCATCGGGGTTGACGGTACCAGAGGAATAAGCACCGGCTAACTCCGTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTATCCGGATTTACTGGGTTTAAAGGGTGCGTAGGCGG
参数选项1: 设置 -a
参数,添加大小注释。
$ atlas-utils uniques -a A-1_1.fastq | head -n 4
>Uniq1;size=93;
CCTATGGGATGCAGCAGTAAGGAATATTGGTCAATGGACGCAAGTCTGAACCAGCCATGCCGCGTGAAGGATGAATGCCCTCAGGGTTGTAAACTTCTTTTATCTGGGAAGAAATCCTCGATTTCCATCGGGGTTGACGGTACCAGAGGAATAAGCACCGGCTAACTCCGTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTATCCGGATTTACTGGGTTTAAAGGGTGCGTAGGCGG
>Uniq2;size=76;
CCTATGGGGTGCAGCAGTAAGGAATATTGGTCAATGGACGCAAGTCTGAACCAGCCATGCCGCGTGAAGGATGAATGCCCTCAGGGTTGTAAACTTCTTTTATCTGGGAAGAAATCCTCGATTTCCATCGGGGTTGACGGTACCAGAGGAATAAGCACCGGCTAACTCCGTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTATCCGGATTTACTGGGTTTAAAGGGTGCGTAGGCGG
参数选项2: 设置 -l
参数,修改标签名称为sequence
。
$ atlas-utils uniques -l A1 -a A-1_1.fastq | head -n 4
>A11;size=93;
CCTATGGGATGCAGCAGTAAGGAATATTGGTCAATGGACGCAAGTCTGAACCAGCCATGCCGCGTGAAGGATGAATGCCCTCAGGGTTGTAAACTTCTTTTATCTGGGAAGAAATCCTCGATTTCCATCGGGGTTGACGGTACCAGAGGAATAAGCACCGGCTAACTCCGTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTATCCGGATTTACTGGGTTTAAAGGGTGCGTAGGCGG
>A12;size=76;
CCTATGGGGTGCAGCAGTAAGGAATATTGGTCAATGGACGCAAGTCTGAACCAGCCATGCCGCGTGAAGGATGAATGCCCTCAGGGTTGTAAACTTCTTTTATCTGGGAAGAAATCCTCGATTTCCATCGGGGTTGACGGTACCAGAGGAATAAGCACCGGCTAACTCCGTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTATCCGGATTTACTGGGTTTAAAGGGTGCGTAGGCGG
参数选项3: 设置 -w
参数,指定每行序列的长度为70。
$ atlas-utils uniques -w 70 A-1_1.fastq | head
>Uniq1
CCTATGGGATGCAGCAGTAAGGAATATTGGTCAATGGACGCAAGTCTGAACCAGCCATGCCGCGTGAAGG
ATGAATGCCCTCAGGGTTGTAAACTTCTTTTATCTGGGAAGAAATCCTCGATTTCCATCGGGGTTGACGG
TACCAGAGGAATAAGCACCGGCTAACTCCGTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTATC
CGGATTTACTGGGTTTAAAGGGTGCGTAGGCGG
>Uniq2
CCTATGGGGTGCAGCAGTAAGGAATATTGGTCAATGGACGCAAGTCTGAACCAGCCATGCCGCGTGAAGG
ATGAATGCCCTCAGGGTTGTAAACTTCTTTTATCTGGGAAGAAATCCTCGATTTCCATCGGGGTTGACGG
TACCAGAGGAATAAGCACCGGCTAACTCCGTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTATC
CGGATTTACTGGGTTTAAAGGGTGCGTAGGCGG
本文材料为 BASE (Biostack Applied bioinformatic SEies ) 课程 Linux Command Line Tools for Life Scientists 材料, 版权归 上海逻捷信息科技有限公司 所有。
Last Update: 2020-09-09 11:56 AM