Skip to content

Latest commit

 

History

History
executable file
·
97 lines (56 loc) · 4.19 KB

File metadata and controls

executable file
·
97 lines (56 loc) · 4.19 KB

atlas-utils之计算非冗余序列:uniques

一、atlas-utils uniques介绍

功能描述:

atlas-utils uniques 计算非冗余序列,兼容USEARCH的注释文件。

命令行接口:

$ atlas-utils uniques

Usage: div_utils uniques [options] <in.fa/q>

Options:
  -a      size annotation
  -l STR  sequence label, default: [Uniq]
  -w INT  number of residues per line; 0 for 2^32-1 default:[0]

可选参数:

  -a        注释大小;
  -l 字符串  序列标签,默认为'Uniq';
  -w 整数    每行的序列长度,默认为0, 不换行;

二、使用场景实例及其用法

示例演示:

示例文件:A-1_1.fastq

$ cat A-1_1.fastq | head -n 4


@HISEQ:483:HLJ2LBCXY:1:1101:7924:2136 1:N:0:CACCGG
CCTATGGGACGCAGCAGTGGGGAATATTGGACAATGGGCGCAAGCCTGATCCAGCCATGCCGCGTGAGTGATGAAGGCCCTAGGGTTGTAAAGCCCTTTCGGCGGGGAAGATAATGACGGTACCCGCAGAAGAAGCCCCGGCTAACTTCGTGCCAGCAGCCGCGGTAATACGAAGGGGGCTAGCGTTGCTCGGAATTACTGGGCGTAAAGCGCACGTAGGCGGCTTTCTAAGTCGGGGGTGAA
+
HH1CHHHHDFHDHDH?C<DEG/CEHHIHEHCHECFHICHHHHHDHIICHHIEHCHCEGHHIICH?EEHFHHHIECEE?HE?1GHHHHDHHHHHFFGHHHCHHHII?H?HHEHCHF1CGHC0DEHEHHD<<FEHHHIGHIC??HHCGHHHHIHH@FFEEHIHDHHCHHIHIHE@GH-G??EDEGEHIHIICHHC?EHH-6@8-B-=C,5@@FHHHHHHHCEHH#####################

运行命令:

获得非冗余序列。

$ atlas-utils uniques  A-1_1.fastq | head -n 4


>Uniq1
CCTATGGGATGCAGCAGTAAGGAATATTGGTCAATGGACGCAAGTCTGAACCAGCCATGCCGCGTGAAGGATGAATGCCCTCAGGGTTGTAAACTTCTTTTATCTGGGAAGAAATCCTCGATTTCCATCGGGGTTGACGGTACCAGAGGAATAAGCACCGGCTAACTCCGTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTATCCGGATTTACTGGGTTTAAAGGGTGCGTAGGCGG
>Uniq2
CCTATGGGGTGCAGCAGTAAGGAATATTGGTCAATGGACGCAAGTCTGAACCAGCCATGCCGCGTGAAGGATGAATGCCCTCAGGGTTGTAAACTTCTTTTATCTGGGAAGAAATCCTCGATTTCCATCGGGGTTGACGGTACCAGAGGAATAAGCACCGGCTAACTCCGTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTATCCGGATTTACTGGGTTTAAAGGGTGCGTAGGCGG

参数选项1: 设置 -a 参数,添加大小注释。

$ atlas-utils uniques -a  A-1_1.fastq | head -n 4


>Uniq1;size=93;
CCTATGGGATGCAGCAGTAAGGAATATTGGTCAATGGACGCAAGTCTGAACCAGCCATGCCGCGTGAAGGATGAATGCCCTCAGGGTTGTAAACTTCTTTTATCTGGGAAGAAATCCTCGATTTCCATCGGGGTTGACGGTACCAGAGGAATAAGCACCGGCTAACTCCGTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTATCCGGATTTACTGGGTTTAAAGGGTGCGTAGGCGG
>Uniq2;size=76;
CCTATGGGGTGCAGCAGTAAGGAATATTGGTCAATGGACGCAAGTCTGAACCAGCCATGCCGCGTGAAGGATGAATGCCCTCAGGGTTGTAAACTTCTTTTATCTGGGAAGAAATCCTCGATTTCCATCGGGGTTGACGGTACCAGAGGAATAAGCACCGGCTAACTCCGTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTATCCGGATTTACTGGGTTTAAAGGGTGCGTAGGCGG

参数选项2: 设置 -l 参数,修改标签名称为sequence

$ atlas-utils uniques -l A1 -a A-1_1.fastq | head -n 4


>A11;size=93;
CCTATGGGATGCAGCAGTAAGGAATATTGGTCAATGGACGCAAGTCTGAACCAGCCATGCCGCGTGAAGGATGAATGCCCTCAGGGTTGTAAACTTCTTTTATCTGGGAAGAAATCCTCGATTTCCATCGGGGTTGACGGTACCAGAGGAATAAGCACCGGCTAACTCCGTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTATCCGGATTTACTGGGTTTAAAGGGTGCGTAGGCGG
>A12;size=76;
CCTATGGGGTGCAGCAGTAAGGAATATTGGTCAATGGACGCAAGTCTGAACCAGCCATGCCGCGTGAAGGATGAATGCCCTCAGGGTTGTAAACTTCTTTTATCTGGGAAGAAATCCTCGATTTCCATCGGGGTTGACGGTACCAGAGGAATAAGCACCGGCTAACTCCGTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTATCCGGATTTACTGGGTTTAAAGGGTGCGTAGGCGG

参数选项3: 设置 -w 参数,指定每行序列的长度为70。

$ atlas-utils uniques -w 70  A-1_1.fastq | head


>Uniq1
CCTATGGGATGCAGCAGTAAGGAATATTGGTCAATGGACGCAAGTCTGAACCAGCCATGCCGCGTGAAGG
ATGAATGCCCTCAGGGTTGTAAACTTCTTTTATCTGGGAAGAAATCCTCGATTTCCATCGGGGTTGACGG
TACCAGAGGAATAAGCACCGGCTAACTCCGTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTATC
CGGATTTACTGGGTTTAAAGGGTGCGTAGGCGG
>Uniq2
CCTATGGGGTGCAGCAGTAAGGAATATTGGTCAATGGACGCAAGTCTGAACCAGCCATGCCGCGTGAAGG
ATGAATGCCCTCAGGGTTGTAAACTTCTTTTATCTGGGAAGAAATCCTCGATTTCCATCGGGGTTGACGG
TACCAGAGGAATAAGCACCGGCTAACTCCGTGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTATC
CGGATTTACTGGGTTTAAAGGGTGCGTAGGCGG

本文材料为 BASE (Biostack Applied bioinformatic SEies ) 课程 Linux Command Line Tools for Life Scientists 材料, 版权归 上海逻捷信息科技有限公司 所有。

Last Update: 2020-09-09 11:56 AM