提供一站式科研服务解决方案

技术服务电话
027-65528997

泛基因组分析软件Roary的使用

发表时间:2022-03-24 13:44

泛基因组Roary

图片

 

图片

Roary

Roary是一款由The Wellcome Trust SangerInstitute主导开发的并且可以快速对大规模原核生物基因组进行泛基因组分析的软件,其优点在于可以在短时间内对数千规模的微生物基因组进行泛基因组分析。


一、输入文件:

Roary要求输入文件必须是GFF3文件(.gff)且文件的最后要有FASTA格式的全基因组信息,而在Genbank中的.gff文件只有注释信息且缺少基因组序列,因此需要下载.gbff格式的文件


方法一:利用bp_genbank2gff3.pl脚本将其转化成gff文件,即可作为Roary的输入文件。例如:

图片

方法二:使用Prokka软件将FASTA格式的基因组数据转化为GFF格式,也可以作为Roary的输入文件。例如:

图片



简单的命令使用如下:

图片


Default usage – create a pan genome without a core alignment


roary*.gff

Quickly generate a core gene alignment using 8 threads:


roary -e --mafft -p 8*.gff

Save results to a different directory


roary –f output_dir *.gff

Change the minimum blastp percentage identity. ’ not advised to go below 90% unless you know what you’re doing.


roary –i 90*.gff

Run a QC check to see if all the samples are what you think they are


roary –qc –k /path/to/kraken/db *.gff

don’t split clusters containing paralogs


roary -s *.gff


二、输出文件介绍:

1summary_statistics.txt   包含了不同存在类型的gene个数及gene总数。

如果core genes数或者total genes数特别高,那么要小心你的输入文件是否混入了其他种的基因组,或者你的样品是否存在污染。

2gene_presence_absence.csv

该文件记录了每个输入样本中某个基因存在或缺失的信息,可以用Excel等软件打开其中还包括基因名名称、功能注释、存在该cluster的菌株的数量等等。

3gene_presence_absence.Rtab

该文件第一行为每个输入样本的名称,第一列为每个基因名称。文件是由0/1构成的矩阵,0代表缺失,1代表存在。可以用Rread.table载入,进行后续的分析。

4pan_genome_reference.fa

  FASTA格式包含每个cluster的一个代表序列,组成pan-genome

5core_gene_alignment.aln

   core genes多重比对的输出结果,可以作为构建系统发生树的输入文件。


END

(此推文仅供交流学习使用,侵权必删)
图片

关注下方公众号,获取更多精彩干货




微信扫一扫
关注该公众号


分享到:
首页          产品专区          服务支持          品牌介绍          新闻活动
联系QQ:905381807
联系电话:027-65528997
联系邮箱:marketing@wefindbio.com