二、输出文件介绍:
(1)summary_statistics.txt 包含了不同存在类型的gene个数及gene总数。
如果core genes数或者total genes数特别高,那么要小心你的输入文件是否混入了其他种的基因组,或者你的样品是否存在污染。
(2)gene_presence_absence.csv
该文件记录了每个输入样本中某个基因存在或缺失的信息,可以用Excel等软件打开,其中还包括基因名名称、功能注释、存在该cluster的菌株的数量等等。
(3)gene_presence_absence.Rtab
该文件第一行为每个输入样本的名称,第一列为每个基因名称。文件是由0/1构成的矩阵,0代表缺失,1代表存在。可以用R的read.table载入,进行后续的分析。
(4)pan_genome_reference.fa
FASTA格式包含每个cluster的一个代表序列,组成pan-genome
(5)core_gene_alignment.aln
core genes多重比对的输出结果,可以作为构建系统发生树的输入文件。