VariantRecalibrator参数详解VariantRecalibrator
-badLodCutoff 当LOD得分低于这个值的时候,就用于构建高斯混合模型的bad variants。默认值是-5。
-maxNumTrainingData 构建高斯模型过程中,用于训练的最大位点数目。如果超过这个数目,将被随机删除。默认值是2500000。
-minNumBad 构建高斯模型的bad variants时的最少低质量值得位点数。
-recalFile 用于ApplyRecalibration的输出文件。
-resource 已知的变异信息。
-rscriptFile 结果中生成图片的脚本。
-tranchesFile 用于ApplyRecalibration的tranche结果输出文件。
-tranche 设置tranche阈值。
-an 选择填加注释信息。
更多其他参数参考:
http://www.broadinstitute.org/gatk/gatkdocs/org_broadinstitute_sting_gatk_walkers_variantrecalibration_VariantRecalibrator.html
ApplyRecalibration参数详解ApplyRecalibration
-ef 输出结果中不显示被过滤掉的位点。
-lodCutoff VQSLOD值低于这个值就过滤掉。
-recalFile 上一步生成的recalFile。
-tranchesFile 上一步生成的tranchesFile。
-ts_filter_level 上一步中确定的tranche值。
更多其他参数请参考: http://www.broadinstitute.org/gatk/gatkdocs/org_broadinstitute_sting_gatk_walkers_variantrecalibration_ApplyRecalibration.html
其他参数和参考文件
另外,关于如何选择resource data可以参考:
http://www.broadinstitute.org/gatk/guide/article?id=1259
如果要分析的数据集不符合进行VQSR的标准,可以进行hard filter,这一步将使用GATK中的VariantFiltration工具来完成。具体使用方法参考:
http://www.broadinstitute.org/gatk/gatkdocs/org_broadinstitute_sting_gatk_walkers_filters_VariantFiltration.html
最后生成的vcf文件的格式说明,即每一列所代表的的内容,可参考下面的网站,有详细的说明:
http://www.broadinstitute.org/gatk/guide/article?id=1268
原文来自:http://blog.sina.com.cn/s/blog_12d5e3d3c0101qu6t.html