当前位置: 首页 > 工具软件 > VCF > 使用案例 >

VCF格式解析

羊昊苍
2023-12-01

声明:本文为转载文章,如有侵权,请联系,速删!

VCF是用于描述SNP,INDEL和SV结果的文件,下面所记录的是以GATK软件结果的VCF文件,与SAMtools的结果有点不同

VCF文件可以分为两部分看,最上面#号注释的的部分是对一些参数的解释(看英文能懂的话,下面的解释就不用看了),而下面没#号注释的部分则是各个参数对应的具体的值 一般先关注以下几列信息,从左到右为:

#CHROM  POS ID  REF ALT QUAL    FILTER  INFO
1   17538   rs200046632 C   A   99.60   PASS    
1   54421   rs146477069 A   G   88.60   PASS
1   55299   rs10399749  C   T   867.60  PASS
1   61442   rs74970982  A   G   593.03  PASS
1   63268   rs75478250  T   C   357.60  PASS
1   64310   rs367969174 A   G   59.60   PASS
  • 颜色 :染色体编号
  • POS:参考基因组上variant碱基的位置,如果是INDEL,则该位置是INDEL第一个碱基的位置
  • ID:variant的ID,如果在dbSNP中有SNP的id,则显示其id,不然以点表示novel variant。
  • REF:参考序列上该位点对应的碱基
  • ALT:与参考序列上的碱基相比发生了突变的碱基,即Variant的碱基
  • QUAL:Phred格式(Phred_scaled)的质量值,表示该位点存在Variant的可能性,值越高表示突变可能性越大
  • FILTER:理想情况下,QUAL这个值应该是用所有的错误模型算出来的,这个值就可以代表正确的变异位点了,但是事实是做不到的。因此,还需要对原始变异位点做进一步的过滤。无论你用什么方法对变异位点进行过滤,过滤完了之后,在FILTER一栏都会留下过滤记录,如果是通过了过滤标准,那么这些通过标准的好的变异位点的FILTER一栏就会注释一个PASS,如果没有通过过滤,就会在FILTER这一栏提示PASS的其他信息(如:LowQual)。如果这一栏是一个"."的话,就说明没有进行过任何过滤。

以上几列是最先关注的,接下来还有两列也是蛮重要的FORMAT和最后一列(最后一列一般为样品名),两者和一起则为基因型信息,前者为格式,后者为对应的数据,如:

GT:AD:DP:GQ:PL  0/1:6,5:11:99:138,0,153
  • GT:表示样品的基因型,对于二倍体生物,GT值表示的是样本在这个位点所携带的两个等位基因。0表示跟REF一样,1表示跟ALT一样,2表示有第二个ALT;当只有一个ALT等位基因时:0/0表示纯合子并跟REF一致;0/1表示杂合子,有两个allele,一个是ALT,另一个是REF;1/1表示纯合子并都为ALT
  • AD:两个以逗号分隔的值,分别表示覆盖到REF和ALT碱基的reads数,也就是REF和ALT对应的测序深度
  • DP:表示覆盖在这个位点的总reads数,也就是这个位点的测序深度(并不是指具体有多少个reads数量,而是大概满足一定质量值要求的reads数)
  • PL:三个逗号分隔的值,分别对应该位点的三个基因型0/0,0/1,1/1的没经过先验的标准化Phred-scaled似然值(L),L=-10lgP,P为支持该基因型的概率,3个概率总和为1;因此,L这个值越小,支持概率就越大,也就是说是这个基因型的可能性越大。
  • GQ:表示基因型的质量值,Phred格式(Phred_scaled)的质量值,Phred值 = -10 * log (1-p) p为基因型存在的概率,表示该位点基因型存在的可能性。

最后则是INFO列所包含的信息:

AC=1;AF=0.500;AN=2;BaseQRankSum=0.748;ClippingRankSum=0.000;DB;DP=34;ExcessHet=3.0103;FS=3.424;MLEAC=1;MLEAF=0.500;MQ=31.07;MQRankSum=-0.087;QD=11.87;ReadPosRankSum=-1.349;SOR=2.636
AC=2;AF=1.00;AN=2;DB;DP=14;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=31.60;QD=29.36;SOR=5.421
  • AC:表示该Allele的数目,Allele数目为1表示双倍体的样本在该位点只有1个等位基因发生了突变
  • AF:表示Allele的频率,Allele频率为0.5表示双倍体的样本在该位点只有50%的等位基因发生了突变
  • AN:表示Allele的总数目

即:对于1个二倍体 sample而言:则基因型 0/1 表示sample为杂合子,Allele数为1(双倍体的sample在该位点只有1个等位基因发生了突变),Allele的频率为0.5(双倍体的 sample在该位点只有50%的等位基因发生了突变),总的Allele为2; 基因型 1/1 则表示sample为纯合的,Allele数为2,Allele的频率为1,总的Allele为2。

  • DP:样本在这个位置的reads覆盖度,是一些reads被过滤掉后的覆盖度(跟上面提到的DP类似)
  • FS:使用Fisher's精确检验来检测strand bias而得到的Fhred格式的p值,值越小越好
  • MQ:表示覆盖序列质量的均方值RMS Mapping Quality
  • BaseQRankSum:来自Wilcoxon的Z分数 Alt与Ref基本质量的秩和测试
  • ClippingRankSum:Z 得分来自 Wilcoxon 的 Alt 与 Ref 硬剪切基数的秩和检验
  • 过量Het:用于精确检验过量杂合度的Phred标度p值
  • MLEAC:对于每个ALT等位基因,等位基因计数(不一定与AC相同)的最大似然期望(MLE),顺序与列出的顺序相同
  • MLEAF:对于每个ALT等位基因,等位基因频率(不一定与AF相同)的最大似然期望(MLE),顺序与列出的顺序相同
  • MQRankSum:Z 得分来自 Wilcoxon 的 Alt 与 Ref 读取映射质量的秩和测试
  • QD:变异置信度/深度质量
  • ReadPosRankSum:来自Wilcoxon的Z得分 Alt与Ref读取位置偏差的Rancoxon秩和测试
  • SOR:2x2 列联表的对称比值比,用于检测链偏置

参考:


https://www.biostars.org/p/187068/

本文出自于 http://www.bioinfo-scrounger.com 转载请注明出处

 类似资料: