编者按
欢迎关注微信公众号:基因学苑,更多精彩内容等你发掘!
前面写了专题《手把手教你生物信息分析平台搭建》,然后又介绍了很多《生物神奇网站》资源,也介绍了《生物信息之独孤九剑》Linux操作。那么万事俱备,就开始学习生物信息吧。所以,我们开始新的篇章——《生物信息百jia软件》。百Jia是什么意思呢?可以是百佳,也可以是百家,还可以是百加。从100家中选择100款优秀软件,掌握这些软件,就可以扩展出更多内容,这就是百Jia。
一、功能分类:
原核生物基因预测
二、软件官网:
http://ccb.jhu.edu/software/glimmer/index.shtml
三、软件介绍:
Glimmer是用于原核生物基因组预测的工具,只要输入原核生物基因组即可得到其基因信息。不过该软件最终结果只是基因的位置信息,需要额外程序将基因从基因组上提取出来,并翻译成对应的氨基酸序列。
四、下载安装:
tar -zxvf glimmer302b.tar.gz
cd glimmer3.02
make
五、软件使用:
glimmer并不能像prodigal那样,一步完成工作。Glimmer做基因预测一般需要2个步奏。首先是建立预测的模型,第二步是利用模型来对基因组进行基因预测。模型也叫训练集,也就是先让软件了解基因的一些特征,这样软件就能根据已知的信息,来推测未知的信息。
建立模型采用build-icm程序来完成。build-icm的输入有三种。
1、某基因组的已知信息;
2、通过long-orfs产生的长的无重叠的orfs;
3、高度相似的物种的基因。
可以选用自身作为训练集来作为模型。
首先要将输入文件格式化到一条。
首先我们将多条fasta文件合并成一条,可以使用sed 命令完成。
sed -e ‘/>/d’ K12.fna |tr -d ‘\n’ |awk ‘BEGIN {print “>wholefile”}{print $0}’ >wholefile
这样就可以用作long-orfs的输入了。
运行long-orfs产生无重叠的orfs
long-orfs -n -t 1.15 $wholefile $tagname.longorfs 1>/dev/null 2>/dev/null
然后运行extract来提取训练集
extract -t $wholefile $tagname.longorfs > $tagname.train 2>/dev/null
这样训练集就处理好了。
如果有某基因组的已知基因,或者高度相似的物种基因不用以上三个步骤,接下来我们运行bulid-icm通过训练集,来生产预测的模型,用于基因预测
build-icm -r $tagname.icm < $tagname.train 1>/dev/null 2>/dev/null
最后我们就可以直接运行glimmer3来完成基因预测。
glimmer3 -o50 -g110 -t30 [options]
六、使用案例:
sed -e ‘/>/d’ ref.fna |tr -d ‘\n’ |awk ‘BEGIN {print “>wholefile”}{print $0}’ >wholefile
long-orfs -n -t 1.15 wholefile tagname.longorfs 1>/dev/null 2>/dev/null
extract -t wholefile tagname.longorfs > tagname.train 2>/dev/null
build-icm -r tagname.icm < tagname.train 1>/dev/null 2>/dev/null
glimmer3 -o50 -g110 -t30 ref.fna tagname.icm ref
七、注意事项:
1、glimmer得到的结果是列表格式,需要自行根据列表将序列提取出来;
2、这里面注意一下基因的方向以及密码子的选择。原核生物选择第11套密码子表,如果是支原体要选择第四套密码子表。