Trinity:是由Broad Institute 开发的转录组de novo组装软件,由三个独立的软件模块组成:Inchworm Chrysalis和Butterfly。三个软件依次来处理大规模的RNA-seq的reads数据。
trinity的下载与安装
trinity最新版本是v2.4.0 下载官网在:https://github.com/trinityrnaseq/trinityrnaseq/wiki
下载:nohup wget -c https://github.com/trinityrnaseq/trinityrnaseq/archive/Trinity-v2.4.0.tar.gz 1>trinity.o 2>trinity.e &
解压:tar -zxvf Trinity-v2.4.0.tar.gz
cd Trinity-v2.4.0
编译:make
trinity的使用方法
命令:Trinity.pl --seqType fq --max_memory 100G --left reads_1.fq --right reads_2.fq --CPU 24 --output
几个重要参数介绍:
–seqType 支持输入数据格式为 fq 或者 fa
–max_memory 组装过程中,jellyfish这一步是最耗费资源的一步 所以这个内存主要由jellyfish控制
如果是双端测序:–left为read1 --right为read2 多个样品的reads由逗号隔开,不允许出现空格 但是老版本如r20131110版 reads是由空格隔开,具体看不同版本的trinity的帮助文档
如果是单端测序 参数为 --single 加上文件 多个样品的reads由逗号隔开,不允许出现空格
–CPU 软件所用线程
–SS_lib_type RF 链特异性文库需要加上这个参数
–no_run_butterfly 不进行butterfly步骤,在Chrysalis这一步完成后中断
–no_run_quantifygraph 不进行quantifygraph这一步
–output trinity的输出文件夹
–no_version_check 不汇报版本信息
注:trinity支持分步骤运行,但我认为必要性不大,因为分步运行的原因在于避免中途发生错误,但是trinity会自动检测之前输入,如果中途发生报错,进行修改之后,再次投递,会按照原输出继续跑,不会对之前结果进行覆盖