当前位置: 首页 > 工具软件 > Pulsar-Python > 使用案例 >

python pairtools包处理Hi-C数据

督飞羽
2023-12-01

pairtools是一个简单快速的命令行框架,用于处理Hi-C实验中的测序数据。pairtool在Hi-C对上执行各种操作,并在典型的Hi-C数据处理管道中占据中间位置。

pairtools parse detects ligation events in the aligned sequences of DNA molecules formed in Hi-C experiments and reports them in the .pairs/.pairsam format.

1. 安装

conda install -c conda-forge -c bioconda pairtools
# 或者
pip install pairtools

2.pairtools parse:将序列比对解析为Hi-C对

pairtools parse  -o test.pairs.gz -c /home/zheng/HiC_data/hg38/hg38.chrom.sizes --assembly hg38 --min-mapq 1 --max-molecule-size 2000 --max-inter-align-gap 20 --walks-policy all --nproc-in 32 --nproc-out 32 --drop-sam test.bam

3. pairtools sort:排序

pairtools sort test.pairs.gz -o test.sorted.pairs.gz --nproc 32 --memory 32G  --nproc-in 32 --nproc-out 32


4.pairtools dedup:去重
# 必需排序后才能去重

pairtools dedup test.sorted.pairs.gz --max-mismatch 1 --method max --nproc-in 32 --nproc-out 32 -o test.nodups.pairs.gz 


5.pairtools select:选择特定类型Hi-C对

pairtools select '(pair_type=="UU") or (pair_type=="UR") or (pair_type=="RU") or (pair_type=="uu")' test.nodups.pairs.gz -o test.select.pairs.gz  --nproc-in 32 --nproc-out 32 

6. pairtools stat:统计Hi-C对距离、类型等

pairtools stats test.select.pairs.gz  -o test.select.stats

参考:

https://pairtools.readthedocs.io/en/latest/index.html#

 类似资料: