【3D Genome】 HiC-Pro 輸出檔allValidPairs 的格式筆記

allValidPairs檔為HiC Pro的主要輸出結果之一,基本上紀錄了Hi-C矩陣的原始資訊,後續分析步驟中也可以把.allValidPairs轉換成壓縮格式.hic來視覺化。allValidPairs的每個row代表兩個位置有interaction的record,也就是紀錄一筆實驗上觀測到的cross linking pair,要產生contact matrix則是還需要在產生.hic的過程(可以用HiC-Pro的hicpro2juicebox.sh)將其總數量統計起來。
例如以下資料:
E00513:63:H2V37CCX2:8:2116:16498:70574 Chr1 1767 - Chr1 8888 + 182 HIC_Chr1_8 HIC_Chr1_33 8 42
0-0
直接拆解如下:
read_name / chr_A / start_A / strand_A / chr_B / start_B / strand_B / insert size / fragment_name_A / fragment_name_B / mapQ_A / mapQ_B / allele-specific info
位依序為:
- read名稱
- A的染色體號
- A的起始位置
- A的strand(轉錄方向性)
- B的染色體號
- B的起始位置
- B的strand(轉錄方向性)
- insert size
- A的fragment名稱
- B的fragment名稱
- A的MAPQ Quality Score
- B的MAPQ Quality Score
- 等位基因的其他資訊
參考資料:
https://github.com/nservant/HiC-Pro/issues/426
是一個對 “下一個世代” 的醫療科技充滿熱血的 Bioinformatican