3D Genome三維基因組學

【3D Genome】 HiC-Pro 輸出檔allValidPairs 的格式筆記

allValidPairs檔為HiC Pro的主要輸出結果之一,基本上紀錄了Hi-C矩陣的原始資訊,後續分析步驟中也可以把.allValidPairs轉換成壓縮格式.hic來視覺化。allValidPairs的每個row代表兩個位置有interaction的record,也就是紀錄一筆實驗上觀測到的cross linking pair,要產生contact matrix則是還需要在產生.hic的過程(可以用HiC-Pro的hicpro2juicebox.sh)將其總數量統計起來。

例如以下資料:

E00513:63:H2V37CCX2:8:2116:16498:70574  Chr1     1767    -       Chr1      8888    +       182     HIC_Chr1_8        HIC_Chr1_33       8       42
      0-0

直接拆解如下:

read_name / chr_A / start_A / strand_A / chr_B / start_B / strand_B / insert size / fragment_name_A / fragment_name_B / mapQ_A / mapQ_B / allele-specific info

位依序為:

  1. read名稱
  2. A的染色體號
  3. A的起始位置
  4. A的strand(轉錄方向性)
  5. B的染色體號
  6. B的起始位置
  7. B的strand(轉錄方向性)
  8. insert size
  9. A的fragment名稱
  10. B的fragment名稱
  11. A的MAPQ Quality Score
  12. B的MAPQ Quality Score
  13. 等位基因的其他資訊

參考資料:

https://github.com/nservant/HiC-Pro/issues/426

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

zh_TWChinese