3D genomics

【3D Genome】 HiC-Pro 輸出檔allValidPairs 的格式筆記

allValidPairs檔為HiC Pro的主要輸出結果之一,基本上紀錄了Hi-C矩陣的原始資訊,後續分析步驟中也可以把.allValidPairs轉換成壓縮格式.hic來視覺化。allValidPairs的每個row代表兩個位置有interaction的record,也就是紀錄一筆實驗上觀測到的cross linking pair,要產生contact matrix則是還需要在產生.hic的過程(可以用HiC-Pro的hicpro2juicebox.sh)將其總數量統計起來。

例如以下資料:

E00513:63:H2V37CCX2:8:2116:16498:70574  Chr1     1767    -       Chr1      8888    +       182     HIC_Chr1_8        HIC_Chr1_33       8       42
      0-0

直接拆解如下:

read_name / chr_A / start_A / strand_A / chr_B / start_B / strand_B / insert size / fragment_name_A / fragment_name_B / mapQ_A / mapQ_B / allele-specific info

位依序為:

  1. read名稱
  2. A's chromosome number
  3. A's start position
  4. A`strand(transcription direction)
  5. B's chromosome number
  6. B's start position
  7. B`strand(transcription direction)
  8. insert size
  9. A的fragment名稱
  10. B的fragment名稱
  11. A的MAPQ Quality Score
  12. B的MAPQ Quality Score
  13. 等位基因的其他資訊

參考資料:

https://github.com/nservant/HiC-Pro/issues/426

Leave a Reply

Your email address will not be published. Required fields are marked *

en_USEnglish