【NGS 次世代基因體資料科學】 基礎教學 04 FASTQ格式以及Header標頭資訊

本篇本篇文章主要介紹FASTQ檔的基本概念,FASTQ檔是大多數NGS資料分析的起點,也就定序完成下機之後處理好給生資人員最常見的檔案,這裡將介紹它的格式。
何謂FASTQ檔
FASTQ檔為樣本定序下機後的Raw data,副檔名可為.fastq或是 . fq。定序類型可分為單端(Single-End)或雙端(Paired-End)定序。如果是Paired-End,顧名思義就是一個生物樣本對應到的定序數據會有一對(也就是二個),通常用_R1,_R2 來區分(命名約定好即可,但拿到資料如果沒特別說明,看到類似這樣的格式就大約知道是Paired-End),而大多數NGS的基因體學資料都是這個格式的方式保存,如果是定序大廠Illumina的資料上游從bcl檔轉換成fastq (bcl2fastq)。
通常拿到這種格式的資料會跑fastqc做簡單的QC,確認資料品質,然後下一步可能會需要去除adaptor後做mapping,把這序列回對到基因體的某個位置上,再來做後續的分析。如果是已經published的data,通常也是以這種格式存放在NCBI上。
FASTQ檔的基因體資料由4個line共同組成一個read的紀錄。每條read就是一個DNA的片段。這裡以NGS大廠的Illumina機器的格式為例
FASTQ檔的標頭(header)
line 1 為header,分隔符號為:,詳細欄位如下
@[機器序號(machine id)]:[次號(run number)]:[泳道(lane)]:[瓦號(tile number)]:[cluster簇座標X: [cluster簇座標Y]:[(可選UMI標記R1+R2)] [單端或雙端編號(1 or 2 )]:[是否被過濾(Y or N)]:[控制號(control number)]:[索引序列(index)]
解析範例參考自Illumina的參考文件:
@SIM:1:FCX:1:15:6329:1045:GATTACT+GTCTTAAC 1:N:0:ATCCGA
起始識別符號 | @ |
機器序號(machine id) | SIM |
次號(run number) | 1 |
泳道(lane) | FCX |
瓦號(tile number) | 15 |
cluster簇座標X | 6329 |
cluster簇座標Y | 1045 |
UMI R1 | GATTACT |
UMI R2 | GTCTTAAC |
空白分隔 | |
單端或雙端編號(1 or 2 ) | 1(單端) |
是否被過濾(Y or N) | N(否) |
控制號 | 0 |
索引序列(index) | ATCCGA |
如果是初學者或分析師,這邊的資訊可以參考就好,但如果是開發者可以注意最後區段就是index的部分,有些玩index的技術,就是做一些特殊標記措施)就是處理這段資訊。
是一個對 “下一個世代” 的醫療科技充滿熱血的 Bioinformatican