NGS 次世代定序基因體資料科學

【NGS 次世代基因體資料科學】 基礎教學 04 FASTQ格式以及Header標頭資訊

本篇本篇文章主要介紹FASTQ檔的基本概念,FASTQ檔是大多數NGS資料分析的起點,也就定序完成下機之後處理好給生資人員最常見的檔案,這裡將介紹它的格式。

何謂FASTQ檔

FASTQ檔為樣本定序下機後的Raw data,副檔名可為.fastq或是 . fq。定序類型可分為單端(Single-End)或雙端(Paired-End)定序。如果是Paired-End,顧名思義就是一個生物樣本對應到的定序數據會有一對(也就是二個),通常用_R1,_R2 來區分(命名約定好即可,但拿到資料如果沒特別說明,看到類似這樣的格式就大約知道是Paired-End),而大多數NGS的基因體學資料都是這個格式的方式保存,如果是定序大廠Illumina的資料上游從bcl檔轉換成fastq (bcl2fastq)。

通常拿到這種格式的資料會跑fastqc做簡單的QC,確認資料品質,然後下一步可能會需要去除adaptor後做mapping,把這序列回對到基因體的某個位置上,再來做後續的分析。如果是已經published的data,通常也是以這種格式存放在NCBI上。

FASTQ檔的基因體資料由4個line共同組成一個read的紀錄。每條read就是一個DNA的片段。這裡以NGS大廠的Illumina機器的格式為例

FASTQ檔的標頭(header)

line 1 為header,分隔符號為:,詳細欄位如下

@[機器序號(machine id)]:[次號(run number)]:[泳道(lane)]:[瓦號(tile number)]:[cluster簇座標X: [cluster簇座標Y]:[(可選UMI標記R1+R2)] [單端或雙端編號(1 or 2 )]:[是否被過濾(Y or N)]:[控制號(control number)]:[索引序列(index)]

解析範例參考自Illumina的參考文件:

@SIM:1:FCX:1:15:6329:1045:GATTACT+GTCTTAAC 1:N:0:ATCCGA
起始識別符號@
機器序號(machine id)SIM
次號(run number)1
泳道(lane)FCX
瓦號(tile number)15
cluster簇座標X6329
cluster簇座標Y1045
UMI R1GATTACT
UMI R2GTCTTAAC
空白分隔
單端或雙端編號(1 or 2 )1(單端)
是否被過濾(Y or N)N(否)
控制號0
索引序列(index)ATCCGA
Illumina fastq header的格式解析範例

如果是初學者或分析師,這邊的資訊可以參考就好,但如果是開發者可以注意最後區段就是index的部分,有些玩index的技術,就是做一些特殊標記措施)就是處理這段資訊。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

zh_TWChinese