【NGS 次世代基因體資料科學】基礎教學 04 FASTQ格式以及Header標頭資訊

楊明翰3 月 26, 2017

本篇本篇文章主要介紹FASTQ檔的基本概念，FASTQ檔是大多數NGS資料分析的起點，也就定序完成下機之後處理好給生資人員最常見的檔案，這裡將介紹它的格式。

內容目錄

何謂FASTQ檔

FASTQ檔為樣本定序下機後的Raw data，副檔名可為.fastq或是 . fq。定序類型可分為單端(Single-End)或雙端(Paired-End)定序。如果是Paired-End，顧名思義就是一個生物樣本對應到的定序數據會有一對(也就是二個)，通常用_R1，_R2 來區分(命名約定好即可，但拿到資料如果沒特別說明，看到類似這樣的格式就大約知道是Paired-End)，而大多數NGS的基因體學資料都是這個格式的方式保存，如果是定序大廠Illumina的資料上游從bcl檔轉換成fastq (bcl2fastq)。

通常拿到這種格式的資料會跑fastqc做簡單的QC，確認資料品質，然後下一步可能會需要去除adaptor後做mapping，把這序列回對到基因體的某個位置上，再來做後續的分析。如果是已經published的data，通常也是以這種格式存放在NCBI上。

FASTQ檔的基因體資料由4個line共同組成一個read的紀錄。每條read就是一個DNA的片段。這裡以NGS大廠的Illumina機器的格式為例

FASTQ檔的標頭(header)

line 1 為header，分隔符號為:，詳細欄位如下

@[機器序號(machine id)]:[次號(run number)]:[泳道(lane)]:[瓦號(tile number)]:[cluster簇座標X: [cluster簇座標Y]:[(可選UMI標記R1+R2)] [單端或雙端編號(1 or 2 )]:[是否被過濾(Y or N)]:[控制號(control number)]:[索引序列(index)]

解析範例參考自Illumina的參考文件:

@SIM:1:FCX:1:15:6329:1045:GATTACT+GTCTTAAC 1:N:0:ATCCGA

起始識別符號	@
機器序號(machine id)	SIM
次號(run number)	1
泳道(lane)	FCX
瓦號(tile number)	15
cluster簇座標X	6329
cluster簇座標Y	1045
UMI R1	GATTACT
UMI R2	GTCTTAAC
空白分隔
單端或雙端編號(1 or 2 )	1(單端)
是否被過濾(Y or N)	N(否)
控制號	0
索引序列(index)	ATCCGA

Illumina fastq header的格式解析範例

如果是初學者或分析師，這邊的資訊可以參考就好，但如果是開發者可以注意最後區段就是index的部分，有些玩index的技術，就是做一些特殊標記措施)就是處理這段資訊。

楊明翰

是一個對 “下一個世代” 的醫療科技充滿熱血的 Bioinformatican

更多介紹

【NGS 次世代基因體資料科學】基礎教學 04 FASTQ格式以及Header標頭資訊

何謂FASTQ檔

FASTQ檔的標頭(header)

發佈留言取消回覆

近期文章

近期留言

彙整

分類

Recent Posts

Recent Comments

何謂FASTQ檔

FASTQ檔的標頭(header)

Related Posts

【NGS 次世代基因體資料科學】Gene2vec基因的分散式表徵

【NGS 次世代基因體資料科學】使用bioinfokit繪製火山圖Volcano Plot

【NGS 次世代基因體資料科學】t-SNE簡介

發佈留言 取消回覆

近期文章

近期留言

彙整

分類

Recent Posts

Recent Comments

發佈留言取消回覆