FASTQ格式

FASTQ格式是一种保存生物序列（通常为核酸序列）及其测序质量得分信息的文本格式。序列与质量得分皆由单个ASCII字符表示。

该格式最初由维尔康姆基金会桑格研究所开发，旨在将FASTA格式序列及其质量数据整合在一起。而目前，FASTQ格式已经成为了保存高通量测序结果的事实标准。^[1]

格式

FASTQ文件中，一个序列通常由四行组成：

以下为一个包含单个序列的FASTQ文件示例：

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

其中!为最低质量、~则为最高质量。以下字符从左到右代表从低到高的质量得分的：

 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

字符与对应的ASCII码如下：

最初桑格研究所的FASTQ格式允许序列与质量信息分成多行保存。但一般不推荐采用这种方式，因为第一、第三行开头的@与+符号同样也可能出现在质量信息中，可能会造成信息提取的困难。

^ Cock, Peter J. A.; Fields, Christopher J.; Goto, Naohisa; Heuer, Michael L.; Rice, Peter M. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic Acids Research. 2010-04, 38 (6): 1767–1771 [2025-01-15]. ISSN 0305-1048. PMC 2847217 . PMID 20015970. doi:10.1093/nar/gkp1137. （原始内容存档于2024-11-13）（英语）.