在分子生物学的中心法则(central dogma)中,DNA被转录为RNA,RNA再被核糖体翻译为多肽链,即氨基酸序列,这些氨基酸序列单独或复合而构成蛋白质。蛋白质折叠成各种低能量的复杂结构,并扮演细胞机(cellular machine)的功能;DNA序列决定了氨基酸的序列,进而确定了蛋白质的折叠结构。这个结构最终决定了蛋白质在细胞中的功能。某些种类的RNA也扮演细胞机的功能。从这个过程中收集各种级别生物数据的方法都已经被开发出来,导致在DNA、RNA和蛋白质的序列、丰度、结构、功能以及相互作用等方面的数据大量涌现。这些数据中的大部分可以使用标准的大数据方法进行分析。
序列数据(sequence data),无论是核苷酸序列(使用4个字母分别代表DNA或RNA的4种碱基)还是蛋白质序列(使用20个字母分别代表20种标准氨基酸)都存在多种获取方法。蛋白质和RNA序列可使用质谱法进行测定,此方法能够探测到蛋白质序列及其与RNA序列之间的交互,进而获得RNA序列及其丰度信息。而RNA在蛋白质的翻译过程中起到核心作用,所以科学家们可以从这些RNA信息推断出基因的表达。然而,随着下代测序(Next-Generation Sequencing,NGS)技术的出现,得到最多的是DNA序列数据。
在基因组时代的伊始,桑格测序法是使用最为广泛的读取基因组的方法。然而近年来,以umina公司开创的“合成测序 (sequencing by synthesis)”为开端的NGS技术的出现,因其支持大规模并行测序、成本低、制备样本简单,极大地提高了获取测序数据的吞吐率。Illumina测序技术,以及其他NGS技术,如 SOLID,Ion torrent和454焦磷酸测序(pyrosequencing),不是像阅读线装书一样对DNA序列进行从头到尾测序。而在鸟枪法测序(shotgun sequencing)中,DNA分子被切成很多小片段(fragments);从这些片段的一端或两端,可产生读长(reads)。这些读长必须以正确的顺序放在一起,而构成整个基因组。目前读长的典型长度是50到200个碱基。因为没有哪一种测序技术是完全可靠的,所以测序仪为每个位置还提供了一个质量值(quality score,对测得的DNA碱基的置信度)。这样,一个NGS的读长包含一串DNA序列和一串ASCI码组成的碱基质量值。一次测序将产生很多彼此重叠的读长。当使用聚类分析和概率方法测量丰度信息,进而产生基因表达数据时,数据的高维度以及数据中的噪音给分析带来了巨大的挑战。