人类基因组图谱的最新版本于2013年发布,被称为GRCh38。从那时起,它就被反复修补。至今,它仍然缺少5%-10%的基因组,包括所有的着丝粒和其他困难区域,如编码核糖体RNA序列的大量基因。
这些缺失的基因组藏于大量重复基因拷贝的长序列中。两种长读长测序技术正在填补这些缺口。加州生物技术公司太平洋生物科学(Pacific Biosciences,以下简称PacBio)使用一种成像系统来直接读取数十万甚至数百万条平行DNA链,每条链包含数千个碱基。
另一种技术是由英国公司牛津纳米孔技术(Oxford Nanopore Technologies)实现商业化,它将DNA链穿过微小的蛋白孔或纳米孔,测量核苷酸穿过孔道时电流的细微变化,进而读取数万至数十万个碱基。