在2001年,人类基因组计划国际联盟发表了人类基因组序列的初稿和初步分析。序列草案覆盖了人类基因组的90%以上。令人惊讶的是,估计的基因数量低于预期,仅为30,000-35,000。(2003年产生的最终基因组序列进一步将这一估计降低到20,000-25,000范围)序列数据立即免费发布给全世界。研究人员可以通过互联网上的公共数据库访问数据,并且可以不受限制地使用这些信息。与此同时,另一个版本的人道基因组序列由J. Craig Venter和在Celera Genomics Corporation工作的同事发表。

对人类基因组进行测序的努力被称为生物学的大胆创新计划。国际人类基因组测序联盟包括数百名研究人员,他们分布在中国、法国、德国、英国、日本和美国的20个中心工作。产生最多序列数据的中心是:德克萨斯州休斯顿贝勒医学院;密苏里州圣路易斯华盛顿医学院;怀特黑德研究所/麻省理工学院基因组研究中心,马萨诸塞州剑桥;能源部联合基因组研究所,加利福尼亚州核桃溪;以及英国剑桥附近的威康信托基金会桑格研究所。在美国,这项工作由国家人类基因组研究所和能源部领导。
从人类基因组序列草案中获取的摘要数据:
- 人类基因组的草稿序列包含一些仍有待填补的小空白。尽管如此,科学家们已经开始分析数据。一些重要的观察结果是:
- 估计的基因数量约为30,000(后来修订为约20,000-25,000)。这仅是以前认为的四分之一,仅比微小的线虫秀丽隐杆线虫多几千个,比植物拟南芥少。
- 单倍体人类基因组序列包含28.5亿个碱基。
- 平均基因由大约40,000个碱基组成,但基因大小差异很大。已知最大的人类基因是肌营养不良蛋白(与杜氏肌营养不良症有关)。它运行着大约240万个碱基。
- 任何两个个体的DNA序列都是99.9%相同的。
- 超过一半的已发现基因的功能是未知的。
- 不到2%的基因组编码蛋白质。
- 蛋白质组(细胞中蛋白质的完整集合)大于基因组。人类基因平均产生三种不同的蛋白质。
- 不编码蛋白质的重复序列至少占人类基因组的一半。
- 基因组中富含基因的区域主要由碱基鸟嘌呤和胞嘧啶组成,而在基因贫乏的区域,碱基腺嘌呤和胸腺嘧啶占主导地位。
- 基因似乎集中在基因组的随机区域,中间有大量的非编码DNA。
- 1号染色体的基因最多(约3000个),Y染色体的基因最少(约230个)。
- 在人类基因组中发现了超过300万个单核苷酸多态性(SNP)。SNP是基因组中常见的单碱基变异。它们被用于识别与疾病相关的基因组区域。人类基因组估计包含大约1000万个SNP。
- 男性的种系(精子或卵细胞)突变数量大约是女性的两倍。
- 在人类中,基因不均匀地分布在整个基因组中,而在原核生物中,基因在整个基因组中均匀分布。
- 人类基因组的重复序列比例(50%)比芥菜草(11%),线虫(7%)和果蝇(3%)大得多。
References:
International Human Genome Consortium. Initial sequencing and analysis of the human genome.Nature,409: 860-921. 2001. [PubMed]
Venter, J.C. Adams, M.D., Myers, E.W., Li, P.W., Mural, R.J., et al. The sequence of the human genome.Science,291: 1304-1351. 2001. [PubMed]