基因组怎么看（如何阅读基因组）-恒鉴网

人类基因组的30亿个字母中储存着大约2万个基因以及数以千计的其它调控“因子”（element）。基因编码信息用来指导蛋白质的合成，而其它基因组成分帮助调控基因活化与其他任务。然而所有这些DNA中编码的信息都需要有复杂的分子机构来阅读并翻译成细胞能够使用的信息。

通常，阅读基因被认为像阅读一个句子一样。阅读机构在DNA中不同序列的引导下来到基因的起始处——相当于一个大写字母，接着由左到右、一个DNA字母一个DNA字母的读下去，直到到达其末尾构成标点符号的序列。告知细胞在何处、何时以及如何阅读一个基因的大写字母和标点符号的部分被称为调控因子。

但是科学家们近来发现基因并不是细胞阅读的唯一信息。实际上，许多调控因子自身也被阅读并被翻译成信息，相当于读出“大写字母”、“逗号”或者“句号”这些单词。甚至更令人惊讶的是，基因由“起始点”起被双向阅读，结果同时产生正向和反向的信息。

面对所有这些信息，细胞怎样知道哪些是合成蛋白质所需的编码信息呢？阅读基因和调控因子的过程是否存在着某种不同以避免混淆呢？发表于2014年11月10日的Nature Genetics的最新研究表明阅读过程本身的初始步骤实际上在基因和调控因子上都是相当类似的。主要的不同似乎出现在这一初始步骤之后，存在于信息的长度和稳定性之中。基因的信息要足够长并且稳定，以确保基因指导合成蛋白质，而调控因子的信息是短且不稳定的，被细胞快速地“清理”（clean up）掉。

为了做出区分，由美国冷泉港实验室（Cold Spring Harbor Lab，CSHL）教授Adam Siepel和康奈尔大学（Cornell University）教授John Lis共同领导的团队在基因和一类称为增强子（enhancer）的调控因子的最初阅读过程中寻找不同。Siepel说：“我们使用Lis实验室开发的高度敏感实验技术来检测细胞中新产生的信息。这就像拥有了一个新的、更强大的显微镜，用来观察如同在活细胞中出现的转录过程。”

引人注目的是，该团队发现增强子的阅读模式和基因信息在许多方面是高度类似，结构也相同。Siepel解释说：“我们的数据显示相同的基本阅读过程发生在基因和非基因的调控因子上。这表明基因组中的DNA转录是一个统一模型。”

来自Lis实验室的生物化学家同Siepel研究组的计算机高手一道工作，仔细地比较了增强子和基因的模式，将他们自己的数据同来自美国国立卫生研究院（National Institutes of Health，NIH）的DNA成分百科全书（Encyclopedia of DNA Elements，ENCODE）项目的大量的公共数据混合在一起。Siepel说：“通过不同的方法，我们发现翻译发起的模式在增强子和基因间是基本一致的。多数RNA信息是被快速破坏掉的，但是那些以正确的方向被阅读、注定要成为蛋白质的基因信息免于受破坏。”该团队设计出一个模型来量化地解释稳定翻译与不稳定翻译之间的差异，为定性基因提供了深刻见解。Siepel说：“我们的分析表明大部分稳定性编码存在于DNA中，增强子和基因在这一点上十分类似。”

Siepel称：“这一工作对于新基因的进化起源有着重要意义。因为DNA从任何起始区都是双向阅读的，每个区域都有可能产生两种只有少量细微变化的蛋白质编码基因。基因组中充满了潜在的新基因。”

基因组测序得到的是一本写有核苷酸长序列的“无字天书”。哪一小段序列构成一个基因，这个基因能否指导合成蛋白、能合成哪些蛋白，在这本“书”上是找不到答案的。要回答以上问题，就需要科学家们做进一步的注释。

以往的注释工作，多是从生物信息学的角度进行。这是通过算法计算来预测能翻译蛋白的基因（也称编码基因），以及它们各自在基因组中的位置，但这种方法会遗漏许多编码基因，或对基因做出错误的注释。

随着蛋白质组学的发展，一种利用蛋白质组数据对基因组进行深度注释的研究方向悄然兴起。具体来说，就是提取生物细胞内所有的蛋白质，通过质谱分析法得到每个蛋白的氨基酸序列，再在计算机上将其与基因组序列进行大量比对，反推出各编码基因的精确位置。

“眼见为实自然比基于运算推测来得可靠。”据该研究成果的第一作者杨明坤介绍，这次实验不仅为许多已知的编码基因如何在蛋白质水平上表达提供了证据支持，还发现了606个新的编码基因，其中有56个在此前被错误预测为非编码基因，另有506个编码基因的错误注释得到校正。

能解析蛋白质翻译后修饰现象，是蛋白质基因组学的另一优势。通过20种氨基酸合成的蛋白质，通常要再经过一道加工工序，才能成为具备某种功能的成熟蛋白，而加工的类型往往是多样的。这就意味着，相同的氨基酸序列，可能会形成不同种类的成熟蛋白。此次研究发现的20多种蛋白质翻译后修饰，就是这一优势的佐证。

如何阅读基因组

如何将蛋白质组图谱描画得更精细、对深奥的基因组信息注释得更详尽，一直以来都是蛋白质基因组学的一大难题。而此次研究在可变剪切体的完善上有了新的突破。可变剪切是指基因在转录过程中，“剪”去某几段序列，并将剩下的序列打乱重组的过程。同一基因，不同的剪切位点和排列方式，会形成不同的蛋白质。

杨明坤在接受科技日报采访时表示，此前的研究都是通过鉴定相应蛋白质的存在，去验证已知的可变剪切体。而这次他们做的工作，是去发现未知的可变剪切体。

“我们设计相关算法，寻找蛋白的氨基酸序列上可能存在的不同剪切位点，再将剪切得到的‘断片’与基因组数据比对，从而找到相应的可变剪切体。”杨明坤说。据悉，该团队共发现21个新的可变剪切体，并修正了73个已知基因的可变剪切位点。

对基因组的深度注释涉及大量的运算，为提高工作效率，该团队将各个步骤运用到的算法整合起来，研发出一款适用于所有生物的数据分析软件。运用这款软件，只需输入质谱仪采集的质谱数据和简单的软件运行参数，就能直接得到相关的基因组注释信息。团队还建立了一套实验流程，供其他科学家参考。这也意味着，今后可直接依葫芦画瓢，用团队的这套流程和软件，快速完成其他物种的基因组深度注释。

杨明坤表示，研究小组将进一步优化软件，继续提高其运算速度和准确率。“由于2014年完成的人类蛋白质组草图有太多错漏，我们准备进一步完善这项工作。只有清楚了人体各个组织内都有哪些蛋白质，在此基础上才能更好地进行精准医疗。”杨明坤说。

声明：本文来源于恒鉴精选整理，内容仅供参考。本站对文章的真实性、完整性、及时性不作任何保证和承诺，也不构成任何法律建议，请用户自行核实，在做出决定前，请务必咨询专业人士以获取准确和最新的信息。