基因组怎么看(如何阅读基因组)

人类基因组的30亿个字母中储存着大约2万个基因以及数以千计的其它调控“因子”(element)。基因编码信息用来指导蛋白质的合成,而其它基因组成分帮助调控基因活化与其他任务。然而所有这些DNA中编码的信息都需要有复杂的分子机构来阅读并翻译成细胞能够使用的信息。

通常,阅读基因被认为像阅读一个句子一样。阅读机构在DNA中不同序列的引导下来到基因的起始处——相当于一个大写字母,接着由左到右、一个DNA字母一个DNA字母的读下去,直到到达其末尾构成标点符号的序列。告知细胞在何处、何时以及如何阅读一个基因的大写字母和标点符号的部分被称为调控因子。

基因组怎么看(如何阅读基因组)

但是科学家们近来发现基因并不是细胞阅读的唯一信息。实际上,许多调控因子自身也被阅读并被翻译成信息,相当于读出“大写字母”、“逗号”或者“句号”这些单词。甚至更令人惊讶的是,基因由“起始点”起被双向阅读,结果同时产生正向和反向的信息。

面对所有这些信息,细胞怎样知道哪些是合成蛋白质所需的编码信息呢?阅读基因和调控因子的过程是否存在着某种不同以避免混淆呢?发表于2014年11月10日的Nature Genetics的最新研究表明阅读过程本身的初始步骤实际上在基因和调控因子上都是相当类似的。主要的不同似乎出现在这一初始步骤之后,存在于信息的长度和稳定性之中。基因的信息要足够长并且稳定,以确保基因指导合成蛋白质,而调控因子的信息是短且不稳定的,被细胞快速地“清理”(clean up)掉。

为了做出区分,由美国冷泉港实验室(Cold Spring Harbor Lab,CSHL)教授Adam Siepel和康奈尔大学(Cornell University)教授John Lis共同领导的团队在基因和一类称为增强子(enhancer)的调控因子的最初阅读过程中寻找不同。Siepel说:“我们使用Lis实验室开发的高度敏感实验技术来检测细胞中新产生的信息。这就像拥有了一个新的、更强大的显微镜,用来观察如同在活细胞中出现的转录过程。”

引人注目的是,该团队发现增强子的阅读模式和基因信息在许多方面是高度类似,结构也相同。Siepel解释说:“我们的数据显示相同的基本阅读过程发生在基因和非基因的调控因子上。这表明基因组中的DNA转录是一个统一模型。”

来自Lis实验室的生物化学家同Siepel研究组的计算机高手一道工作,仔细地比较了增强子和基因的模式,将他们自己的数据同来自美国国立卫生研究院(National Institutes of Health,NIH)的DNA成分百科全书(Encyclopedia of DNA Elements,ENCODE)项目的大量的公共数据混合在一起。Siepel说:“通过不同的方法,我们发现翻译发起的模式在增强子和基因间是基本一致的。多数RNA信息是被快速破坏掉的,但是那些以正确的方向被阅读、注定要成为蛋白质的基因信息免于受破坏。”该团队设计出一个模型来量化地解释稳定翻译与不稳定翻译之间的差异,为定性基因提供了深刻见解。Siepel说:“我们的分析表明大部分稳定性编码存在于DNA中,增强子和基因在这一点上十分类似。”

Siepel称:“这一工作对于新基因的进化起源有着重要意义。因为DNA从任何起始区都是双向阅读的,每个区域都有可能产生两种只有少量细微变化的蛋白质编码基因。基因组中充满了潜在的新基因。”

基因组测序得到的是一本写有核苷酸长序列的“无字天书”。哪一小段序列构成一个基因,这个基因能否指导合成蛋白、能合成哪些蛋白,在这本“书”上是找不到答案的。要回答以上问题,就需要科学家们做进一步的注释。

以往的注释工作,多是从生物信息学的角度进行。这是通过算法计算来预测能翻译蛋白的基因(也称编码基因),以及它们各自在基因组中的位置,但这种方法会遗漏许多编码基因,或对基因做出错误的注释。

随着蛋白质组学的发展,一种利用蛋白质组数据对基因组进行深度注释的研究方向悄然兴起。具体来说,就是提取生物细胞内所有的蛋白质,通过质谱分析法得到每个蛋白的氨基酸序列,再在计算机上将其与基因组序列进行大量比对,反推出各编码基因的精确位置。

“眼见为实自然比基于运算推测来得可靠。”据该研究成果的第一作者杨明坤介绍,这次实验不仅为许多已知的编码基因如何在蛋白质水平上表达提供了证据支持,还发现了606个新的编码基因,其中有56个在此前被错误预测为非编码基因,另有506个编码基因的错误注释得到校正。

此外,能解析蛋白质翻译后修饰现象,是蛋白质基因组学的另一优势。通过20种氨基酸合成的蛋白质,通常要再经过一道加工工序,才能成为具备某种功能的成熟蛋白,而加工的类型往往是多样的。这就意味着,相同的氨基酸序列,可能会形成不同种类的成熟蛋白。此次研究发现的20多种蛋白质翻译后修饰,就是这一优势的佐证。

如何阅读基因组​​​​​​​

如何将蛋白质组图谱描画得更精细、对深奥的基因组信息注释得更详尽,一直以来都是蛋白质基因组学的一大难题。而此次研究在可变剪切体的完善上有了新的突破。可变剪切是指基因在转录过程中,“剪”去某几段序列,并将剩下的序列打乱重组的过程。同一基因,不同的剪切位点和排列方式,会形成不同的蛋白质。

杨明坤在接受科技日报采访时表示,此前的研究都是通过鉴定相应蛋白质的存在,去验证已知的可变剪切体。而这次他们做的工作,是去发现未知的可变剪切体。

“我们设计相关算法,寻找蛋白的氨基酸序列上可能存在的不同剪切位点,再将剪切得到的‘断片’与基因组数据比对,从而找到相应的可变剪切体。”杨明坤说。据悉,该团队共发现21个新的可变剪切体,并修正了73个已知基因的可变剪切位点。

对基因组的深度注释涉及大量的运算,为提高工作效率,该团队将各个步骤运用到的算法整合起来,研发出一款适用于所有生物的数据分析软件。运用这款软件,只需输入质谱仪采集的质谱数据和简单的软件运行参数,就能直接得到相关的基因组注释信息。此外,团队还建立了一套实验流程,供其他科学家参考。这也意味着,今后可直接依葫芦画瓢,用团队的这套流程和软件,快速完成其他物种的基因组深度注释。

杨明坤表示,研究小组将进一步优化软件,继续提高其运算速度和准确率。“由于2014年完成的人类蛋白质组草图有太多错漏,我们准备进一步完善这项工作。只有清楚了人体各个组织内都有哪些蛋白质,在此基础上才能更好地进行精准医疗。”杨明坤说。

(0)

相关文章

  • 基因芯片的制备方法有哪些?基因芯片3种制备方法

    芯片种类较多,制备方法也不尽相同,常见的芯片可分为两大类:一类是原位合成;一种是直接点样。关于这两种方法,我们已经比较详细地介绍过了。本文主要介绍几种大家不太常用的、更为先进的方法…

    2023年3月24日
    8
  • 基因芯片是什么?基因芯片原理介绍

    一、基因芯片是什么 基因芯片(genechip)(又称DNA芯片、生物芯片)的原型是80年代中期提出的。通过微加工技术,将数以万计、乃至百万计的特定序列的DNA片段(基因探针),有…

    2023年3月24日
    3
  • 基因测序技术发展历程(基因测序技术演变)

    据不完全统计,截至目前,全国有数百家基因测序服务公司,主要分布在北京、上海、广州、深圳、杭州、天津、武汉等省市。其中,位于第一方阵的企业包括四家,华大基因、贝瑞和康、达安基因、博奥…

    2023年3月24日
    3
  • 2023基因检测公司名单(十大基因检测公司)

    近些年,基因检测在我国的发展处于稳步增长中。有数据显示,2020年我国基因检测市场规模达158.6亿元,消费者规模达859万人;2022年,中国基因检测的市场规模预计进一步扩大至2…

    2023年3月24日
    3
  • 基因检测和DNA鉴定有什么区别?

    一、基因是什么 基因是遗传的基本单元,携带有遗传信息的DNA或RNA序列,通过复制,把遗传信息传递给下一代,指导蛋白质的合成来表达自己所携带的遗传信息,从而控制生物个体的性状表达。…

    2023年3月23日
    8
  • dna检测一次多少钱?2023年DNA检测价格

    做dna一般需要2000元到3000元左右,跟选择不同城市的收费标准有很大的关系,如果选择普通的三线城市,价格可能会偏低,如果在一线城市可能价格适当会提高。 DNA检测的价格与检测…

    2023年3月18日
    34
  • 同源染色体和姐妹染色体的区别是什么

    同源染色体和姐妹染色体的区别是什么?想明白这个问题,我们首先必须理解同源染色体和姐妹染色体的概念。 一、同源染色体概念 同源染色体是指形态、大小、功能完全相同的一对染色体。 同源染…

    2023年3月18日
    21
  • 全基因组测序和全外显子测序的区别?

    全外显子组测序(whole exomesequencing,WES) 一部分DNA片段含有蛋白质合成的密码“指令”,这部分片段被称作“外显子”(exon)。目前认为,外显子只占到人…

    2023年3月10日
    84
  • 什么是个体识别?DNA个体识别技术

    每个人具有一套独一无二的DNA,通过DNA鉴定技术就能确定其各自身份。所以,在很多刑侦案件中利用DNA鉴定技术来确定犯罪嫌疑人,此技术就称为DNA个体识别。 您的浏览器不支持内嵌视…

    2023年3月10日
    47
  • y-str技术原理(Y-STR检验)

    Y-STR的中文意思为Y-染色体DNA连续重复片段,是英文Y-ChromosomeShort Tandem Repeat的缩写。该技术就属性而言是一种人类个体遗传基因的检测和识别技…

    2023年2月16日
    56
微信咨询

2023022408572439

手机扫码 添加微信

注意:仅做亲子鉴定咨询。

咨询电话

亲子鉴定咨询电话:
199 6630 6252

注意:仅做亲子鉴定咨询。

分享本页
返回顶部