尽管我们对基因组的知识每天都在增长,而且突飞猛进,但我们有时还是需要提醒自己,DNA是在1869年首次分离出来的,它的分子结构直到1953年才被鉴定出来。PCR反应直到1983年才进入科学界!所以,即使我们成长得很快,在遗传学领域我们还是婴儿。让我告诉你,当你分析一个完整的基因组(甚至一个外显子)时,你会强烈地感受到这个事实!基因变异的分类是基因组学中一个特别具有挑战性的领域。顾名思义,基因变异是对特定DNA序列的改变。基因变异可以是良性的、致病性的或具有未知意义的。
为什么研究和分类这些变异很重要?好吧,虽然许多基因变异不会转化为疾病,或易患疾病,但有些与严重疾病相关,比如各种癌症、血友病、神经纤维瘤病和早衰症(一种以加速衰老为特征的疾病)。因此,对基因变异进行分类是非常重要的,因为了解它们的生理后果可能有助于区分健康的人和易患某些疾病的人,例如癌症。这可能有助于筛选计划,先发制人的医学,和更好的病人结果。
为什么对基因变异进行分类如此困难?
原因有很多。但真正的敌人是无知。真正的问题是什么?我们每个人在DNA中储存的信息量非常之大:
人类有46条染色体,是二倍体生物。这意味着我们有23对染色体。我们可以把它看成是23条从母亲那里遗传的染色体,23条从父亲那里遗传的染色体。
据估计,人类大约有2万个蛋白质编码基因(然而,随着每天新信息的出现,这个数字还在不断变化!)
98%的基因组由不编码蛋白质的非编码DNA组成。它不能转化成氨基酸序列的事实并不会使它变得无关紧要!控制细胞基本细胞功能的调控序列位于非编码DNA中。这些序列中的变异可能会极大地影响机体的稳态。
我们的基因组大小是6,469.66百万对碱基对。那是储存在我们DNA中的大量信息!
对基因变体进行分类已经是一项艰巨的工作。然而,这项工作变得更加困难。个体之间存在着微小的差异,因此每个人的基因组都略有不同!因此,你必须能够区分低代表性的多态性和可能导致疾病的基因变体。
实际上,这就像在成百上千的干草堆中寻找一根针,里面装满了不同的针——你必须深入分析以确定它不是你的针。看起来我是在夸大其词,但相信我,我实际上是在对这个问题轻描淡写。
我们如何使研究基因变异变得更容易?
值得庆幸的是,有很多科学家和研究人员致力于使我们的基因变异体狩猎之旅变得更容易。数以百计的人类基因组已经被测序,这给了我们一些东西来比较我们的结果。有许多已知与许多疾病有关的基因变体的公共数据库。还有一些功能研究试图解释某些基因变异对产生的蛋白质的影响。这些功能研究试图揭示这种蛋白质的功能,但更重要的是,这种蛋白质的功能如何(以及是否)受到发现的变异的影响。记住,不能正常工作的蛋白质可能会导致疾病,这些研究是非常重要的!
运用数据库
让我们看看我最喜欢的研究基因变异的工具,bl。bl是开启基因变异分析之旅的好方法。这个数据库可以让你访问来自许多物种的数千个基因。你只要输入基因的名字,表现型,或任何其他命名在区域的箭头标志,你就在!
ensemble bl的美妙之处在于它能给你提供关于你感兴趣的基因或表现型的大量信息,还能提供一些其他令人惊奇的资源的链接,比如UniProt和NCBI。
在搜索您最喜欢的基因之后,您将得到一个类似于图2的输出页面。在这里,你会发现你的基因的描述,它的同义词(2A),基因组的位置(2B),和其他重要信息,包括相关表型(2C)。
您还将看到一个成绩单表(2B),在那里您将找到感兴趣的基因的转录本。在这个表格中,你会发现蛋白质编码转录本,非编码转录本和剪接基因变体。在Biotype专栏,你会发现一个颜色分类。gold和Consensus CoDing Sequence (CCDS)的转录本都是经过审查的高质量的转录本——这意味着这种转录本在bl的自动注释管道和Vega/哈瓦那项目的人工管理之间是平等的。蓝色的转录本是非编码转录本,而红色的转录本要么来自自动注释管道,直接形成bl,要么是手工策划的(Vega/Havana项目)。
更重要的是,它告诉您哪些转录本是蛋白质编码的,并提供它们的NCBI参考序列。在BRCA2基因的例子中,NCBI参考序列(在RefSeq列中)是NM_000059和NP_000050。NM_指的是mRNA, NP_指的是蛋白质,如果你点击超链接,你就会被带到NCBI核苷酸数据库中去获取特定的mRNA/蛋白质。在这里,你会发现FASTA序列,文献中提到了序列,外显子和作者。您应该始终记住这两种资源。
在左边的一栏(图2C)中,您将有许多选项,引导您获得宝贵的信息,例如:序列、比较基因组学、相关表型(包括已知的基因变体)。
连结至其他资料库
文本表还提供了UniProt数据库和该蛋白的UniProt代码的超链接。在示例中,P51587是表中列出的第一个BRCA2转录本的UniProt代码。
UniProt是一个有用的数据库,它提供有关您感兴趣的蛋白质的信息,例如:功能、名称和分类、亚细胞定位、病理学和生物技术以及表达(组织特异性、基因表达数据库、生物特异性数据库)。在病理学和生物技术标签上,您将能够检查基因变体和与之相关的疾病、相关的原始文献和图形视图(基因变体的本地化)。
在图3中,您可以观察到BRCA2的UniProt页面。在左边的一栏你会找到所有这些分类(然后更多),我建议你检查所有的分类——你会发现很多重要的信息。
很明显,我非常喜欢套装bl,我建议你自己仔细检查一下。您还可以查看这些教程以了解关于数据库的更多信息。花点时间来真正理解可获得的知识的深度,并把它看作不仅是分类一个基因变体的第一步,也是收集你感兴趣的基因和蛋白质信息的重要方式,希望能加速你的研究。
现在你一定在想:好吧,但是我如何对基因变异进行分类呢?好吧,掌握了你的基因,它的相关表型,以及与之相关的所有命名法之后,你就可以深入研究基因变体的分类了。有很多工具,下次我们将讨论dbSNP和ClinVar。请继续关注本系列的第2部分!