尽管我们对基因组的了解每天都在增长,突飞猛进,但我们有时需要提醒自己,DNA是在1869年首次分离出来的,直到1953年才确定其分子结构。PCR直到1983年才进入科学界!所以,即使我们长得很快,但在遗传学领域,我们仍然是婴儿。让我告诉你,当你分析一个完整的基因组(甚至一个外显子)时,你会强烈地感受到这个事实!基因变异的分类是基因组学中特别具有挑战性的领域。顾名思义,遗传变异是特定DNA序列的改变。遗传变异可能是良性的、致病的或意义不明的。
为什么对这些变异进行研究和分类很重要?好吧,虽然很多基因变异不会转化为疾病,或者容易发生疾病,但是有些是和严重的疾病有关的,比如各种癌症,血友病,神经纤维瘤病和早衰症(一种以加速衰老为特征的疾病)。因此,对基因变异进行分类非常重要,因为了解它们的生理后果可能有助于区分健康的人和容易患某些疾病的人,如癌症。这可能有助于筛查项目、先发制人的药物和更好的患者结果。
为什么基因变异分类这么难?
原因有很多。但真正的敌人是无知。真正的问题是什么?我们每个人储存在DNA中的信息量非常大,
人类有46条染色体,是二倍体生物。这意味着我们有23对染色体。我们可以认为是23条染色体遗传自母亲,23条染色体遗传自父亲。
据估计,人类大约有20000个蛋白质编码基因(然而,随着每天新信息的出现,这个数字在不断变化!)
98%的基因组由不编码蛋白质的非编码DNA组成。它不能被转换成氨基酸序列的事实并不能使它变得无关紧要!控制细胞基本细胞功能的调节序列位于非编码DNA中。这些序列的变异可能极大地影响生物体的稳态。
我们的基因组大小是646966万个碱基对。我们的DNA中储存了大量信息!
基因变异的分类是一项艰巨的任务。然而,这项工作变得更加困难。个体之间略有差异,所以每个人的基因组也略有不同!因此,你必须能够区分低代表性的多态性和可能导致疾病的基因变异。
事实上,这就像在数百个干草堆中寻找一根针,装满了不同的针3354。你得深入分析才能确定不是你的针。看起来我在夸大其词,但是相信我,我实际上低估了这个问题。
怎样才能让研究基因变异变得更容易?
幸运的是,许多科学家和研究人员致力于使我们的基因变异狩猎之旅更加容易。数百个人类基因组已经被测序,这给了我们一些东西来比较我们的结果。有许多已知与许多疾病相关的基因变体的公共数据库。也有一些功能研究试图解释一些基因变异对产生的蛋白质的影响。这些功能研究试图揭示这种蛋白质的功能,但更重要的是,这种蛋白质的功能如何(以及是否)受到所发现的变异的影响。记住,不能正常工作的蛋白质可能会导致疾病。这些学习很重要!
使用数据库
来看看我最喜欢的研究基因变异的工具,bl。Bl是开启遗传变异分析之旅的好方法。这个数据库允许你访问许多物种的数千个基因。你所要做的就是输入名字,表现型,或者任何其他在区域中命名的箭头标记,你就到了!
ensemble bl的美妙之处在于,它可以为你提供大量你感兴趣的基因或表型的信息,还可以提供一些其他惊人资源的链接,比如UniProt和NCBI。
搜索自己喜欢的基因后,会得到类似图2的输出页面。在这里,您将找到您的基因的描述,它的同义词(2A),基因组的位置(2B),以及其他重要信息,包括相关的表型(2C)。
你还会看到一个转录本(2B),在那里你会找到感兴趣的基因的转录本。在这个表中,你会发现蛋白质编码转录本,非编码转录本和剪接基因变异体。在生物型一栏,你会发现一个颜色分类。gold和Consensus CoDing Sequence (CCDS)的转录本都是高质量的转录本3354,这意味着这样的转录本在bl的自动注释管道和Vega/Havana项目的人工管理之间是平等的。蓝色的转录本是非编码转录本,而红色的转录本要么来自自动标注管道,直接形成bl,要么是手工规划的(Vega/Havana项目)。
更重要的是,它告诉你哪些转录物由蛋白质编码,并提供它们的NCBI参考序列。在BRCA2基因的例子中,NCBI参考序列(在RefSeq列中)是NM_000059和NP_000050。NM_指mRNA,NP _指蛋白质。如果您点击超链接,您将被带到NCBI核苷酸数据库,以获取特定的mRNA/蛋白质。在这里,你会发现FASTA序列。文献中提到了序列、外显子和作者。你应该永远记住这两种资源。
在左栏(图2C),你会有很多选项引导你获得有价值的信息,比如:序列、比较基因组学、相关表型(包括已知的基因变异)。
链接到其他数据库
该文还提供了一个到UniProt数据库和该蛋白质的UniProt代码的超链接。在本例中,P51587是表中列出的第一个BRCA2转录物的UniProt代码。
UniProt是一个有用的数据库,它提供了你感兴趣的蛋白质的信息,如:的功能、名称和分类、亚细胞定位、病理学和生物技术等。
以及表达(组织特异性、基因表达数据库、生物特异性数据库)。在病理学和生物技术标签上,您将能够检查基因变体和与之相关的疾病、相关的原始文献和图形视图(基因变体的本地化)。在图3中,您可以观察到BRCA2的UniProt页面。在左边的一栏你会找到所有这些分类(然后更多),我建议你检查所有的分类——你会发现很多重要的信息。
很明显,我非常喜欢套装bl,我建议你自己仔细检查一下。您还可以查看这些教程以了解关于数据库的更多信息。花点时间来真正理解可获得的知识的深度,并把它看作不仅是分类一个基因变体的第一步,也是收集你感兴趣的基因和蛋白质信息的重要方式,希望能加速你的研究。
现在你一定在想:好吧,但是我如何对基因变异进行分类呢?好吧,掌握了你的基因,它的相关表型,以及与之相关的所有命名法之后,你就可以深入研究基因变体的分类了。有很多工具,下次我们将讨论dbSNP和ClinVar。请继续关注本系列的第2部分!