单倍型是一组遗传变异,它们并排位于同一条染色体上,并在单个组中传递给下一代。他们的检查可以了解某些复杂性状的遗传性,例如患上疾病的风险。但是,要进行此分析,通常需要对家庭成员(父母及其子女)进行基因组分析,这是一个乏味且昂贵的过程。为了克服这个问题,日内瓦大学(UNIGE)和洛桑(UNIL)以及SIB瑞士生物信息研究所的研究人员开发了SHAPEIT4,这是一种功能强大的计算机算法,可以快速识别数十万无关个体的单倍型。结果与进行族分析时一样详细,一个无法大规模进行的过程。他们的工具现在可以在开放源代码许可下在线获得,整个研究团体都可以免费使用。详细信息可以在自然交流。
如今,遗传数据的分析变得越来越重要,特别是在个性化医学领域。每年测序的人类基因组数量呈指数增长,最大的数据库可容纳超过一百万个人。如此丰富的数据对于更好地了解人类的遗传命运,确定特定疾病的遗传权重或更好地了解人类迁徙的历史具有极其重要的价值。但是,有意义的是,必须以电子方式处理这些大数据。“但是,与基因组大数据的超快速增长不同,计算机的处理能力仍然相对稳定”,UNIL生物学和医学学院以及SIB的计算生物学系SNSF教授Olivier Delaneau说道。工作。
更好地了解单体型的作用
基因分型可以了解一个人的等位基因,即从他或她的父母那里获得的遗传变异。但是,在不了解亲本基因组的情况下,我们不知道哪些等位基因同时传播给孩子,以及以哪种组合。“我们真正想要了解人类变异的遗传基础的这一信息-单倍型至关重要。无论是人口遗传学还是从精密医学的角度来看,都是如此。”
为了确定疾病的遗传风险,例如,科学家评估了遗传变异在患病个体中是否或多或少存在,以确定这种变异在所研究疾病中的作用。Emmanouil Dermitzakis说:“通过了解单倍型,我们可以进行相同类型的分析。但是,我们正在从单个变体转变为许多变体的组合,这使我们能够确定同一染色体上的哪些等位基因组合产生最大的影响。关于疾病的风险。它要准确得多!”
研究人员开发的方法可以处理大量的基因组,大约500,000至1,000,000个个体,并在不使用其祖先或后代的情况下使用标准计算能力来确定其单倍型。SHAPEIT4工具已经在UK Biobank(英国开发的科学数据库)中存在的500,000个单独基因组上成功进行了测试。“我们这里有一个大数据是一个典型的例子,奥利维尔·德拉诺说。如此大量的数据使建立非常高精度的统计模型成为可能,只要它们可以被淹没就可以解释。”
透明的开源许可证
研究人员已决定使其工具在所有人均受MIT开源许可的情况下可用:根据研究人员的需求,可以使用整个代码,并可随意对其进行修改。做出此决定主要是出于透明度和可重复性的目的,并且是为了激发来自世界各地的研究人员。Olivier Delaneau解释说:“但是,我们只允许访问分析工具,在任何情况下都不能访问大量数据。”“然后取决于每个人在他或她拥有的数据上使用它。”
与旧版工具相比,此工具效率更高,而且速度更快且更便宜。它还可以限制数字环境的影响。用于处理大数据的功能非常强大的计算机确实非常耗能。减少使用量也有助于最大程度地减少其负面影响。