全基因组关联研究(GWAS)通常在寻找具有疾病风险的基因变异的研究中排除了多样化和少数族裔的个体。麻省总医院(MGH),麻省理工学院和哈佛大学以及全球其他机构的研究人员现在已经开发了一种名为Tractor的免费访问软件包,该软件包提高了在未被充分研究的人群中发现基因组的能力。《自然遗传学》上发表了对拖拉机性能和准确性的研究。
研究人员进行了GWAS鉴定,以找出导致疾病的遗传变异在基因组中的位置。最近,遗传学家开始根据已发布的GWAS数据创建模型,以预测个体患病的风险。但是这些模型的临床应用目前受到限制,因为大多数模型都是基于对欧洲血统的人们的基因组研究。
该论文的主要作者,伊利诺伊州立大学的研究人员伊丽莎白·阿特金森博士说:“如果您在可用数据上建立疾病风险模型,然后尝试将其推算到不同人群中,那么预测谁生病的准确性就会降低。 MGH的分析和转化遗传学部门(ATGU)。“这些错误加剧了现有的健康差异,部分原因是我们没有找到可能导致不同人群中特定疾病风险更高的特定基因变异。”
Atkinson说,当前的GWAS的另一个重大缺陷是“它们为所有人群提供了许多发现遗传的机会”。例如,非洲裔人的基因变异平均要比那些由于人类迁徙模式而没有非洲血统的人多出一百万。阿特金森说,对各种各样的人群进行GWAS研究可以使遗传学家在基因组的更多位置查明与疾病的遗传关联。
她补充说:“在GWAS中鉴定出的这些基因组区域中,实际上导致疾病的基因突变在大多数时候都在祖先之间共享,”她补充说。通过研究混合种群-来自两个或多个先前孤立的种群(例如非洲和欧洲)的近代人-“我们可以获得更强大,更精确的遗传关联信号,并在查明因果突变的位置做得更好,从而改善了我们对所有人的疾病了解。”
到目前为止,在GWAS中研究的混合群体中还没有精细的方法来控制祖先组成。Atkinson解释说:“由于族群的人口历史,不同的宗族群体的基因变异发生频率不同。” “在GWAS中不考虑血统可能会导致假阳性结果或基因变异被抵消,因此不重要,因此不重要。因此,直到现在,将具有多个血统的人排除在GWAS之外更容易避免被混淆基因变异的不同模式。”
但是,拖拉机允许研究人员以精确的方式解释祖先,因此可以将混合个体纳入大规模基因发现工作中。该软件根据每个人的祖先上色给每个人的染色体上色,研究人员可以从参考基因组序列中推断出这些染色体,并在新的GWAS模型中使用此信息。“拖拉机考虑了每个遗传变异的祖先骨架,因此我们可以正确地校准GWAS结果,以发现特定人群的因果变异,” Atkinson说。
拖拉机还提供了特定祖先效应大小的估计,这在标准GWAS中是不可能的。阿特金森说:“与获取特定基因变异的疾病风险效应大小的加权平均值不同,拖拉机可以确定变异在各个祖先群体中的效应是大还是小。” “这将有助于在不同人群中建立遗传风险评分。” 拖拉机的另一个优势是它能够通过检测多个祖先的风险基因变异来提高GWAS的功能。Atkinson说:“借助Tractor,我们可以利用祖先的基因组差异来获得更强的疾病关联信号。”
她补充说:“拖拉机为研究多样化和少数族裔复杂疾病的遗传学提供了现有方法。” “我们希望这种方法可以在未来的大规模关联研究中增加混合参与者的参与。”