解决基因组,特别是植物基因组,是一项非常复杂且容易出错的任务。这是因为所有染色体都有多个副本,它们非常相似。杜塞尔多夫海因里希海涅大学(HHU)的一组生物信息学研究人员现已开发出一种软件工具,该工具可以精确分配正确的副本,这一过程称为“定相”。他们在《基因组生物学》杂志的最新在线版本中介绍了他们的发展。
所有更高生命形式的基因组都存储在染色体的细胞核中。染色体由DNA分子的链组成。的遗传信息本身在分子中腺嘌呤(A),胞嘧啶(C),鸟嘌呤(G)和胸腺嘧啶(T)的相邻碱基对的序列进行编码。
不同的物种有不同数量的染色体。例如,人类有23个,而马铃薯有12个,小麦有7个。此外,染色体有不同的副本或“单倍型”。人类有两个副本,一个来自母亲,一个来自父亲,而土豆有四个,小麦甚至有六个。具有两个副本的物种称为“二倍体”,而具有两个以上副本的物种称为“多倍体”。副本几乎相同,其中“几乎”是有效词。它们之间的差异决定了种群中生物的变异性。
为了解锁遗传信息,研究人员解决了类似于大型拼图的问题:他们吸收了大量的细胞,将细胞的基因组分成许多小部分,称为“读取”,并对这些部分中包含的信息进行测序。这是必要的,因为当前可用的技术只能处理DNA的一小部分。
结果是产生了巨大的数据量-数十亿次读取,数据量达到数百GB。它们包含由字母A,C,G和T组成的不同长度的序列。生物信息学研究人员的下一个任务是确定它们在染色体中的位置,然后将相应的部分分配给染色体(此过程称为“映射” '),最后找到正确的染色体副本。最后阶段称为“定相”。排序错误使任务变得更加困难。
有许多好的,有效的工具可用于映射。但是,分阶段所需的生物信息学工具仍处于起步阶段。这正是HHU的生物信息学研究人员团队集中精力的地方。在德国研究基金会资助的联合项目中,由Gunnar Klau教授(算法生物信息学工作组)和Tobias Marschall教授(杜塞尔多夫大学医院生物医学和生物信息学研究所)与Dr. Dr. BjörnUsadel(生物数据科学研究所)开发了一个名为“ WhatsHap polyphase” 的软件工具,并使用模型数据以及马铃薯基因组成功地对该工具进行了测试。
此新工具使用两阶段过程解决了该问题。第一阶段涉及将读段聚类,即将它们分成组。一组中的读取可能来自一种单倍型或相同单倍型的区域。第二阶段涉及通过群集将单倍型“线程化”。在线程化过程中,将读数尽可能均匀地分配给单倍型,以确保在簇之间来回跳跃尽可能少。
新工具已添加到主“ WhatsHap”软件包中,该软件包可免费获得。该软件包已用于成功完成二倍体染色体组的定相,例如用于人类。杜塞尔多夫团队的这一新成员意味着多倍体生物现在也可以进行定相。克劳教授说:“我们的新技术使植物基因组能够以高分辨率进行分阶段,并且误差很小。”