还记得我们在中学生物学中学到的领域,王国,门,阶级,秩序,家庭,属,物种和达尔文的生命树隐喻吗?这种描述生命事物谱系的方式,是科学界对基因如何随着时间发生突变和分裂以将事物改变为如今的状态所做的最好猜测。
随着科学越来越擅长识别蛋白质和基因的变化,将生物重新分类为另一个属并不少见。例如,最近,各种细菌,植物和珊瑚的分类法发生了变化。
如果您可以建立一个更好的进化变化模型,尽管它可能不是100%准确(考虑到复杂的生物体已经进化了数十亿年),却能为您提供比以往更清晰的图景?
克里斯汀Naegle,副教授生物医学工程和计算机科学在弗吉尼亚大学工程学院和UVA的居民教员公共卫生基因组中心,和她的前博士当时的学生罗曼·斯洛特斯基(Roman Sloutsky)现在是麻省大学阿默斯特分校的博士后研究员。他们的工作展示了如何构建模型来比以往任何时候都更准确地重建进化变化,这为了解疾病在人体中的工作方式带来了突破。
他们的论文“ ASPEN,一种使用整体模型重建蛋白质进化的方法,”在10月17日星期四发表在eLife杂志上。ASPEN代表“通过蛋白质进化子采样的准确性”。他们的研究突出了UVA在生物医学数据科学中的优势。
Naegle说:“当今使用的大多数蛋白质进化模型可能是错误的。”“我们现在有一种方法可以探究这些模型,并询问我们如何使用正确的模型来构建更好的模型。这是重要的一步。”
为了更好地理解他们在建模演化变化方面工作的复杂性,Naegle提供了一个类比:“如果我要求您预测某人在旧金山和纽约之间走的路线,那将是一个模型。但是如果我要求1,000个人给我一个人走哪条路线的预测,那么这条路线在1000人中共享最多的部分就很可能是真实的,这是因为大多数人可能都认为,两个城市之间的特定高速公路是最有效的要走的路,这样高速公路的那部分就会有很大的分量或概率。
“如果我发现在这1000条路线中没有人达成任何协议,那将告诉我,我对任何一种模型的准确性都没有信心。相反,如果每个人都对路线的绝大部分或大部分达成共识,我非常有信心在这两个点之间必须有一种最佳的旅行方式,我可以想出一条新路线,而不是这1000个人中的任何一条,而是捕捉所有这1000个人之间共享最多的路线建议,该模型可能比提供给我的任何单个模型都更接近真实路线。最后,它可能仍然不完全准确-我永远无法知道真实路线,除非我询问实际执行此操作的人旅行-但这可能比单独的任何一条路线建议要好得多。