我们从小就被告知不要吃太多糖,但实际上,我们的身体里充满了糖。每一个活细胞的表面,甚至病毒,都被一堆乱七八糟的聚糖所覆盖:简单的糖的长而分支的链通过共价键连接在一起。这些细胞表面糖对于调节细胞与细胞的接触至关重要,包括细菌与健康宿主细胞的附着。聚糖还存在于所有其他生物聚合物中,包括蛋白质和RNA,它们的存在会影响聚合物的稳定性和功能。
尽管它们无处不在且很重要,但由于其复杂性,人们对聚糖的了解仍然很少。聚糖不仅具有构成DNA和RNA分子的四个核苷酸“字母”,还具有数百种不同单糖的“字母”,这些单糖可以串在一起,形成长度和分支看似无限的序列。此外,由于多种酶和细胞内外条件的相互作用,可以改变单个聚糖序列,而无需进行基因突变。
现在,来自哈佛大学怀斯生物启发工程研究所和麻省理工学院(MIT)的一组科学家通过开发新的机器学习和生物信息学方法破解了聚糖代码,使研究人员能够系统地研究聚糖并鉴定序列,在微生物与其宿主细胞的相互作用以及其他未知功能中发挥作用。这些工具在今天发表在Cell Host&Microbe上的一篇新论文中进行了介绍,并且可以作为免费的Wyss WebApp在线获得,研究人员可以使用它们来对数千种聚糖进行自己的分析。
“我们创建的基于语言的模型可用于预测人类免疫系统是否以及如何检测给定的聚糖,从而帮助我们确定在其表面上带有该聚糖的细菌菌株是否可能是致病性。”第一作者丹尼尔·博哈尔(Daniel Bojar)博士说,他是Wyss研究所和麻省理工学院的博士后。“这些资源还使人们能够研究涉及分子模拟和免疫逃逸的聚糖序列,从而扩大了我们对宿主-微生物相互作用的理解。”
语法规则
由于聚糖是所有活细胞类型的最外层,因此它们必定参与感染过程,既参与与真核宿主细胞结合的原核细菌相互作用,又参与免疫系统细胞之间的相互作用。这创造了一场进化军备竞赛,细菌聚糖进化为模仿宿主细胞上发现的聚糖,从而逃避免疫检测,宿主聚糖被修饰,致使病原体无法再利用它们来获取。为了追溯这种聚糖序列发展的历史并确定有意义的趋势和模式,研究团队转向了机器学习算法,特别是自然语言 处理(NLP),之前已证明在分析其他生物聚合物(如RNA和蛋白质)方面取得了成功。
共同作者Rani Powers博士说:“实际上,语言与分子序列非常相似:元素的顺序很重要,彼此不相邻的元素仍然可以相互影响,并且它们的结构会随着时间而演变。”是威斯研究所(Wyss Institute)的资深研究员。
首先,团队需要组装一个大型的聚糖序列数据库,在该数据库上可以训练基于NLP的算法。他们梳理了在线和学术文献中已有的数据集,创建了一个19,299个独特聚糖序列的数据库,并将其命名为SugarBase。在SugarBase中,他们确定了1,027个独特的聚糖分子或键,它们被称为“糖基”,构成了糖基字母表,理论上可以组合为“糖基词”,该团队将其定义为三个糖基和两个键。
为了开发一种基于NLP的模型,该模型可以分析字母符号的序列并挑选出不同的糖词,该团队选择使用双向递归神经网络(RNN)。RNN也是文本消息传递和电子邮件软件的“自动完成”功能的基础,它根据给定的前一个单词来预测序列中的下一个单词,从而使他们能够学习复杂的,与顺序相关的交互。他们在SugarBase的序列上训练了基于糖语的语言模型(称为SweetTalk),并使用它在糖语的背景下根据先前的糖语来预测糖语序列中的下一个最可能的糖语。
SweetTalk揭示,在理论上可能存在的近1.2万亿个糖词中,现有聚糖数据库中仅存在19,866个不同的糖词(〜0.0000016%)。观察到的糖词还倾向于以高度相似的序列聚类在一起,部分表明存在糖词的分类组,而不是均匀分布在所有可能的序列组合中。这些结果可能反映出,正在发展专用酶以构建特定聚糖亚结构的生物体的高“成本” —在这种情况下,调整现有的糖词而不是生成全新的糖词,在进化上更有效。
鉴于聚糖在人类免疫中发挥的重要作用,研究人员使用较小的经过整理的聚糖清单对SweetTalk进行了微调,这些文献从文献中已知会引起免疫反应。当从SugarBase预测聚糖序列的免疫原性时,SweetTalk模型的准确度约为92%,而在加扰的聚糖序列上训练的模型的准确度约为51%。例如,在细菌中发现但不在哺乳动物中发现的富含鼠李糖的简单糖的聚糖被SweetTalk明确标记为具有免疫原性。该模型的优异性能表明,基于语言的模型可用于大规模研究聚糖的特性,并具有许多潜在应用,例如探索聚糖与免疫系统的相互作用。
倒入一些糖在我身上
基于他们第一个以聚糖为基础的深度学习模型的成功,该团队预感深度学习也可以阐明聚糖序列的“家族树”。为此,他们构建了一个基于语言模型的分类器,称为SweetOrigins。他们首先使用SweetTalk模型对SweetOrigins进行了预训练,然后使用聚糖的类似语言的特性在另一项任务上微调了新模型:通过学习聚糖的物种特异性特征来预测聚糖的分类群历史。他们从每个物种一直到各个域(例如细菌,Eukarya)的每个分类级别都复制了这种结构,从而创建了8个SweetOrigins模型,能够对糖类的分类进行高精度分类。例如,
然后,研究人员使用SweetOrigins来研究宿主与病原体之间的相互作用,并认为与多种大肠杆菌菌株相关的聚糖差异可以用来预测这些菌株的传染性。他们在大肠杆菌特定的聚糖序列上使用了与SweetOrigins相同的语言模型架构,对基于深度学习的分类器进行了训练,并能够以约89%的准确度预测大肠杆菌菌株的致病性。它还将大多数与致病性未知的大肠杆菌菌株相关的聚糖置于传染性谱图的各个位置,有助于鉴定可能对人类致病的菌株。
Diogo Camacho博士说:“有趣的是,我们的模型预测,与感染最相关的聚糖与在动物体内形成粘膜屏障的细胞上发现的聚糖具有惊人的相似性,从而将病原体拒之门外。”该论文的共同通讯作者和怀斯研究所的高级生物信息学科学家。“这表明,致病细菌上的聚糖已经进化为模仿宿主细胞上发现的聚糖,从而促进了它们进入和逃避免疫系统。”
为了更深入地探究聚糖在宿主-微生物相互作用中的功能,研究小组开发了一种聚糖序列比对方法,该方法可以比较各个聚糖序列,以确定在聚糖之间保守的区域,因此可能起到类似的作用。他们从病原体金黄色葡萄球菌中选择了一种特定的多糖序列,该序列已知会增加细菌的毒性,并假设这种聚糖有助于细菌逃脱免疫检测。当他们将该多糖与数据集中的类似聚糖序列进行比较时,他们发现与肠道细菌共同抗原(ECA)(一种在共生细菌和病原细菌的肠杆菌科中发现的聚糖)的最佳比对结果。
研究小组还在葡萄球菌,不动杆菌属和嗜血杆菌属中发现了与细菌相关的ECA样序列,这些序列不属于通常携带ECA的肠杆菌科。这种见解表明,除了模仿宿主上发现的聚糖外,细菌聚糖还可以进化成模仿其他细菌(例如我们的微生物组中的细菌)上发现的聚糖,并且致病性可以通过传统上认为不是的微生物上的聚糖引起。危险。
“我们在这里开发的资源(SugarBase,SweetTalk和SweetOrigins)可以快速发现,理解和利用聚糖序列,并可以根据其聚糖预测细菌菌株的致病潜力,”共同通讯作者吉姆·柯林斯说, Wyss核心学院博士,也是麻省理工学院医学工程与科学的泰米尔医学教授。随着糖生物学的发展,这些工具可以轻松地扩展和更新,最终可以对糖进行精确的分类,并以前所未有的分辨率促进基于糖的宿主-微生物相互作用的研究,从而有可能产生新的抗微生物疗法。”
“这项成就是将计算方法应用于迄今因其复杂性而无法解决的生物学问题的强大力量的又一个例子。该团队向世界各地的研究人员开放其工具,这也给我留下了深刻的印象。加快我们对聚糖及其对人类健康影响的集体理解的步伐。” Wyss Institute创始董事Don Ingber博士说。Ingber还是哈佛医学院和波士顿儿童医院血管生物学计划的Judah Folkman教授,也是哈佛大学约翰·保尔森工程与应用科学学院的生物工程学教授。