0
【编者按】深度学习在近几年实现了巨大的突破,而这一方法也被应用到越来越多的领域,用于解决过去在这些领域难以解决的问题。可以预见,在未来的科研中“深度学习+学科应用”将得到更广阔的应用,人工智能和深度学习方法也会变成我们生活和科研中水和电一样随处可见的东西。本文就是深度学习在生物科学领域应用的一个例子,原文刊载于20n.com,雷锋网特此编译全文,供读者参考。
生物学现在面临着调试的困难。生化系统(细胞)很复杂,深入研究它是十分有意义的。观察你所了解的化合物是很有难度的,想要看到未知的化学变化就更难了。调试问题的挑战,通俗地说就是已知的未知问题和未知的未知问题,正在艰难前行。假如能够收集大量的多维的、密集的生物数据,我们想知道深度学习能否帮助解决生物调试问题。
过去的两年中,我们已经设计了180多个酵母菌和病毒细胞来工业化生产相关化合物,例如,其中一个酵母菌是第一个能产生对乙酰氨基酚的细胞,我们最近也开始观察人类疾病细胞。无论是对修饰后的微生物细胞还是人类疾病细胞,鉴定其与正常细胞的区别,是极有意义的,在这里,我们一般将正常细胞(也就是原株和健康细胞)称作是对照细胞,把另一种细胞称作变量(通过基因处理或者人类疾病修饰)。
现代技术:科学家从现有的数百万的化合物中挑选出一个或几个,检查每一个化合物的变异细胞是否区别于对照细胞。他们通过分析仪器(比如LC-MS)来比较数据来源找到区别所在。标准的工作流程也有会极少的误差,因为仪器校正也会有误差。LC-MS仪器的有限精确度和不同化合物信号之间的碰撞都使得这项工作变得复杂。
LC-MS分析联合深度学习:我们输入原始LC-MS数据(没有经过个人推测分子的校正),通过深度学习模型来验证变量样本中哪个分子是不一样的。
举个例子,我们最近构建的能产生对乙酰氨基酚的酵母菌模型,敲掉几个基因后预测新的基因插入,这是很新颖的通路搭建。我们用葡萄糖介质培育变异株,同时培育原株酵母菌作为对照组。把这些菌种放在柱子中,会有200多个分子通过柱子。通过柱子出来的第五个分子的峰如下图所示。(下图左侧是变异组,右侧是对照组)
同时,系统识别出达到峰值时的化学物质分子式是C8H9NO2。这个分子式很明确是对乙酰氨基酚。它也识别出了下面几个结构式(最右边的是对乙酰氨基酚),我们设计的这个通路分析识别出了这些备选结构中最有可能的是对乙酰氨基酚。
这种分析的本质是公正的,非靶向性的,这让我们有信心解决调试设计细胞问题。它能够突出变异细胞组和对照组之间的主要差别,并且准确预测相应的化合物。其他的主要识别峰可以观察到副反应变化,这些变化是不能通过靶向分析检测到的,靶向分析就是只分析特定的产物。我们去年就是一直在做这种靶向分析,但是现在我们可以识别好多我们一直在丢失的数据:所有的这些附加峰都是在细胞中加入几个基因后的副反应所产生的,当接下来修饰细胞化学结构的时候这些差异都是应该考虑在内的。
这种能分析细胞中每个变化的非靶向分析是解决生物调试问题的有力工具,深度学习也是解决该问题的关键点。
|通过深度学习的非靶向代谢组学
生物化学的调试通路包括以下几步:
准备样品(变异组和对照组)
液相色谱质谱联用(LC-MS)
每次LC-MS跟踪要收集20亿的数据点,需要跑2000多次,所以我们要通过大量的工程细胞株存储4万 亿的数据点。
深度学习
识别变异组和对照组之间的差别。
SAT计算
搜索化学式来定位相对应变异中的差别的化学式。
酶的生物化学的网络模型
预测并且排列与细胞工程相关的生物化学中的变化相关的分子和生物学通路。
我们来集中看一下深度学习模块。如果我们能从LC-MS中得到几个重要参数(如碎片离子、保留时间和峰强度),我们就能绘制一个类似下图(左侧)的3D图,或者热点图(右侧)。每种图像都能生成高分辨率的PDF图像。缩放热点图找到高强度的峰(红色)有助于观察数据的密度。
总体的视野能观察到全部数据,所以我们只看有大约50个数据点的小窗口,也就是全部数据的0.0000025%。看下面这个局部3D图窗,试着判断一下它是否是“峰”。
你可能会正确地叫出每个峰的名称。当我们起初分析这些来源的时候,我们通过人为的视觉评估把这些峰分类为“完全是峰”、“不完全是峰”和“可能是峰”三类。
尽管人类可以很容易通过肉眼来分辨LC-MS的峰,但是开发一种稳健的计算机方法来分类峰还是有困难的。我们使用深度学习来使空间减小到几十张图像那么大,这些图像可以概括数千个LC-MS示踪的结果。我们可以通过深度学习卓有成效地减小LC-MS数据的变量和复杂性,从而能通过示踪归纳出常见的特征。
我们的第一次重复使用了简单的网络,并且取得了小小的成功,但是如果使用更深层的、多层的网络可能会更好地学习到LC-MS示踪的细微差别。正由于这一点,我们成功地在一次示踪中鉴别出好多峰,同时不包括许多人类一般会忽略的像峰似的特点。下图中,左侧是一组通过网络学习得到的峰(很容易看到主峰),右侧是识别出的噪声峰的特征。
证明了我们能识别个别峰之后,我们又致力于归纳出这种方法来做大规模的不同分析。这种方法能让科学家提供一个实验的对照组,并且能在任何情况下都能检测分子。
从样本到遗传变异
深度学习能够准确识别差异,通过建立深度学习能把我们的分析拓展到相比细胞系的基因变化上。整个柱子汇集了深度学习分析的成分和其他成分。一个专门的生化计算软件SAT能够解析化学式。能够理解酶机制、底物特性和细胞链接的网络分析师可以推出分子结构。生物信息学模块完成了解释示踪结果中基因变化的最后一步。
展望:深度学习解决生物调试问题
合成生物学:通过准确地知道人为修饰或其他修饰的各种影响,生物制品的微生物工程的进展急速加快。这些细胞在可控的环境下进行培养,大多数的新陈代谢都是可以完全调整的,所以简单的深度学习模块有望促进生物学的发展。
人类诊断:在疾病细胞和正常细胞中,人类细胞是有许多细微变化的。我们正在尝试更复杂的深度学习网络能够解决疾病细胞的非靶向诊断问题。这一点很值得期待。
深度学习预测化合物特点:需要练习深度网络的数据量可以从LC-MS中获得。其他生化数据在细节上是极度丰富的,但是在数量上可能没那么大量。化学结构预测是本质,这些情况需要我们在训练中有所创造。我们已经开展项目来研究更复杂的模型和训练模式。如果感兴趣请发邮件到info@20n.com来联系我们吧。
via 20n.com
雷峰网原创文章,未经授权禁止转载。详情见转载须知。