大脑神经网络的计算机艺术作品

长期以来,大脑的神经网络一直激励着人工智能研究人员。图源:Alfred Pasieka/SPL/Getty

四年前,谷歌的科学家们出现在神经科学家史蒂夫·芬克贝纳的家门口。研究人员来自谷歌加速科学,这是加利福尼亚州山景城的一个研究部门,旨在使用谷歌技术加速科学发现。他们感兴趣的是将“深度学习”方法应用于Finkbeiner团队在旧金山格莱斯顿神经疾病研究所(Gladstone Institute of Neurological Disease)生成的海量成像数据。

深度学习算法从一个超大的、带注释的数据集(如图像或基因组的集合)中获取原始特征,并使用它们来创建一个基于隐藏在其中的模式的预测工具。一旦经过训练,算法就可以应用训练来分析其他数据,有时这些数据来自完全不同的来源。

Finkbeiner说,这项技术可以用来“解决真正困难、棘手、复杂的问题,并能够看到数据的结构——大量的数据太大、太复杂,人类大脑无法理解”。

他和他的团队使用一种被称为机器人显微镜的高通量成像策略生成大量数据,这种策略是他们为研究脑细胞而开发的。但该团队无法以获得数据的速度分析数据,所以芬克贝纳对合作的机会表示欢迎。

他说:“老实说,当时我不能说我清楚地了解深度学习可以解决哪些问题,但我知道,我们生成数据的速度大约是我们分析数据的速度的两到三倍。”

如今,这些努力开始取得成效。Finkbeiner的团队与谷歌的科学家一起,用两组细胞训练了一个深度算法,一组细胞被人为标记,以突出科学家通常看不到的特征,另一组细胞未被标记。Finkbeiner说,当他们后来把算法暴露在从未见过的未标记细胞的图像上时,“它在预测这些图像的标签应该是什么方面表现得惊人地好”。一份详细介绍这项工作的出版物正在印刷中。

Finkbeiner的成功凸显了深度学习(人工智能(AI)最有前途的分支之一)正在向生物学领域进军。这些算法已经渗透到智能手机、智能音箱和自动驾驶汽车的现代生活中。在生物学中,深度学习算法以人类无法做到的方式深入数据,检测出否则可能无法捕捉到的特征。研究人员正在使用这些算法对细胞图像进行分类,建立基因组连接,推进药物发现,甚至发现不同数据类型之间的联系,从基因组学和成像到电子医疗记录。

bioRxiv预印本服务器上有440多篇文章讨论深度学习;PubMed在2017年列出了700多条参考文献。这些工具即将被生物学家和临床研究人员广泛使用。但研究人员面临的挑战是,要理解这些算法在做什么,并确保它们不会把用户引入歧途。

训练智能算法

深度学习算法(参见“深层思想”)依赖于神经网络,这是一种于20世纪40年代首次提出的计算模型,其中神经元状节点层模仿人脑分析信息的方式。费城宾夕法尼亚大学的计算生物学家凯西·格林(Casey Greene)说,直到大约五年前,基于神经网络的机器学习算法还依赖于研究人员将原始信息处理成更有意义的形式,然后再将其输入计算模型。但数据集规模的爆炸式增长——来自智能手机快照或大规模基因组测序等来源——以及算法创新,现在使人类有可能退一步。机器学习的这一进步——“深度”部分——迫使计算机,而不是它们的人类程序员,去发现嵌入在像素和碱基中的有意义的关系。当神经网络中的各层过滤和排序信息时,它们也会相互通信,允许每一层从前一层中提炼输出。

来源:Jeremy Linsley/Drew Linsley/Steve Finkbeiner/Thomas Serre

最终,这个过程允许训练有素的算法分析新图像,并正确识别它,例如,查尔斯·达尔文或患病细胞。但随着研究人员与算法渐行渐远,他们无法再控制分类过程,甚至无法准确解释软件在做什么。Finkbeiner说,虽然这些深度学习网络在做出预测时可以惊人地准确,但“有时仍然具有挑战性,要弄清楚网络看到了什么,使它能够做出如此好的预测”。

尽管如此,生物学的许多分支学科,包括成像,正在从这些预测中获得回报。十年前,用于自动生物图像分析的软件专注于测量一组图像中的单个参数。例如,2005年,麻省理工学院和哈佛大学布罗德研究所的计算生物学家安妮·卡彭特(Anne Carpenter)发布了一个名为CellProfiler的开源软件包,帮助生物学家定量测量个体特征:例如,显微镜场中荧光细胞的数量,或者斑马鱼的长度。

但深度学习让她的团队走得更远。她说:“我们一直在转向测量生物学家没有意识到他们想从图像中测量的东西。”记录和结合视觉特征,如DNA染色、细胞器纹理和细胞中空白空间的质量,可以产生数千个“特征”,其中任何一个都可以揭示新的见解。当前版本的CellProfiler包含了一些深度学习元素,她的团队希望在明年添加更复杂的深度学习工具。

“大多数人都很难理解这一点,”卡朋特说,“但在一张细胞图像中,它所包含的信息与在细胞群的转录组分析中所包含的信息一样多,实际上可能更多。”

这种类型的处理使卡彭特的团队可以采用较少监督的方法将细胞图像转化为与疾病相关的表型,并利用它。卡彭特是犹他州盐湖城Recursion Pharmaceuticals公司的科学顾问,该公司正在利用其深度学习工具针对罕见的单基因疾病进行药物开发。

挖掘基因组数据

谈到深度学习,不是任何数据都可以。该方法通常需要大量注释良好的数据集。成像数据提供了自然的契合,但基因组数据也是如此。

旧金山的一家生物技术公司Verily Life Sciences(前身为谷歌Life Sciences)正在使用这些数据。谷歌母公司Alphabet的子公司Verily和谷歌的研究人员开发了一种深度学习工具,可以比传统工具更准确地识别一种常见的遗传变异,即单核苷酸多态性。这款名为DeepVariant的软件将基因组信息转化为类似图像的表示形式,然后将其作为图像进行分析(参见“深潜工具”)。谷歌基于深度学习的基因组研究负责人Mark DePristo预计,DeepVariant对研究主流以外的生物的研究人员特别有用——那些在识别遗传变异时具有低质量参考基因组和高错误率的生物。他的同事瑞安·波普林(Ryan Poplin)与DeepVariant在植物上合作,错误率接近2%,而其他方法的错误率通常为20%。

深潜工具

深度学习工具正在迅速发展,实验室将需要专门的计算专业知识、合作或两者兼而有之来利用它们。

加州旧金山格莱斯顿研究所(Gladstone Institutes)的神经科学家史蒂夫•芬克贝纳(Steve Finkbeiner)建议,首先,请一位具有深度学习专业知识的同事出去吃午饭,问问这种策略是否有用。对于一些数据集,比如成像数据,现成的程序可能会起作用;他说,对于更复杂的项目,可以考虑与人合作。研讨会和会议可以提供培训机会。

访问云计算资源意味着研究人员可能不需要现场计算机集群来使用深度学习——他们可以在其他地方运行计算。谷歌的TensorFlow是一个构建深度学习算法的开源平台,可以在软件共享网站GitHub上找到,DeepVariant也是一个开源版本,它是一种精确识别遗传变异的工具。

总部位于加州山景城的加速科学研究部门与包括生物学家在内的一系列科学家合作,该部门的研究科学家之一米歇尔·戴蒙(Michelle Dimon)说。戴蒙说,这些项目需要一个引人注目的生物学问题、大量高质量、有标签的数据,以及一个能够让公司的机器学习专家在该领域做出独特计算贡献的挑战。

那些希望快速了解深度学习的人应该看看“深度评论”,这是一份全面的众包评论,由费城宾夕法尼亚大学的计算生物学家Casey Greene领导。t .京et al。预印本在bioRxiv http://doi.org/gbpvh5;2018).

莎拉·韦伯

位于多伦多的加拿大深度基因组公司(Deep Genomics)首席执行官布伦丹·弗雷(Brendan Frey)也专注于基因组数据,但其目标是预测和治疗疾病。Frey在多伦多大学的学术团队开发了基于健康细胞的基因组和转录组数据训练的算法。这些算法在这些数据中建立了rna处理事件的预测模型,如剪接、转录和多聚腺苷酸。Frey说,当应用于临床数据时,算法能够识别突变并将其标记为致病性,即使他们从未见过临床数据。在Deep Genomics, Frey的团队正在使用相同的工具来识别和靶向软件发现的疾病机制,以开发来自短核酸序列的治疗方法。

另一个拥有大量数据集、适合深度学习的学科是药物研发。在这里,深度学习算法正在帮助解决分类挑战,筛选形状和氢键等分子特征,以确定对这些潜在药物进行排名的标准。例如,总部位于旧金山的生物技术公司Atomwise开发了一种算法,可以将分子转换为3D像素网格,称为体素。这种表示方式使该公司能够以原子精度计算蛋白质和小分子的3D结构,并对碳原子的几何形状等特征进行建模。该公司首席执行官亚伯拉罕·海费茨(Abraham Heifets)表示,这些特征随后被转化为数学向量,算法可以利用这些向量预测哪些小分子可能与特定蛋白质相互作用。他说:“我们做的很多工作都是针对没有已知结合剂的[蛋白质]目标。”

Atomwise正在使用这一策略来推动其新的人工智能驱动的分子筛选程序,该程序扫描了1000万种化合物的库,为学术研究人员提供多达72种潜在的小分子结合剂,用于他们感兴趣的蛋白质。

深度学习工具还可以帮助研究人员对疾病类型进行分层,了解疾病亚群,找到新的治疗方法,并将其与合适的患者进行临床测试和治疗。例如,Finkbeiner是一个名为“解答渐冻症”(Answer ALS)的联盟的成员,该联盟致力于将1000名患有神经退行性疾病肌萎缩性侧索硬化症(也称为运动神经元疾病)的患者的一系列数据——基因组学、转录组学、表观基因组学、蛋白质组学、成像甚至多能干细胞生物学——结合起来。他说:“这是我们第一次有了一个数据集,我们可以应用深度学习,看看深度学习是否可以揭示我们在细胞周围的培养皿中测量的东西与患者身上发生的事情之间的关系。”

挑战和注意事项

研究人员警告称,尽管深度学习前景光明,但它也带来了重大挑战。与任何计算生物学技术一样,算法产生的结果与输入的数据一样好。模型与训练数据的过度拟合也是一个问题。此外,对于深度学习来说,数据数量和质量的标准往往比一些实验生物学家所期望的更为严格。

深度学习算法需要非常大的数据集,这些数据集需要被很好地注释,这样算法才能学会区分特征和分类模式。更大的、标记清晰的数据集——数百万个数据点代表不同的实验和生理条件——为研究人员训练算法提供了最大的灵活性。Finkbeiner指出,在他的工作中,算法训练在大约15000个例子后会显著提高。卡彭特说,要获得这些高质量的“基本真相”数据可能异常困难。

为了规避这一挑战,研究人员一直在研究用更少的数据进行更多训练的方法。卡彭特说,底层算法的进步使神经网络能够更有效地使用数据,可以在一些应用程序中只对少量图像进行训练。科学家还可以利用迁移学习,即神经网络将从一种数据类型获得的分类能力应用到另一种数据类型的能力。例如,Finkbeiner的团队开发了一种算法,最初教它根据形态变化预测细胞死亡。虽然研究人员训练它研究啮齿动物细胞的图像,但它第一次接触人类细胞的图像时,准确率达到了90%,随着经验的增加,准确率提高到99%。

在一些生物图像识别工作中,谷歌Accelerated Science使用的算法最初是根据从互联网上挖掘的数亿张消费者图像进行训练的。然后,研究人员使用几百张与他们希望研究的生物图像相似的图像来改进训练。

谷歌Accelerated Science的研究科学家米歇尔·戴蒙(Michelle Dimon)指出,深度学习的另一个挑战是,计算机既不聪明又懒惰。他们缺乏区分生物学相关差异和正常变异的判断力。“计算机在发现批量变化方面的能力惊人,”她指出。因此,获取将被输入深度学习算法的数据通常意味着对实验设计和控制施加很高的要求。加速科学要求研究人员在细胞培养板上随机放置对照物,以考虑培养箱温度等微妙的环境因素,并使用比生物学家可能使用的两倍多的对照物。戴蒙打趣道:“我们让移液变得很困难。

戴蒙说,这种危险凸显了生物学家和计算机科学家合作设计包含深度学习的实验的重要性。在谷歌最新的一个项目中,仔细的设计变得更加重要:Contour,这是一种将细胞成像数据聚类的策略,以突出趋势(如剂量反应)的方式,而不是将它们划分为特定的类别(如活着或死亡)。

尽管深度学习算法可以在没有人类先入之见和过滤器的情况下评估数据,但Greene警告说,这并不意味着它们是公正的。训练数据可能是扭曲的——例如,当只使用北欧人的基因组数据时就会发生这种情况。在这些数据上训练的深度学习算法将获得嵌入的偏见,并将其反映在预测中,这反过来可能导致不平等的患者护理。如果人类帮助验证这些预测,这就提供了对问题的潜在检查。但如果让计算机独自做出关键决定,这种担忧就会令人不安。格林说:“把这些方法看作是增强人类的一种方式,比把这些方法看作是取代人类要好。”

然后还有一个挑战,就是要准确理解这些算法是如何构建它们用来对数据进行分类的特征或特征的。马里兰州巴尔的摩市Insilico Medicine的研究科学家Polina Mamoshina说,计算机科学家正在通过改变或调整模型中的个人特征来解决这个问题,然后研究这些调整如何改变预测的准确性。Insilico Medicine使用深度学习来改善药物发现。但格林警告说,不同的神经网络处理同一问题的方法是不一样的。他说,研究人员越来越多地关注能够做出准确和可解释预测的算法,但目前这些系统仍然是黑盒。

“我不认为高度可解释的深度学习模型会在2018年出现,尽管我很乐意是错的,”格林说。