基因组学领域并不缺乏可视化工具。但是随着新的方法和数据类型的出现,现有的技术可能难以应付。现在,一种名为Gosling的工具允许生物信息学家构建可以显示基因组信息的应用程序,其灵活性与开发人员从其他图形编程工具中所期望的相同。

Gosling于2020年首次由马萨诸塞州波士顿哈佛医学院的生物信息学家尼尔斯·格伦伯格和他的团队发布,Gosling代表“可伸缩的链接交互式核苷酸图形语法”。1.但这个名字也是向结构生物学家雷蒙德·高斯林致敬,他和罗莎琳德·富兰克林拍摄了著名的“第51张照片”,揭示了DNA的结构。

高斯林就是所谓的语法。它在编程库中实现,提供了灵活的语法来描述基因组区域和相互作用,以及它们应该如何在网页上布局。研究人员和生物信息学家可以使用这些库来创建交互式的、可扩展的可视化,他们可以与同事共享,并构建定制的基因分析工具。

Gosling创建的视图可以被链接,这样在一个面板中选择一个区域就可以在另一个面板中突出显示相同的区域。它们也可以从染色体水平上平移、操纵和放大到单个核苷酸。“视觉表现适应缩放级别,”Gehlenborg说——这一功能被称为语义缩放。在线测试环境提供了可视化,用户可以扩展这些可视化来创建和导出他们自己的图形。Python (Gos)和JavaScript (gosling.js)库使生物信息学家能够将图像直接编程到Jupyter计算笔记本和其他应用程序中。alpha阶段的R版本于7月发布。加拿大温哥华英属哥伦比亚大学的计算机科学家Tamara Munzner说,这些库被用来系统地将数据集与它们的可视化联系起来。像ggplot2和Vega-Lite这样的流行库使用“图形语法”来定义它们的可视化。但这些工具可以用于任何类型的图形,而Gosling是专门为基因组学可视化设计的。蒙兹纳说:“这就像基因组学的纯素食。”

缩小差距

用于可视化的编程工具包括基于模板的函数(使用一行代码来创建标准类型的图形),以及从线条和几何形状逐条组装可视化的工具(如JavaScript D3.js库)。模板版本易于使用,但相对不灵活;另一个提供了更多的定制,但使用起来很费力。

加州山景城谷歌公司的软件工程师Maria Nattestad说:“Gosling确实弥补了这一差距,使得制作具有可视化组件的新工具变得更加容易。”作为她2015年博士研究的一部分,纳特斯塔德开发了一种名为SplitThreader的工具,它以一种被称为Circos图的圆形布局呈现基因组,测序读数为弧线,以突出结构变化。在没有其他选择的情况下,她从头开始绘制这些元素,使用D3.js指定每条线、矩形和圆的位置和尺寸。“这是一条学习曲线,”她说。“我花了很长时间来开发SplitThreader,”她说,但她补充说,如果有了Gosling,它可能会开发得更快。

格伦伯格说,《高斯林》的灵感来自2019年的一篇文献综述2在此期间,他的团队调查了基因组可视化景观,并为这些工具及其功能建立了一个分类。在此基础上,研究人员开发了一种语法来系统地描述这些工具可以实现的可视化。Gehlenborg解释说,Gosling“是一种使用相同分类学组装基因组可视化的基本方法”。

Gosling使用一种称为JavaScript对象符号(JSON)的纯文本格式对数据进行编码,并使用特定于基因组学的语言来补充标准图形库中使用的更通用的术语。Gosling.js、Gos和g(R)osling然后使用该编码以各自的编程语言生成文件。最终的可视化是在网络浏览器中使用渲染引擎和文件格式化工具绘制的,该工具由Gehlenborg团队开发,通过一种名为Hi-C的技术将染色体数据可视化3..gosling-lang.org上的可视化提供了Circos图、基因注释、染色质构象热图、进化守恒等的起点。

领导Gosling开发的博士后Sehi L’yi说,Gosling与其他可视化工具的区别在于它的表现力。他说,在大多数工具中,可以制作的图形以及图形的外观都是预先定义好的。“作为一个用户,定制可视化效果真的不容易。”但有了Gosling,用户可以指定用来表示着丝粒或基因组间隔的符号的颜色、尺寸和位置,然后将其覆盖在染色体的表意符号上,以突出感兴趣的区域。

一个有趣的空间

英属哥伦比亚大学(University of British Columbia)的一个研究生团队决定使用Gosling来创建数据可视化课程的期末项目。“我的一个团队成员在去年的一次会议上听说过它,”团队成员Armita Safa说。她说:“即使对没有编码背景的人来说,使用Gosling也比使用其他大多数可视化工具要容易得多。”也就是说,她指出,他们最初努力提取所需的数据,以允许用户单击区域并创建新的可视化。

奥地利林茨数据可视化公司Datavisyn的首席产品官多米尼克·吉拉尔迪(Dominic Girardi)也在用高斯林做实验,创建了一个交互式游乐场,让用户可以根据基因组区域筛选基因表。吉拉迪说,这家由格伦伯格共同创立的公司现在正在使用Gosling为其企业客户生成可视化工具,尽管它还没有完成一个。

Gosling并不是唯一的基因组数据可视化库;其他示例包括ggbio、gggenomes和gggenes,它们都是ggplot2图形库的扩展。但大多数这些工具创建静态图像,Gehlenborg说-图片,而不是交互式可视化。Gehlenborg说,Gosling未来的计划包括给它一个图形界面,这样研究人员就可以通过拖拽小部件到虚拟画布上来创建可视化,而不必编程。

在加州大学伯克利分校(University of California, Berkeley)领导基因组浏览器开发的罗伯特·布尔斯(Robert Buels)说,高斯林在基因组可视化工具箱中“占据了一个非常有趣的空间”。他说:“你可以通过Gosling获得更多的可定制性。但是用户不需要像使用D3.js这样的工具那样编写那么多的代码。

他说:“这是介于两者之间的一个非常有趣的利基市场,我认为这对该领域来说是一个非常好的补充。”