信贷:说明项目的双胞胎

染色质DNA不仅仅保持整洁和整洁。这个复杂的基因组DNA和蛋白质的假定不同结构和构象,从而影响缠绕在它的基因的表达。在特定的构象,远的两个序列的线性DNA可能实际上是位于相邻和相互影响的活动;在其他构象,他们可能远。

Erez艾登在麻省理工学院的一名研究生在剑桥当他联合技术,首次揭示了染色体折叠在基因组范围内的景观。高c DNA循环细节和结构域基因表达的影响,甚至可以帮助整合复杂的基因组。数据采用二维矩阵的形式详细说明染色质接触,但在2009年,艾登没有简单的方法来探索它们。所以,他即兴创作。

“我只会打印出高c矩阵在多个决议和我将使用数百页的纸,”他回忆说。“我会找到最大的会议桌上我可以和我刚刚阵列印刷纸张在我面前为了能够看到一大块矩阵。”

“这是一个伟大的接口,”艾登说。不过,他承认,更环境可持续和可共享的方法是必需的。

结果是果汁盒,一个基于java的桌面应用程序,提供了谷歌Maps-style chromatin-interaction数据的探索。它允许研究人员从基因组水平缩放到小的结构特点。

在2014年发布,果汁盒已经被下载14000次,艾登说,和一个基于浏览器的版本今年推出。果汁盒只是一系列免费项目探索二维交互数据:一些关注相对狭窄的染色体位点,而另一些使基因组探索。越来越多的子集推断3 d结构从2 d矩阵。但所有反映chromatin-interaction越来越丰富的数据集,更不用说的影响4 d Nucleome项目等资助项目。

“因为(数据)已经变得如此复杂,可视化变得更加重要,”彼得说公园,马萨诸塞州波士顿哈佛医学院bioinformatician。

加州大学圣克鲁斯(加州大学)基因组浏览器是一个最受欢迎的探索基因组数据的门户。像大多数基因组浏览器,它呈现序列数据的线性阵列信装饰着表观遗传特性,如组蛋白修饰和甲基化网站,显示在1 d“跟踪”。

然而,高c生成二维矩阵。技术识别序列线性DNA序列中远但在3 d空间近邻。“你看看一双基因组中位置,它告诉你他们撞到另一个,”艾登解释道。通常,这些数据呈现为热图,着色强度反映了两点之间的互动频率。

艾登和他合作开发者,包括加州大学的詹姆斯•罗宾逊圣地亚哥(UCSD),把灵感来自谷歌地图,用户可以无缝地放大从全球到街上的水平。整个数据集是巨大的,但谷歌没有提供它。相反,软件”将世界划分为块在不同的决议”,罗宾逊说。在任何时候,用户视图只是少量的瓷砖,使相邻的瓷砖容易获取。“只要你总能迅速的四个你看,你可以支持一个交互式地图,”他说。

同样,果汁盒“嗝”文件存储预先计算的瓷砖为每个可能的染色体配对在多个分辨率设置。查表的速度访问通过允许软件检索数据,而无需搜索。因此,果汁盒用户可以无缝地探索整个基因组的交互,然后放大视图的精细功能。

用户可以访问任何几百预先计算的地图,艾登接触实验室已经公开,或查看他们自己的。他们可以覆盖这些数据与标准浏览器,如基因的位置或组蛋白标记,从自己的研究或从公共存储库。结合位点的dna结合蛋白质CTCF,例如,高度与染色体循环。他们可以标记和记录感兴趣的特性。

基因组同步

HiGlass3月启动一个基于web的工具,生物医学信息专家尼尔斯·Gehlenborg哈佛医学院,还提供了一个于谷歌地图的经验。与果汁盒一样,研究人员可以导入基因跟踪来帮助理解他们所看到的,但HiGlass也允许他们在一个浏览器窗口中打开多个HiGlass视图和同步,这样他们总是显示相同的地区。这样,Gehlenborg说,研究人员可以比较在不同的实验条件或染色质构象。“我们使研究人员和分析师产生新的假设,”他说。(基于浏览器的版本的果汁盒也允许多个同步视图窗口,艾登说;用户桌面的果汁盒的应用可以同步地图在不同的窗口,而不是一个显示。)

我们使研究人员和分析师产生新的假设。

Gehlenborg的团队建立了一个HiGlass探索公开数据的服务器。研究人员需要分析自定义数据集必须在本地安装软件;一个码头工人容器用于这一目的。

果汁盒的网络版和HiGlass允许用户创建共享url指向特定的数据视图——一项功能,艾登电话软件的“杀手锏”。假设一个用户注意到基因组结构完全重叠与特定1 d轨道,他说。“你把网址,复制,你可以推它。和所有的人接受微博可以点击它和繁荣!他们得到完全相同的配置,你现在已经在电脑上。”

两个其他可视化选项,3 d基因组浏览器和WashU表观基因组浏览器,提供更多的局部视图。用户选择一个感兴趣的轨迹和浏览器显示联系人在该地区。

而果汁盒和HiGlass渲染热图正方形对角线分成两个镜像,这些浏览器显示热图三角形—也就是说,广场的一半,没有它的镜像。“我们减少冗余信息的一半,”加州大学圣地亚哥分校任基因组生物学家必应。(WashU浏览器也可以联系资料显示为弧连接区域有关。)

改变可能听起来微不足道,但是根据冯越好时,宾夕法尼亚州立大学的发展他的首部3 d基因组浏览器原型与任博士后研究员,它可以更容易地识别功能区域。3 d基因组浏览器,例如,允许用户调整热图从两个物种,一个在另一个,评估进化守恒折叠结构。“virtual-4C”模式允许用户查询高c数据集序列与一个特定的基因位点,交流提供一个窗口之间的相互作用基因调控区域。

生物工程师发布的另一个选择是,盛在加利福尼亚大学圣迭戈分校(UCSD)的钟和他的同事。这使得研究人员将一个功能齐全的基因组浏览器,包括2 d数据查看器接触,到他们的个人或实验室网页只有几行HTML代码。研究人员可以与同事共享数据,发布这与他们的手稿,或探索它自己——所有约20分钟的工作,钟说。

弗朗西斯科·法拉利、计算生物学家FIRC分子肿瘤学研究所的米兰,意大利,他使用R高c数据可视化编程语言和Bioconductor软件库。这些基于文本的项目缺乏其他软件的交互性,但因为球队已经运行数据分析使用R和Bioconductor,法拉利解释说,“这只是更方便”用于可视化。Bioconductor包HiTC提供高c可视化工具,一样Python库HiCPlotter

将三维

最终,2 d矩阵联系意味着3 d结构。毕竟,如果两个地区之间的互动,他们可能是近距离物理距离。越来越多,一些研究人员正在使用他们的2 d数据直接计算和可视化三维结构。

Csilla Varnai, Babraham研究所博士后在剑桥,英国,帮助生产单细胞高c的3 d模型研究今年早些时候(t .长野自然等。547年,61 - 67;2017年)。她用一个通用的分子建模包叫Gromacs模型染色体作为字符串的珠子,每个代表大约100个碱基,然后让它折叠,使用高c联系人作为“约束”这一过程。

其他包被专门设计模型染色质结构。Chrom3D,由bioinformatician乔纳斯Paulsen奥斯陆大学的混合高c数据与信息的位置靠近核膜模型在细胞核染色体。“这对基因调控很重要,”Paulsen解释道。核外围附近的基因往往是压抑的,而更靠近基因通常是积极的。TADkit另一个工具,从马克Marti-Renom和迈克Goodstadt国家基因组分析中心中心的基因调控在巴塞罗那,西班牙,允许用户查看3 d染色体模型与相应的2 d热图和1 d轨道。选择一个功能在一个表示强调重叠的特性。

还有待观察什么见解等3 d表示可以提供2 d地图不能加热,特别是因为大多数高c数据集代表数以百万计的细胞,而不是一个单一的结构。列昂尼德•米尔镇bioinformatician在麻省理工学院,把结果数据比作平均一批照片来确定一个典型的人是什么样子。“实际上不是代表你拍照的人,”他说。还不清楚是哪个工具,如果有的话,将成为基因组可视化的事实上的标准。在这方面辩论正在进行,钟说。

任说,当涉及到基因组生物学可视化是关键。他解释道,分析工具是基于统计数据;有时他们错过的东西,有时他们没有检测特性。“在一天结束的时候,没有什么可以取代看着自己的数据。”