漫画展示研究者们望着高耸的人类形式的基因测序数据。

插图,安娜也剥

2000年7月,大卫Haussler记得哭当他看到第一个完全人类基因组组装流在他的电脑屏幕。他和吉姆•肯特郡一名研究生,建造了第一个基于web的工具,探索人类基因组的三十亿个字母。他们发表了草稿的基因组在互联网上只有11天完成后缝合在一起的艰巨的任务——一个任务分配给他们作为人类基因组计划(HGP)的一部分,国际合作,朝着这个目标已经十年。它仍然是集团公布了前几个月的分析基因组的页面自然1,但数据准备。

”,到整个世界,“Haussler回忆,加州大学圣克鲁斯分校的科学主任基因组学研究所。很快,世界上每个人都可以探索染色体,染色体,基因通过基因,基地,基地——在网络上。

这是一个历史性的时刻,Haussler说。在计画成立于1990年代初,“没有一个严肃的讨论在生物医学研究数据共享”,Haussler说。”的标准是,一个成功的侦探守住自己的数据,只要他们可以。”

这个标准显然不会这么大的工作和合作。如果国家或科学家囤积他们生产的数据,这将破坏这个项目。所以在1996年,计画的研究人员一起制定众所周知的百慕大原则,与各方同意提供人类基因组序列在公共数据库中,理想情况下24小时内,没有延误,没有例外。

快进二十年,这个领域充满基因组数据,由于改进技术对全基因组测序和基因分型的测序几百万选择斑点快速捕获中的变化。这些努力产生了遗传读数数以百万计的个人,他们坐在全球数据存储库。的计原则了,后来通过期刊和资助机构,意味着任何人应该能够访问数据为出版基因组研究和使用它们来创建新的发现。

吉姆·肯特坐在车库办公室在2000年与两个大型计算机

在2000年,吉姆•肯特大学的一个研究生加州圣克鲁斯,帮助组装和分享十年的人类基因组计划的结果。来源:加州州立大学评议会。由特殊的集合,大学图书馆,加州大学圣克鲁斯。加州大学圣克鲁斯照片摄影服务。

要是那么简单。

数据的爆炸导致政府资助机构、研究机构和私人研究财团开发自己的定制的数据库来处理复杂,有时敏感数据集。和存储库、各种访问,没有标准的数据格式规则,导致“通天塔”情况下,Haussler说。

尽管一些研究人员不愿意共享基因组数据,这个领域通常被视为慷慨的与其他学科相比。不过,存储库旨在促进共享上传和下载数据经常出现障碍。研究人员告诉的故事花费几个月或几年追踪数据集,却发现死角或无法使用文件。和期刊编辑和资助机构难以监测科学家是否坚持他们的协议。

许多科学家正在推动改变,但它不能足够快。

临床genomicist海蒂雷姆曾为此写过说这个领域已经逐渐意识到,大科学进步需要大量基因组数据与疾病和health-trait数据。“但不兼容和共享,”说雷姆曾为此写过波士顿马萨诸塞州总医院和剑桥的Broad研究所。“我们如何让世界上每个人的病人,临床医生和研究人员——分享?”

障碍无处不在

人类基因组的测序容易研究疾病与单个基因的突变有关——孟德尔疾病如non-syndromic听力损失2。但识别更常见的复杂疾病的基因基础,包括心血管疾病、癌症和其他死亡的主要原因,需要多个基因的识别风险因素在整个基因组。要做到这一点,研究人员在2000年代中期开始比较数以千计的基因型,成千上万的人,没有一个特定的疾病或条件,这种方法称为全基因组关联研究,或几。

受欢迎的方法——超过10700 GWAS自2005年以来一直在进行。,产生了海量的数据,说Chiea村豪尔,组长新加坡基因组研究所研究青光眼的遗传基础。一项研究有10000人,看着100万年每一个遗传标记,例如,豪尔说,与100亿年将生成一个电子表格条目。

大部分的这些方面的个人基因组数据现在住在受控访问数据库。这些设置来处理棘手的法律和道德问题,基因数据,与个人信息——表型数据,包括医疗记录、疾病状态或生活方式的选择。即使在匿名数据集,在技术上是可行的,个人可以reidentified。兽医研究人员寻求访问受控访问数据库,确保数据仅用于参与者同意的目的。

美国国家卫生研究院(NIH)要求其给予接受者将GWAS数据到其官方库,数据库的基因型和表型或dbGaP。欧洲研究人员可以进入欧洲Genome-phenome存款数据归档(EGA)安置在欧洲生物信息学研究所(EMBL-EBI) Hinxton,英国。同样,其他大型发电机的基因组数据,如营利性公司23 andme Sunnyvale加利福尼亚,在伦敦和英格兰非营利基因组学,经营自己的受控访问数据库。

手写的百慕大原则草案,1996年写在白板上

第一份草稿数据共享的原则,对人类基因组计划,由约翰·萨尔斯顿在百慕大,在白板上写的1996年。信贷:理查德·迈尔斯

但是上传数据到这些存储库通常需要很长时间。豪尔说,因此,数据往往是“最小的和稀疏”,因为研究人员正在沉淀是什么需要兼容。

有时数据存储在多个地方,和创建其他挑战。Rasika马赛厄斯,一个遗传流行病学家在巴尔的摩的约翰霍普金斯大学,马里兰,研究哮喘的基因在非洲血统的人,说,分权是一个大问题。她是TOPMed的一部分,precision-medicine计划由美国国立卫生研究院的国家心脏,肺和血液研究所。它包括超过155000名研究参与者80多个研究和股价在几个存储库数据,包括dbGaP和一些大学校园门户网站。

“这是一个非凡的资源,“马赛厄斯说。但它是繁琐的局外人来寻找所有可用的数据和请求访问,她说。他们必须经常提供详细的建议和支持。“这是不必要的困难。”

许多寻找解决方法。“我个人不下载dbGaP数据,我直接研究人员,问他们想合作,”露丝说厕所,遗传流行病学家伊坎在西奈山医学院在纽约市。几年前,她试图访问一个dbGaP数据集,申请多次数字文件,却被拒绝。“即使登录dbGaP可能是一件很痛苦的事情。这不是researcher-friendly,”她说。

代理主任史蒂芬•雪莉贝塞斯达的美国国立卫生研究院的国家生物技术信息中心,马里兰州,dbGaP承认流程提交和访问数据是“不完美和痛苦”。和复杂的、异构的数据需要个案审查,这不能简单地加速,把“更多的人在曲柄更快”。

但是,雪莉说,美国国立卫生研究院投资现代化系统使其更简化和灵活。副主任嘉莉Wolinetz NIH科学政策,表示,它尚未决定是否治疗将是一个dbGaP 2.0或另一种资源。“你把在一个权宜之计,还是时间投资在整个浴室装修吗?”她问道。

所有的问题导致共享基因组数据的访问控制,许多研究人员说数据库如dbGaP和英国生物库,拥有500000人基因组数据,仍然是无价的。马赛厄斯在TOPMed极力保护参与者的,看到了受控访问提供的保护的价值。和许多人一样,她希望看到更好的存储库的资源。但是,她说,“我是一个提倡制衡”。

弗朗西斯·柯林斯摇的手克雷格·文特尔在一次新闻发布会上2000年比尔·克林顿在白宫

克雷格·文特尔(左)的塞莱拉基因和弗朗西斯·柯林斯(中心),国家人类基因组研究所,2000年在华盛顿会晤时宣布初稿的完成的人类基因组。信贷:罗恩·萨克斯/上面

和其他人很高兴访问,即使很难获得。“这是我们的范围产生的数据量,”媚兰Bahlo说一家statistical-genetics实验室沃尔特和伊莱扎霍尔医学研究所的墨尔本,澳大利亚。她的实验室是更愿意通过数字文件使用dbGaP韦德,和十多个项目。她最近还花了六个月徒劳的追逐一个数据集,应该是通过研究所的数据公开门户,但不是。

“没有什么比获取数据困难dbGaP EGA,”豪尔说,“除非是让它从一个研究人员不愿意分享。”

分享警察

二十年的计画,没有特定的普遍政策说,研究小组分享他们的基因组数据,或分享他们在一个特定的格式或数据库。说,许多杂志继续遵守百慕大原则,要求基因数据共享在批准数据库在刚出版的时候。执行这些政策可以成功与否。

米歇尔·Trenkmann遗传学和基因组学的高级编辑自然在伦敦说,作者往往不愿分享,参与者的隐私担忧为由,同意或国家或公司规定谁拥有数据。“值得注意的是,作为一个领域,遗传学家预计要共享的数据,但有时他们不想分享他们自己的数据,”她说。Trenkmann延后在这种情况下,如果不能克服的挑战,作者必须阐明其原因直接在透明的纸。(自然新闻团队编辑独立的团队》杂志上。)

《华尔街日报》基因组研究“没有例外”政策。执行编辑希拉里•苏斯曼解释说,该杂志的编辑们将通过数据共享障碍与作者在个案基础上找到解决方案。这个可以尽量问作者重新从他们的机构审查委员会批准,回到参与者reobtain他们同意或删除不可共享数据后重新运行分析。《华尔街日报》拒绝作者前期状态,他们不能共享数据。“社区和资助者这种透明度和再现性的需求,”她说。

但即使作者同意共享数据,编辑和审稿人确认它的能力有限。他们可能没有时间或访问受控访问数据库,检查数据质量,格式化或完整性。

Trenkmann说资助者应该要求研究人员从一开始就有一个具体的数据共享计划的一个项目。这可能有助于转变态度,以便研究人员认为分享是一种责任,她说。

NIH-wide数据共享政策执行2023年1月就完成了这个任务。它要求所有国家卫生研究院授予申请人把数据管理和共享(DMS)计划拨款提案并允许研究人员将他们的一些预算分配给的任务。

这应该确保对齐的数据共享与伦理和隐私考虑,和公平原则——这意味着数据必须是可发现的,可,可互操作和可重用,卡罗琳Hutter说,国家人类基因组研究所的主任在贝塞斯达(NHGRI)基因组科学分工。“这并不意味着,我把我的数据在一堵墙,希望有人抓住了它,”她说。

“执法非常棘手的一部分,”Hutter补充道,“因为数据共享往往在项目的结尾。“格兰特和期刊编辑一样,管理员只能做抽查的数据加入数字出现在年度进展报告。

寻找解决方案

可能会有方法来分享更简单而无需违背专有或隐私问题。许多基因利益相关者同意GWAS数据的一种聚集形式,称为GWAS汇总统计,可以而且应该广泛共享和自由。这些摘要包括聚合分数为每个基因变异发现跨多个基因组与一种疾病或症状。研究人员更容易使用,保护参与者的隐私。

许多研究财团做分享这些网站或门户网站。但开放获取合作EMBL-EBI NHGRI,称为GWAS目录3,是朝着一个集中的、标准化的解决方案。

安妮•沃西基构成肖像的23和我公司总部

个人基因组学公司的崛起,如23 andme,安妮•沃西基于2006年共同创立,增添了新的皱纹基因组数据共享实践。信贷:彼得·达席尔瓦/纽约时报/回来的/ -

从2020年开始,GWAS目录让研究人员提交他们的汇总统计数据与元数据描述的研究参与者。作为回报,研究人员让加入正式出版前的ID用于预印本和提交的手稿。

但很多研究人员说,总结推进基因组科学的统计数据是不够的。“这是一个重大威胁,”克里斯·阿莫斯说遗传流行病学家研究肺癌在休斯顿贝勒医学院,德克萨斯州。研究人员需要方面的个人基因组数据和相关表型特征数据准确揭示遗传变异影响患者疾病。他们也需要完整的科学数据来检查。“如果你没有原始数据,你不能看质量。不够好,可再生的发现,”阿莫斯说。

和数据的所有者非常大的群体,如23 andme和基因组学英国,不要给无限制的访问他们的汇总统计。他们列举了参与者的数据隐私的担忧和希望保留所有权的数据。实际上,他们运行自己的受控访问数据库,使用自定义的流程来访问和可利用的数据。处理的数据的一个先决条件是允许企业分享作者的工作。Bahlo说这些对她要求太高了酒吧和其他bioinformaticians那些希望紧缩数据从基因组学英格兰的100000人基因工程。

Hutter承认,并不是所有的当前成长的烦恼基因组数据共享可以通过改善dbGaP固定简单或通过共享在GWAS目录汇总统计。“dbGaP不是定位发展和处理每一个新类型的数据,”她说。例如,存储数据的成本从全基因组对GWAS非常不同于数据。因此,NHGRI创建了一个基于云计算的基础设施被称为分析、可视化、和信息学实验空间(砧),那里的研究人员可以共享和分析在大型基因组数据集,包括全基因组外显子组序列。

另一个国家卫生研究院计划是研究员身份验证服务(RAS),这将授权人员访问铁砧,dbGaP和其他几个数据资源。“我们的愿景是按这个像签证邮票,”雪莉说,允许研究人员最终合并和分析数据在云计算系统。“我们建立的第一个系统研究者的借书证,”雪莉说。

Haussler和其他一些大数据管理员也有想法。Haussler数据共享的挫折是安装在2013年,随着大卫Altshuler, Eric Lander和其他国际的同事奠定了基础基因组学和全球联盟健康,或GA4GH(见go.nature.com/3app3xr)。它起源于相同的理想计画。“我们让世界共享数据在一个大的数据库,和我们都同意我们将如何使用这些数据,转悠,“Haussler说。“很快,很明显,这是完全不可能的。”

相反,GA4GH现在专注于创建标准基因组数据库的许多世界各地。其工作假说是,它将在技术上是可行的协调数据(如GWAS目录在更大的范围内)和联合,或松散的联系,不同的数据仓库。

GA4GH首席执行官彼得Goodhand使用全球移动通信的类比。有巨大的手机制造商和服务提供商之间的竞争,但在一天结束的时候,他们都有同一个网络。“真正的互操作性,供应商之间的工作关系,有“Goodhand说。“你可以设置系统,允许共享和更容易。”

科学家利用一种GA4GH标准来创建媒人交换为例。这项服务允许临床医生和研究人员的稀有罕见疾病搜索单一的八个国际联合网络数据库找到一个类似的基因型和表现型个人他们工作。如果返回匹配,双方连接的方式保护病人的隐私和所有权和作者的研究。美国国立卫生研究院的RAS还将使用一个GA4GH标准,称为数据存储库的服务,软件界面,帮助不同存储库通信。

Bahlo和其他人说,数据联合的努力变得更加重要,因为该领域的轴心表型数据进行深入分析,生长在范围和复杂性。“数据有各种各样的形式——环境因素,吸烟状况、医学成像数据,“Bahlo说。

她和其他人认为数据联合是一个很好的机会将全球股市注入基因数据共享。来自发展中国家的研究人员可以访问和使用的数据集,而不需要生成自己的数据或有自己的超级计算资源。和更好的数据共享也应该改善非白人的代表,非欧洲全球祖先。代表名额不足尤为明显非洲大陆的血统,占不到0.5%的GWAS的参与者4

Haussler认为积极的同侪压力应该让科学家分享更好的方法。只是增长的需要。20年后发布第一个人类基因组互联网,他的团队建立了一个为任何人探索SARS-CoV-2病毒基因组5

“数据应该是一种生物,”Haussler说。“我想立即点击它,玩它。应的动机。如果你不分享你的数据,你不能这样做。”