项目检查电脑屏幕上两个程序员工作的代码。

科学软件工具的使用往往就隐藏在研究文章。信贷:BalanceFormCreative /上面

软件是现代科学研究的一个关键因素。然而,常常软件既不是正式发表或引用文献中,使它困难的研究人员和开发人员,组织,资助他们到量化的影响。新发布的数据集旨在填补这一空白。

陈由扎克伯格倡议(CZI),基于科学的资助者在红木市,加利福尼亚,CZ软件提到数据集目录不正式的引用,而是在文本中提到的软件的科学文章1。与6700万年从近2000万全文研究文章提到,数据集——去年9月28日宣布——是有史以来最大的科学软件提到的数据库,达里奥Taraborelli说CZI科学项目总监。

“如果你看看关键突破,不仅在生物医学,但在科学在过去的十年中,他们也一直是计算在自然界中,“Taraborelli说:蛋白质折叠的预测例如,和黑洞的描述。“开源软件和科学特别是这些突破的核心。”

CZI已承诺4000万美元的3年以上通过其基本科学开源软件(eos)项目支持程序员开发此类软件在生物科学领域。但该组织希望未来的投资者知道他们的钱将有最大的影响。“学习提到对我们来说是最好的地点画的地图软件有影响,“Taraborelli说”,让它能够满足社区将帮助扩大这些努力。”

测量的影响

创建数据集,Taraborelli的团队开始了人工智能语言模型被称为SciBERT。这就是一直在训练一个神经网络研究论文查看文本并填写缺失的部分。研究人员进一步训练SciBERT处理文本和决定是否一个词或短语是一个科学的软件的名字。为此,他们提出了用现有的数据集称为SoftCite的大约有5000篇科学论文,每个软件提到已经手动贴上标签。然后研究人员将他们的改进模型对2000万篇文章的集合,CZI从在线存储库获得PubMed中部和直接从出版商。

然后他们试图找出哪些具体每个提到提到软件工具。安娜玛利亚Istrate CZI研究学家说,这是最大的挑战之一。一组叫做scikit-learn数据分析工具,例如,可能出现在文本“Scikit学习”,“sklearn”、“scikit-learn81”或与其他措辞。研究人员首先提到的一个聚类算法应用于集团软件相似,这样每个集群为代表的软件之一。然后选择最常用的术语在每个集群和寻找在线软件存储库,如GitHub,在线软件名称映射到的位置。最后,研究人员手动清洗数据删除短语,实际上并没有把软件。

当应用到240万篇论文的一个子集,相对应的团队发现约1000万提到,97600独特的软件。人们可以使用这些数据,例如,识别研究领域最常提到的工具,找到软件标题出现在一起或揭示最受欢迎的软件(参见“软件上升”)。这些潜在的使用记录计算笔记本伴随软件提到数据集库GitHub。“我们很兴奋要注意的一些软件排名名列前茅的工具我们基金通过我们的eos计划,“Istrate说。这些包括标题,如修、GSVA IQ-TREE和单片眼镜。

软件上升:一个图,显示了五个增长最快的工具在CZ软件提到从2017年到2021年的数据集。

来源:CZI / ref . 1

计算机科学家弗兰克•克鲁格维斯马德国应用科学大学,去年完成了一个类似的项目2CZI团队说,“做得很好建立这样一个巨大的资源覆盖软件提到”。

米歇尔·巴克住在澳大利亚和指导研究软件联盟,是一个非盈利性组织,汇集了科学软件的开发者和资助者,调用数据集的一个重要贡献。“我们在这个美妙的时刻的承认,研究软件是现代研究的一个重要部分”,她说,但是研究人员需要能够分析数据。记录软件提到不仅有助于适当直接资助,她补充道。它也给开发人员识别和帮助组织了解谁雇佣和提升。

它还可以帮助开发人员了解他们的工作是如何被使用的,并显示人员的特定工具被用来进行计算分析,发表增加他们的再现性。

需要新的规范

工具,如CZ软件提到数据集仅占一个元素在认识到开发人员的工作。新准则还需要,根据研究人员。阿姆斯特丹宣言》资助研究软件的可持续性3去年11月由研究软件联盟,列出了几个关键的原则和建议,包括研究软件应该是公认的研究成果,组织需要雇人来维护它。(相同的参数了数据集。)

在11月,Taraborelli和其他人发表的十个简单的规则为科学开源软件的4建议资助者鼓励多样性,促进透明的治理软件项目和支持不仅创造的工具,还维护现有的。

具有讽刺意味的是,很少使用的工具越多,它往往是专门论文中提到的。Taraborelli指向无处不在的Matplotlib和NumPy——流行的数值分析和绘制图形库在Python编程语言——的使用往往就难以明说的。但在GitHub,成千上万的其他软件包依赖这些库。引用“如果你计算软件依赖关系,这些项目将是有史以来最有效的人工制品生产的科学,”他说。”然而,直到几年前,主要资助机构拒绝资助这些项目,声称他们缺乏足够的影响。”

”软件,不错,生命或死亡取决于使用多少,”罗伯特·Lanfear说,堪培拉澳大利亚国立大学的生物学家和IQ-TREE协作开发的软件。“额外措施的使用总是受欢迎的。他们只能帮助我们更好地了解,和多少,每个软件包使用。”