世界观
2022年11月23日

要解决同行评审问题，就要把它分成几个阶段

所有的数据都应该被检查，但不是每一篇文章都需要专家。

奥拉沃·b·阿马拉尔⁰

奥拉沃·b·阿马拉尔
1. Olavo B. Amaral是里约热内卢联邦大学的一名meta研究员，他在那里协调巴西的可重复性计划。
查看作者出版物

您也可以在中搜索这个作者PubMed谷歌学者

您可以通过您的机构访问本文。

同行评审并不是检测错误和有问题数据的最佳方法。专家审稿人很少，他们的任务繁多，对他们来说彻底检查每一篇文章的数据是不可行的，特别是当数据不共享的时候。丑闻，如2020年撤回备受关注的COVID-19论文美国公司Surgisphere的研究人员的研究表明，未经验证的论文是多么容易从漏洞中溜走。

作为一名研究同行评审的meta研究者，我对这个概念的模糊程度感到震惊。它将严谨的评价与杂志中值得刊登的内容的策划结合在一起。前者是保持科学记录笔直的关键，而后者是在印刷空间有限的时代形成的。

对于大多数论文来说，检查数据是否有效比评估他们的主张是否有根据更重要。数据，而不是结论，将成为一个给定主题的证据基础。未被发现的错误或捏造的结果将永久损害科学记录。

研究人员使用人工智能分析同行评审

我不怀疑专家评审对很多事情都是至关重要的，但并不是所有发表的研究都需要专家评审。质量控制的许多容易实现的工作不需要专家——甚至不需要人。只有在确认了数据的一致性之后，才有价值评估一篇论文的结论。

将同行评审分解为质量控制的模块化步骤，可以改善已发表的科学，同时减少评审的负担。每一篇文章都可以接受基本检查——例如，检查所有数据是否可用，计算是否正确，分析是否可重复。但是，由领域专家进行的同行评议将保留在那些引起社区兴趣的文章或由期刊挑选的文章上。专家可能是评估一篇论文结论的最佳人选，但让每一篇文章都得到他们的关注是不现实的。更有效、更广泛适用的质量控制解决方案将使审稿人在数据可靠的论文上更有效地利用时间。

一些基本的验证可以通过算法有效地执行。在2015年,荷兰的研究人员开发了statcheck，这是一个开源软件包，可以检查是否P心理学文章中引用的数值与测试数据相符。SciScore是一个检查生物医学手稿的严格标准的项目，如随机化、实验盲法和细胞系认证，该项目已经筛选了数千份COVID-19预印本。在临床文献中，像GRIM, SPRITE和Carlisle方法这样的测试已经被用来标记数字不一致的结果。

去中心化的同行评审是不是什么新想法，但由于缺乏数据标准化，其实施仍受到阻碍。当自动化方法在非结构化文本或表上运行时，它们的准确性和效率是有限的。例如，Statcheck之所以能发挥作用，是因为美国心理协会(American Psychological Association)有一个广泛使用的描述统计结果的惯例。

人工智能是否应该在评估研究质量方面发挥作用?

这种标准化目前是一种例外而不是规则，可以更广泛地应用于数据、代码和元数据。当这些信息以系统的格式共享时，检查它们就不像检查文章那样耗费劳动。据估计，专家每年花在同行评审上的时间超过1亿小时;如果他们抽出一些时间来就如何在各自领域中构建数据达成一致，他们可能会对质量控制产生更大的影响。

尽管如此，检查数据并不能保证它们的收集与报告相符，或者它们代表了对所观察到的情况的公正记录。要做到这一点，认证必须向上游移动，从结果到数据获取——而不是审查手稿，质量控制应该针对实验室和设施，如诸如提高临床前数据的质量(EQIPD)。这可以增加结果的透明度和信任，并为防止错误而不是太晚发现错误留出空间。

大多数过程级质量控制仍然是关起门来的，但是一些社区已经采取了措施来改变这种情况。例如，基因组学领域的各种协会为数据收集和元数据设定了集体标准。粒子物理学长期以来都是由独立团队对数据进行盲目分析。柏林卫生研究所的QUEST中心(网址:Charité)等可重复性中心已经建立起来，以监督各自机构内多个研究小组的过程。

除非科研机构和资助机构授予它们期刊同行评审目前享有的地位，否则这些系统的努力将不会成为科学过程的一部分。如果这些组织奖励研究人员的特定方面的成果得到认证，他们可以为这种模块化服务创造一个蓬勃发展的市场。

从长远来看，这可以使已发表的科学论文更值得信赖，并且可能比目前的系统更可行。在目前的系统中，同行评议耗费了研究人员数亿小时的时间，但收效甚微。为了使效益最大化，在转向文字和理论之前，质量控制应该以数据和过程为目标。辨别哪些数据是有效的是科学的基础，应该通过系统的方法而不是专家意见来处理。

自然611， 637 (2022)

doi: https://doi.org/10.1038/d41586 - 022 - 03791 - 5