带有AI ChatGPT服务关闭通知的智能手机,以及由OpenAI开发的带有ChatGPT主页的笔记本电脑屏幕。

图片来源:Vitor Miranda/Alamy

自去年年底一款名为ChatGPT的聊天机器人发布以来,这种类型的人工智能(AI)技术显然将对研究人员的工作方式产生巨大影响。

ChatGPT是一个大型语言模型(LLM),这是一个机器学习系统,可以从数据中自主学习,在对大量文本数据集进行训练后,可以生成复杂且看似智能的写作。这是OpenAI(位于加州旧金山的一家人工智能公司)和其他公司发布的一系列此类模型中的最新一款。ChatGPT已经引起了兴奋和争议,因为它是第一个可以令人信服地用英语和其他语言与用户就广泛的主题进行交谈的模型之一。它是免费的,易于使用和持续学习。

这项技术对科学和社会有着深远的影响。研究人员和其他人已经使用ChatGPT和其他大型语言模型来撰写论文和演讲,总结文献,起草和改进论文,以及识别研究差距和编写计算机代码,包括统计分析。很快,这项技术将发展到可以设计实验、撰写和完成稿件、进行同行评审以及支持编辑决定接受或拒绝稿件的程度。

对话式人工智能可能会彻底改变研究实践和出版,创造机会和担忧。它可能加速创新进程,缩短发表时间,并通过帮助人们流畅地写作,使科学更加公平,增加科学观点的多样性。然而,它也可能降低研究的质量和透明度,并从根本上改变我们作为人类研究人员的自主性。ChatGPT和其他llm生成的文本令人信服,但通常是错误的,因此使用它们可能会扭曲科学事实并传播错误信息。

我们认为这种技术的使用是不可避免的,因此,禁止它是行不通的。研究界必须就这种潜在的颠覆性技术的影响展开辩论。在这里,我们概述了五个关键问题,并建议从哪里开始。

坚持人工验证

llm已经发展了多年,但数据集质量和规模的不断增加,以及利用人类反馈校准这些模型的复杂方法,突然使它们比以前强大得多。llm将引领新一代搜索引擎1能够为复杂的用户问题提供详细而翔实的答案。

但使用对话式人工智能进行专业研究可能会带来不准确、偏见和抄袭。我们向ChatGPT提供了一系列需要深入了解文献的问题和作业,并发现它经常生成虚假和误导性的文本。例如,当我们问“有多少抑郁症患者在治疗后复发?”,它产生了一个过于笼统的文本,认为治疗效果通常是持久的。然而,大量高质量的研究表明,治疗效果减弱,治疗结束后第一年复发的风险在29%至51%之间2- - - - - -4.重复相同的查询产生更详细和准确的答案(见补充信息,图S1和S2)。

接下来,我们请ChatGPT总结我们两人撰写的一篇系统综述JAMA精神病学5研究认知行为疗法(CBT)治疗焦虑相关疾病的有效性。ChatGPT编造了一个令人信服的回答,其中包含了几个事实错误、虚假陈述和错误数据(见补充信息,图S3)。例如,它说这篇综述是基于46项研究(实际上是基于69项研究),更令人担忧的是,它夸大了CBT的有效性。

这种错误可能是由于ChatGPT的训练集中缺少相关文章,未能提取相关信息或无法区分可信和不可信的来源。似乎那些经常让人类误入歧途的偏见,比如可用性、选择和确认偏见,在对话式人工智能中被复制,甚至经常被放大6

使用ChatGPT的研究人员可能会被虚假或有偏见的信息误导,并将其纳入他们的思想和论文中。由于光环效应,粗心的审稿人可能会被一篇由人工智能撰写的论文所欺骗,被其美丽而权威的散文所接受,这是一种从一些显著的积极印象中过度概括的倾向7.而且,由于这种技术通常在复制文本时没有可靠地引用原始来源或作者,使用它的研究人员面临着不承认早期工作的风险,不知不觉地抄袭了大量未知的文本,甚至可能泄露自己的想法。研究人员向ChatGPT和其他llm透露的信息可能会被纳入模型,聊天机器人可以在不确认原始来源的情况下将其提供给其他人。

假设研究人员在他们的工作中使用llm,学者们需要保持警惕。由专家推动的事实核查和核查进程将是必不可少的。即使llm能够准确地加快总结、评估和审查,高质量的期刊也可能决定加入人工验证步骤,甚至禁止使用这种技术的某些应用程序。为了防止人类的自动化偏见——过度依赖自动化系统——强调问责制的重要性将变得更加关键8.我们认为人类应该始终对科学实践负责。

制定问责制度

现在已经有工具可以预测一段文字来自机器或人类的可能性。这样的工具可能有助于检测造纸厂和掠夺性期刊不可避免地使用llm来制造内容,但这种检测方法可能会被进化的人工智能技术和巧妙的提示所规避。与其在人工智能聊天机器人和人工智能聊天机器人探测器之间进行徒劳的军备竞赛,我们认为研究界和出版商应该研究出如何以诚信、透明和诚实的方式使用llm。

研究论文中的作者贡献声明和致谢应清楚而具体地说明作者是否以及在多大程度上使用了ChatGPT等人工智能技术来准备他们的手稿和分析。它们还应该指出使用了哪些llm。这将提醒编辑和审稿人更仔细地审查手稿,以发现潜在的偏见、不准确和不适当的来源信用。同样,科学期刊在使用法学硕士时也应保持透明,例如在选择提交的稿件时。

研究机构、出版商和资助者应该采取明确的政策,提高人们对对话式人工智能在所有可能成为出版记录一部分的材料准备中的使用的认识,并要求透明度。出版商可以要求作者证明他们遵守了这些政策。

目前,LLMs不应该是手稿的作者,因为他们不能对他们的工作负责。但是,研究人员可能越来越难以确定llm在他们的研究中的确切作用。在某些情况下,像ChatGPT这样的技术可能会根据作者的提示生成大量的手稿。在其他情况下,作者可能已经使用人工智能作为语法或拼写检查器进行了多次修改和改进,但没有使用它来编写文本。在未来,llm很可能被整合到文本处理和编辑工具、搜索引擎和编程工具中。因此,它们可能对科学工作有所贡献,而作者不一定意识到这些贡献的性质或大小。这违背了当今对作者、剽窃和来源的二元定义,即某人要么是作者,要么不是作者,来源要么被使用过,要么没有。政策必须调整,但完全透明永远是关键。

人工智能发明已经引发了对专利法的根本性反思9关于用于训练人工智能的代码和图像的版权,以及人工智能生成的代码和图像的版权,已经提起了诉讼go.nature.com/3y4aery).对于人工智能撰写或协助的手稿,研究和法律界还需要确定谁拥有这些文本的权利。是与人工智能系统一起训练文本的个人,还是生产人工智能的公司,还是使用该系统指导写作的科学家?同样,必须考虑并定义作者身份的定义。

投资真正开放的LLMs

目前,几乎所有最先进的会话AI技术都是少数拥有AI开发资源的大型科技公司的专利产品。OpenAI主要由微软提供资金,其他主要科技公司也在竞相发布类似的工具。鉴于少数科技公司在搜索、文字处理和信息获取领域近乎垄断,这引发了相当大的道德担忧。

研究界最紧迫的问题之一是缺乏透明度。ChatGPT及其前身的基础训练集和llm尚未公开,科技公司可能会隐瞒其会话式ai的内部工作原理。这有悖于科学透明化和开放的趋势,也使得人们很难发现聊天机器人知识的来源或缺口10.例如,我们要求ChatGPT解释几个研究人员的工作。在某些情况下,它详细描述了那些根据h指数(一种衡量其工作影响的方法)被认为影响力较小的科学家。虽然它成功地为一组h指数在20左右的研究人员提供了信息,但它根本没有提供任何关于几位被高度引用和著名科学家的工作信息,甚至是那些h指数超过80的科学家。

为了应对这种不透明,应该优先考虑开源人工智能技术的开发和实施。非商业组织,如大学,通常缺乏所需的计算和财政资源,以跟上LLM发展的快速步伐。因此,我们提倡科学资助组织、大学、非政府组织(ngo)、政府研究机构和联合国等组织——以及科技巨头——对独立的非营利项目进行大量投资。这将有助于开发先进的开源、透明和民主控制的人工智能技术。

批评者可能会说,这样的合作将无法与大型科技公司竞争,但至少有一项主要是学术合作,BigScience已经建立了一个开源语言模型他叫布鲁姆。科技公司可能会从这样的项目中受益,因为它们可以将模型和语料库的相关部分开源,以期创造更多的社区参与,促进创新和可靠性。学术出版商应确保llm能够访问他们的完整档案,以便模型产生准确和全面的结果。

拥抱人工智能的好处

随着学术界工作量和竞争的增加,使用对话式人工智能的压力也在增加。聊天机器人提供了快速完成任务的机会,从努力完成论文的博士生,到需要快速查阅文献以提交拨款申请的研究人员,或者在时间压力下提交分析报告的同行评审员。

如果人工智能聊天机器人可以帮助完成这些任务,研究结果就可以更快地发表,让学者们有时间专注于新的实验设计。这可能会显著加速创新,并可能导致许多学科的突破。我们认为这项技术具有巨大的潜力,前提是目前与偏见、出处和不准确性相关的初期问题得到解决。重要的是检查和提高llm的有效性和可靠性,以便研究人员知道如何在具体的研究实践中明智地使用该技术。

一些人认为,由于聊天机器人只是学习训练集中单词之间的统计关联,而不是理解它们的含义,llm将永远只能回忆和综合人们已经做过的事情,而不能表现出科学过程中人类的方面,比如创造性和概念性思维。我们认为这是一个不成熟的假设,未来的人工智能工具可能能够掌握今天看来遥不可及的科学过程的各个方面。在1991年的一篇开创性论文中,研究人员写道,人和智能技术之间的“智能伙伴关系”可以超越人的智力11.这些智能伙伴关系可以超越人类的能力,并将创新加速到以前无法想象的水平。问题是自动化能走多远,应该走多远?

人工智能技术可能会重新平衡学术技能组合。一方面,人工智能可以优化学术培训——例如,通过提供反馈来提高学生的写作和推理技能。另一方面,它可能会减少对某些技能的需求,比如执行文献搜索的能力。它还可能引入新的技能,比如提示工程(设计和制作用于提示对话AI模型的文本的过程)。某些技能的丧失可能不一定是问题(例如,大多数研究人员不再手工进行统计分析),但作为一个社区,我们需要仔细考虑哪些学术技能和特征对研究人员仍然至关重要。

如果我们只关心性能,随着人工智能技术的进步,人们的贡献可能会变得更加有限和模糊。在未来,人工智能聊天机器人可能会产生假设,开发方法,创建实验12分析和解释数据,并撰写手稿。人工智能聊天机器人也可以评估和审查文章,而不是人类编辑和审稿人。虽然我们离这一场景还有一段距离,但毫无疑问,对话式人工智能技术将越来越多地影响科学出版过程的各个阶段。

因此,包括伦理学家在内的学者必须就使用人工智能在知识生成方面创造潜在加速与在研究过程中丧失人类潜力和自主权之间的权衡进行辩论。人们的创造力和原创性、教育、培训以及与其他人的富有成效的互动可能仍然是开展相关和创新研究的关键。

扩大辩论范围

鉴于llm的颠覆性潜力,研究界需要组织一场紧急而广泛的辩论。首先,我们建议每个研究小组立即开会讨论并自己尝试ChatGPT(如果他们还没有)。教育工作者应该与本科生讨论它的使用和伦理问题。在这个早期阶段,在没有任何外部规则的情况下,负责任的小组领导和教师决定如何诚实、正直和透明地使用它,并就一些参与规则达成一致是很重要的。应该提醒所有研究贡献者,他们将对自己的工作负责,无论这些工作是否是通过ChatGPT生成的。每个作者都应该负责仔细检查他们的文本、结果、数据、代码和参考文献。

第二,我们呼吁立即召开一个关于开发和负责任地使用LLMs进行研究的国际论坛。作为第一步,我们建议召开相关利益相关者峰会,包括不同学科的科学家、科技公司、大型研究资助者、科学院、出版商、非政府组织以及隐私和法律专家。已经组织了类似的峰会,讨论和制定应对人类基因编辑等其他颠覆性技术的指导方针。理想情况下,这种讨论应该为所有相关各方提出快速、具体的建议和政策。我们提供了一个不详尽的问题列表,可以在这个论坛上讨论(见“辩论问题”)。

需要解决的一个关键问题是对研究多样性和不平等的影响。llm可能是一把双刃剑。它们可以帮助创造公平的竞争环境,例如消除语言障碍,使更多人能够写出高质量的文本。但可能的情况是,与大多数创新一样,高收入国家和享有特权的研究人员将很快找到利用llm的方法,从而加速本国的研究并扩大不平等。因此,重要的是,辩论中包括研究中代表性不足的群体和受研究影响的社区的人,以利用人们的生活经验作为重要资源。

与社会的许多其他领域一样,科学现在面临着人工智能技术侵犯其最珍视的价值观、实践和标准所引发的清算。重点应放在抓住机遇和管理风险上。我们相信,科学将找到一种方法,在不失去使科学工作成为最深刻和最令人满意的事业之一的许多重要方面的情况下,从对话式人工智能中受益:好奇心、想象力和发现。

辩论问题

关于对话式人工智能的论坛讨论议题。

•哪些研究任务应该或不应该外包给大型语言模型(LLMs)?

•哪些学术技能和特征对研究人员仍然至关重要?

•人工智能辅助研究过程中的哪些步骤需要人工验证?

•研究诚信和其他政策应如何改变以应对llm ?

•如何将LLMs纳入研究人员的教育和培训?

•研究人员和资助者如何帮助开发独立的开源llm,并确保模型准确地代表科学知识?

•llm应该遵循什么样的质量标准(例如,透明度、准确性、偏差和来源信用),哪些利益相关者对这些标准和llm负责?

•研究人员如何确保llm促进研究的公平性,并避免扩大不平等的风险?

•如何使用LLMs来加强开放科学的原则?

•法学硕士对科学实践有什么法律影响(例如,与专利、版权和所有权相关的法律法规)?