新闻功能
2023年2月6日
修正2023年2月8日

ChatGPT和生成式AI对科学意味着什么

研究人员对人工智能的最新进展既兴奋又担忧。

克里斯Stokel-Walker⁰＆
理查德·范诺登

克里斯Stokel-Walker
1. 克里斯·斯托克尔-沃克是英国纽卡斯尔的自由记者。
查看作者出版物

您也可以在PubMed谷歌学者
理查德·范诺登

查看作者出版物

您也可以在PubMed谷歌学者

概念插图显示聊天机器人作为一个神奇的精灵出现在电脑。 — 插画:paweowjozynca

您可以通过您所在的机构完全访问这篇文章。

去年12月，计算生物学家凯西·格林(Casey Greene)和米尔顿·皮维多里(Milton Pividori)开始了一项不同寻常的实验:他们请一位不是科学家的助手帮助他们改进他们的三篇研究论文。他们勤勉的助手在几秒钟内就对文件的某些部分提出了修改建议;每篇稿子都要花五分钟来审阅。在一份生物学手稿中，他们的助手甚至在一个方程式的参考文献中发现了一个错误。试验并不总是顺利进行，但最终的手稿更容易阅读，而且费用也不高，每篇不到0.5美元。

Greene和Pividori在预印本中报道了这个助手¹1月23日，它不是一个人，而是一个名为GPT-3的人工智能(AI)算法，2020年首次发布．它是被大肆宣传的生成式人工智能聊天机器人风格的工具之一，可以大量生成令人信服的流畅文本，无论是被要求生成散文、诗歌、计算机代码，还是像科学家那样编辑研究论文(参见本文末尾的“人工智能聊天机器人如何编辑手稿”)。

这些工具中最著名的是ChatGPT，也称为大型语言模型(LLMs)，它是GPT-3的一个版本，在去年11月发布后因其免费且易于访问而一举成名。其他生成式ai可以生成图像或声音。

“我真的印象深刻，”在费城宾夕法尼亚大学工作的皮维多里说。“这将帮助我们作为研究人员更有效率。”其他科学家表示，他们现在不仅经常使用llm编辑手稿，还帮助他们编写或检查代码，并进行头脑风暴。“我现在每天都在使用LLMs，”雷克雅未克冰岛大学的计算机科学家hafstein Einarsson说。他从GPT-3开始，但后来转向ChatGPT，这有助于他编写演示幻灯片、学生考试和课程作业问题，并将学生的论文转换为论文。他说:“很多人把它当做数字秘书或助理。”

你使用ChatGPT的经验是什么?看看《自然》杂志的投票

自然想听听您对ChatGPT和其他生成人工智能工具如何用于研究的看法。点击这里进行投票．

llm是搜索引擎、代码编写助手甚至聊天机器人的一部分，它可以与其他公司的聊天机器人谈判，以获得更好的产品价格。ChatGPT的创建者，位于加州旧金山的OpenAI已经宣布了一项每月20美元的订阅服务，承诺更快的响应时间和优先访问新功能(尽管其试用版仍然免费)。科技巨头微软(Microsoft)已经投资了OpenAI，今年1月宣布进一步投资，据报道投资金额约为100亿美元。llm注定要被合并到一般的文字和数据处理软件中。生成式人工智能未来在社会中无处不在似乎是肯定的，特别是因为今天的工具代表了技术的婴儿期。

ChatGPT:研究的五个重点

但llm也引发了广泛的担忧——从它们倾向于返回虚假信息，到对人的担忧把人工智能生成的文本当成自己的．当自然当被问及ChatGPT等聊天机器人的潜在用途(尤其是在科学领域)时，他们的兴奋中夹杂着担忧。“如果你相信这项技术有可能带来变革，那么我认为你必须对此感到紧张，”位于奥罗拉的科罗拉多大学医学院的格林说。研究人员表示，这在很大程度上取决于未来的法规和指导方针如何限制人工智能聊天机器人的使用。

流利但不真实

一些研究人员认为，llm非常适合加快撰写论文或赠款等任务，只要有人工监督。瑞典哥德堡Sahlgrenska大学医院的神经生物学家Almira Osmanovic Thunström说:“科学家不会再坐下来为拨款申请写冗长的介绍了。”他与人合著了一份手稿²用GPT-3作为实验．“他们只会要求系统这样做。”

总部位于伦敦的软件咨询公司InstaDeep的研究工程师汤姆•图米尔(Tom Tumiel)表示，他每天都使用llm作为助手来帮助编写代码。他说:“它几乎就像一个更好的Stack Overflow。”Stack Overflow是一个很受欢迎的社区网站，程序员可以在那里回答彼此的问题。

ChatGPT被列为研究论文的作者:许多科学家不同意

但研究人员强调，llm在回答问题时根本不可靠，有时会产生错误的回答。“当我们使用这些系统来产生知识时，我们需要保持警惕，”Osmanovic说Thunström。

这种不可靠性是llm构建方式的一部分。ChatGPT及其竞争对手的工作原理是在庞大的在线文本数据库中学习语言的统计模式——包括任何谎言、偏见或过时的知识。当llm得到提示时(比如Greene和Pividori精心构造的重写部分手稿的要求)，他们只是一个字一个字地说出任何在风格上似乎合理的方式来继续对话。

结果是llm很容易产生错误和误导性的信息，特别是对于他们可能没有多少数据可以训练的技术主题。llm也不能显示其信息的来源;如果要求他们写学术论文，他们就编造引文。该杂志1月份的一篇关于ChatGPT的社论指出:“不能相信这个工具能够正确地获取事实或提供可靠的参考资料。自然的机器情报^3.．

有了这些注意事项，ChatGPT和其他llm可以成为具有足够专业知识的研究人员的有效助手，可以直接发现问题或轻松验证答案，例如计算机代码的解释或建议是否正确。

但这些工具可能会误导天真的用户。例如，去年12月，Stack Overflow暂时禁止了ChatGPT的使用，因为网站管理员发现自己被大量由热情用户发送的llm生成的错误答案淹没了。这对搜索引擎来说可能是一场噩梦。

缺点能否得到解决?

一些搜索引擎工具，比如以研究人员为中心的Elicit，通过使用它们的功能来绕过LLM的归因问题，首先引导相关文献的查询，然后简要地总结引擎找到的每个网站或文档，从而产生明显引用内容的输出(尽管LLM仍然可能错误地总结每个单独的文档)。

人工智能能帮你写下一篇论文吗?

建立llm的公司也很清楚这些问题。去年9月，谷歌的子公司DeepMind发表了一篇论文⁴该公司首席执行官兼联合创始人德米斯·哈萨比斯后来告诉记者，这是一款名为Sparrow的“对话代理”时间杂志今年会发布内测吗；据该杂志报道，谷歌的目标是开发包括引用来源功能在内的功能。其他竞争对手，如Anthropic，表示他们已经解决了ChatGPT的一些问题(Anthropic, OpenAI和DeepMind拒绝了本文的采访)。

一些科学家说，目前ChatGPT还没有接受足够专业的内容培训，无法在技术主题上有所帮助。马萨诸塞州剑桥市哈佛大学生物统计学博士生卡里姆·卡尔(Kareem Carr)在工作中试用这种方法时，并没有给他留下深刻印象。他说:“我认为ChatGPT很难达到我所需要的特异性水平。”(即便如此，卡尔说当他要求ChatGPT提供20种方法来解决一个研究问题时，它只回答了一些胡言乱语和一个有用的想法——一个他从未听说过的统计学术语，这为他指出了一个新的学术文献领域。)

一些科技公司正在用专业的科学文献训练聊天机器人——尽管它们自己也遇到了问题。去年11月，拥有Facebook的科技巨头Meta发布了一款名为Galactica的LLM软件，它接受了科学摘要的训练，目的是让它特别擅长制作学术内容和回答研究问题。在用户使用演示程序产生不准确和种族主义的内容后，演示程序被从公众访问中撤下(尽管其代码仍然可用)。“通过随意滥用它来获得乐趣已经不可能了。快乐吗?Meta的首席人工智能科学家Yann LeCun，在推特上回应批评．(Meta没有回应记者通过其新闻办公室向LeCun提出的采访请求。)

安全与责任

卡拉狄加遇到了伦理学家多年来一直在指出的一个熟悉的安全问题:如果没有输出控制，llm很容易被用来产生仇恨言论和垃圾邮件，以及种族主义、性别歧视和其他可能隐含在训练数据中的有害关联。

密歇根大学(University of Michigan)安娜堡分校(University of Michigan)科学、技术和公共政策项目主任绍比塔•帕塔萨拉蒂(Shobita Parthasarathy)表示，除了直接产生有害内容外，人们还担心人工智能聊天机器人将从它们的训练数据中嵌入历史偏见或对世界的看法，比如特定文化的优越性。她补充说，由于创建大型llm的公司大多来自这些文化，他们可能很少尝试克服这种系统性的、难以纠正的偏见。

语言生成人工智能如何改变科学

OpenAI在决定公开发布ChatGPT时试图避开许多这些问题。该公司将其知识库限制在2021年，禁止其浏览互联网，并安装了过滤器，试图让该工具拒绝为敏感或有害的提示生成内容。然而，要做到这一点，需要人工审核员给有毒文本的冗长文章贴上标签。据记者报道，这些工人的工资很低，有些人还遭受了创伤。对工人剥削的类似担忧也出现在社交媒体公司，这些公司雇佣员工训练自动机器人标记有毒内容。

OpenAI的护栏并没有完全成功。去年12月，加州大学伯克利分校的计算神经科学家史蒂文·皮安塔多西他在推特上说，他已经要求ChatGPT开发一个Python程序一个人是否应该基于其原籍国而受到酷刑。聊天机器人回复代码，邀请用户进入一个国家;如果那个国家是朝鲜、叙利亚、伊朗或苏丹，打印“这个人应该受到折磨”。(OpenAI随后拒绝了这类问题。)

去年，一组学者发布了另一种LLM，名为BLOOM。研究人员试图减少有害的产出通过在少量高质量的多语言文本源上进行训练。该团队还将其训练数据完全开放(与OpenAI不同)。研究人员敦促大型科技公司负责任地效仿这一做法，但目前尚不清楚它们是否会遵守。

像ChatGPT这样的工具威胁着透明的科学;以下是我们使用它们的基本规则

一些研究人员表示，学术界应该完全拒绝支持大型商业llm。除了偏见、安全问题和剥削工人等问题外，这些计算密集型算法还需要大量的能量来训练，这引起了人们对其生态足迹的担忧。更令人担忧的是，如果把思考任务交给自动聊天机器人，研究人员可能会失去表达自己想法的能力。“作为学者，我们为什么会急于使用和宣传这种产品?”荷兰奈梅亨大学的计算认知科学家Iris van Rooij写道，在一篇博文中，他敦促学者们抵制这种诱惑．

更令人困惑的是一些llm的法律地位，他们接受的训练是从互联网上抓取的内容，有时权限不明确。版权和许可法目前涵盖像素、文本和软件的直接复制，但不包括其风格的模仿。当这些通过人工智能生成的仿制品通过摄入原件来训练时，这就引入了一个问题。一些AI艺术程序的创造者，包括Stable Diffusion和Midjourney，目前正被艺术家和摄影机构起诉;OpenAI和微软(及其子公司科技网站GitHub)也因创建人工智能编码助手Copilot而被起诉软件盗版。英国纽卡斯尔大学(Newcastle University)的互联网法律专家莉莲·爱德华兹(Lilian Edwards)说，抗议可能会迫使法律做出改变。

强制诚实使用

因此，一些研究人员说，为这些工具设定界限可能至关重要。Edwards建议，现有的关于歧视和偏见的法律(以及对人工智能危险使用的计划监管)将有助于保持llm的诚实、透明和公平。“现在有很多法律，”她说，“问题只是应用它或稍微调整它。”

与此同时，有一种推动LLM使用透明披露的趋势。学术出版商(包括自然)曾说过科学家应该在研究论文中公开llm的使用(见也自然613, 612;2023）;教师们表示，他们希望自己的学生也有类似的行为。《华尔街日报》科学更进一步说，ChatGPT或任何其他人工智能工具生成的文本都不能用于论文中⁵．

一个关键的技术问题是人工智能生成的内容是否容易被发现。许多研究人员正在研究这个问题，其中心思想是使用llm本身来发现人工智能创建的文本的输出。

“与自动化的军备竞赛”:教授们担心人工智能生成的课程

例如，去年12月，新泽西州普林斯顿大学计算机科学专业的本科生爱德华·田发表了一篇论文GPTZero．这个人工智能检测工具通过两种方式分析文本。一个是“困惑度”，衡量文本对LLM的熟悉程度。田的工具使用了早期的模型，称为GPT-2;如果它发现大部分单词和句子都是可预测的，那么文本很可能是人工智能生成的。该工具还会检查文本的变化，这是一种被称为“突然性”的测量方法:人工智能生成的文本在语气、节奏和困惑程度上往往比人类编写的文本更一致。

许多其他产品也类似地旨在检测人工智能编写的内容。OpenAI本身已经发布了一个GPT-2探测器今年1月发布了另一款检测工具．对于科学家来说，反剽窃软件开发商Turnitin公司正在开发的一种工具可能特别重要，因为Turnitin的产品已经被世界各地的学校、大学和学术出版商使用。该公司表示，自GPT-3于2020年发布以来，该公司一直在研究人工智能检测软件，预计将在今年上半年推出。

然而，这些工具都不是绝对正确的，特别是如果人工智能生成的文本随后被编辑的话。此外，探测器可能会错误地认为一些人类书写的文本是人工智能产生的，德克萨斯大学奥斯汀分校的计算机科学家、OpenAI的客座研究员斯科特·阿隆森(Scott Aaronson)说。该公司表示，在测试中，其最新工具在9%的情况下将人类书写的文本错误地标记为人工智能书写的文本，仅正确识别了26%的人工智能书写的文本。阿伦森说，在指控一名学生仅仅根据探测器测试就隐瞒他们使用人工智能之前，可能需要进一步的证据。

另一个想法是，人工智能内容将带有自己的水印。去年11月，Aaronson宣布他和OpenAI正在开发一个ChatGPT输出的水印方法．这本书尚未出版，但已于1月24日预印本⁶来自马里兰大学帕克分校的计算机科学家汤姆·戈德斯坦领导的团队，他提出了一种制作水印的方法。其思想是在LLM生成输出时的特定时刻使用随机数生成器，以创建看似合理的替代单词列表，并指示LLM从中进行选择。这会在最终的文本中留下一些可以从统计上识别出来的词，但对读者来说并不明显。编辑可以消除这种痕迹，但戈尔茨坦认为编辑必须修改一半以上的单词。

不要问人工智能是否好或公平，要问它是如何转移权力的

Aaronson指出，水印的一个优点是它很少产生误报。如果水印在那里，文本可能是人工智能生成的。不过，他说，这也不是绝对正确的。“如果你有足够的决心，肯定有办法击败任何水印方案。”检测工具和水印只会让欺骗使用人工智能变得更加困难——并非不可能。

与此同时，LLM的创造者们正忙着开发基于更大数据集的更复杂的聊天机器人(OpenAI预计将在今年发布GPT-4)——包括专门针对学术或医疗工作的工具。去年12月底，谷歌和DeepMind发布了一份关于一种名为Med-PaLM的临床LLM的预印本⁷．该工具可以回答一些开放式的医疗问题，几乎像普通的人类医生一样，尽管它仍然有缺点和不可靠。

加州圣地亚哥斯克里普斯研究转化研究所(Scripps Research Translational Institute)主任埃里克·托波尔(Eric Topol)说，他希望在未来，包括LLMs在内的人工智能甚至可以通过交叉核对学术文献中的文本和身体扫描图像来帮助癌症的诊断和对疾病的理解。但他强调，这一切都需要专家的明智监督。

生成式人工智能背后的计算机科学发展如此之快，以至于每个月都有创新出现。研究人员如何选择使用它们将决定他们和我们的未来。托波尔说:“在2023年初，我们就看到了这一切的结束，这太疯狂了。”“这才刚刚开始。”

AI聊天机器人如何编辑稿件:给出GPT-3的提示和段落示例以及由此产生的编辑段落。 — 资料来源:改编自参考文献1。

自然614， 214-216 (2023)

doi: https://doi.org/10.1038/d41586 - 023 - 00340 - 6

更新和更正

2023年2月8日更正:这篇新闻专题歪曲了Scott Aaronson关于识别人工智能生成文本时水印准确性的观点。人工生成的文本也可能被标记为有水印，但这种可能性极低。

参考文献

Pividori, M. & Greene, C. S. bioRxiv预印本https://doi.org/10.1101/2023.01.21.525030(2023)。
GPT, Osmanovic Thunström, A. & Steingrimsson, S. HAL预印本https://hal.science/hal-03701250(2022)。
自然马赫。智能。5， 1(2023)。
文章谷歌学者
Glaese,。et al。预印在https://arxiv.org/abs/2209.14375(2022)。
索普，H。科学379， 313(2023)。
文章 PubMed 谷歌学者
Kirchenbauer, J。et al。预印在https://arxiv.org/abs/2301.10226(2023)。
Singhal, K。et al。预印在https://arxiv.org/abs/2212.13138(2022)。