Shobita Parthasarathy在室内教室的前景。

Shobita Parthasarathy说LLMs可以帮助推进研究,但它们的使用应该受到监管。

机器学习算法从大量文本中生成流利的语言密歇根大学安阿伯分校新兴技术治理专家Shobita Parthasarathy说,可能会改变科学研究的方式——但不一定是更好的方向。

在一个报告于4月27日发表Parthasarathy和其他研究人员试图预测被称为大型语言模型(LLMs)的新兴人工智能(AI)技术的社会影响。它们可以写出令人惊叹的散文,在不同语言之间进行翻译,回答问题,甚至生成代码。构建它们的公司——包括谷歌、Facebook和微软——的目标是在聊天机器人和搜索引擎中使用它们,并总结文档。(至少有一家公司,加州旧金山的Ought,正在试验LLMs在研究领域的应用;它正在开发一个名为“Elicit”的工具,利用科学文献回答问题。)

llm已经引起了争议。他们有时会在数百万或数十亿个他们训练过的文档中重复错误或有问题的刻板印象。研究人员担心,计算机生成的看似权威的语言流与人类写作难以区分,可能会导致不信任和混乱。

Parthasarathy说,尽管LLMs可以加强理解复杂研究的努力,但它们也可能加深公众对科学的怀疑。她对自然关于报告。

LLMs如何帮助或阻碍科学?

我原本认为llm可以产生民主化和赋权的影响。当涉及到科学时,它们可以让人们快速从信息中获得见解:例如,通过查询疾病症状,或生成技术主题的摘要。

但算法总结可能会出错,包括过时的信息,或者删除细微差别和不确定性,而用户却不会意识到这一点。如果任何人可以使用LLMs使复杂的研究变得容易理解,但他们可能会得到一个与混乱的现实不一致的简化、理想化的科学观点,这可能会威胁到专业精神和权威。这也可能加剧公众对科学的信任问题。人们与这些工具的交互将是非常个性化的,每个用户都会得到自己生成的信息。

LLMs可能利用过时或不可靠的研究不是一个大问题吗?

是的。但这并不意味着人们不会使用llm。它们是诱人的,它们将有一种客观的外表,与它们流畅的输出和令人兴奋的新技术有关。它们有局限性的事实——它们可能建立在部分或历史数据集上——可能不会被普通用户识别出来。

科学家们很容易断言他们很聪明,并意识到llm是有用但不完整的工具——例如,用于开始文献综述。尽管如此,这些工具可能会缩小他们的视野,当LLM出错时可能很难识别。

LLMs在数字人文学科中可能很有用,例如:总结历史文本对某个特定主题的看法。但这些模型的过程是不透明的,它们在输出的同时没有提供来源,因此研究人员需要仔细考虑如何使用它们。我在社会学中看到了一些提议的用法,并对一些学者的轻信程度感到惊讶。

谁会为科学创造这些模型呢?

我的猜测是,大型科学出版商将处于开发科学专用llm(从通用模型改编而来)的最佳位置,能够浏览他们论文的专有全文。他们还可以考虑将同行评审的各个方面自动化,例如查询科学文献,以确定应该咨询谁作为审稿人。llm也可以用来尝试在手稿或专利中挑选出特别具有创新性的结果,甚至可能帮助评估这些结果。

出版商还可以开发LLM软件,帮助非英语国家的研究人员改进他们的文章。

当然,出版商可能会达成授权协议,将他们的文本提供给大公司,纳入他们的语料库。但我认为,他们更有可能试图保持控制权。如果是这样的话,我怀疑对自己的知识垄断越来越感到沮丧的科学家们会对此提出质疑。基于开放获取论文和付费论文摘要的LLMs有一定的潜力。但是,用这种方式获取足够多的最新科学文献可能很难。

LLMs可以用来制作真实但虚假的论文吗?

是的,有些人会使用llm生成假的或近乎假的论文如果这很容易,而且他们认为这将有助于他们的事业。不过,这并不意味着大多数想要成为科学界一员的科学家无法就使用llm的法规和规范达成一致。

如何规范llm的使用?

令我着迷的是,几乎没有任何人工智能工具经过了系统的法规或标准维护机制。llm也是如此:他们的方法是不透明的,并且因开发人员而异。在我们的报告中,我们建议政府机构介入一般性监管。

特别是对于LLMs可能在科学上的应用,透明度至关重要。那些开发llm的人应该解释使用了哪些文本以及所涉及的算法逻辑,并且应该清楚是否使用了计算机软件来生成输出。我们认为美国国家科学基金会也应该支持在广泛的不同领域,对所有公开的科学文章进行培训的LLM的发展。

科学家们应该警惕期刊或资助者依赖LLMs来寻找同行评审员,或者(可以想象)将这一过程扩展到评审的其他方面,如评估手稿或资助。由于llm倾向于过去的数据,他们的建议可能过于保守。