在平板电脑上阅读新闻。用手触摸平板电脑。

研究人员警告说,处理和生成文本的人工智能可能带来的危害。信贷:盖蒂

一个由大约1000名学术志愿者组成的国际团队试图打破大型科技公司对自然语言处理的束缚,并减少其危害。BLOOM语言模型使用了价值700万美元的政府资助计算时间进行训练,在规模上可以与谷歌和OpenAI公司的语言模型相媲美,但将是开源的。BLOOM还将是同规模的第一个多语言模型。

这项名为BigScience的合作于6月17日推出了该模型的早期版本,并希望它最终有助于减少人工智能语言系统的有害输出。识别和生成语言的模型越来越多地被大型科技公司用于从聊天机器人到翻译的应用程序中,本月,谷歌工程师的声音听起来如此可怕声称该公司的人工智能模型有感知能力(谷歌强烈否认人工智能拥有感知能力)。但是这样的模式也会受到严重的实践和伦理缺陷,比如模仿人类的偏见。这些问题很难解决,因为大多数此类模型的内部工作原理对研究人员是封闭的。

BLOOM不仅是探索人工智能的工具,还将对一系列研究用途开放,比如从历史文本中提取信息,以及在生物学中进行分类。拥抱脸(hug Face)联合创始人托马斯•沃尔夫(Thomas Wolf)表示:“我们认为,访问模型是进行负责任的机器学习的一个重要步骤。”拥抱脸拥有一个人工智能模型和数据集的开源平台,并帮助引领了这一倡议。

EleutherAI联合创始人康纳•莱希(Connor Leahy)表示:“这项技术早就应该扩散到开源世界了,这是一种相当有趣的方式。”EleutherAI正在用英语创建自己的开源大型语言模型,但没有参与该项目。

学习的机器

大型语言模型是一种算法,它可以学习数十亿个单词和短语之间的统计关联,以执行生成摘要、翻译、回答问题和文本分类等任务。该模型使用大脑启发的神经网络结构构建,通过剔除单词并将预测与现实进行比较来调整值(称为参数),从而进行训练。BLOOM有1760亿个参数,与GPT-3相当,GPT-3是最著名的此类模型之一,由非营利公司OpenAI创建,并获得微软的授权。

尽管这样的模型有时令人印象深刻——可以生成诗歌或正确回答琐事问题——但它们没有语言的意义,这也导致它们产生胡言乱语。更令人担忧的是,它们还可能助长虐待或自残呼应现有的种族主义或性别歧视的联想它们贯穿于他们学习的人类书写文本中,比如将“伊斯兰”与恐怖主义联系起来。这些模型通常要花费数百万美元来训练,并且有巨大的碳足迹(BigScience最终计划公布其碳排放量)。

虽然大多数自然语言模型都是由小型内部团队构建的,但BLOOM是数百名研究人员的工作成果,其中大部分是学者,包括伦理学家、法律学者和哲学家,但也有一些来自Facebook和谷歌的员工以个人身份工作。为了训练BLOOM, BigScience获准免费使用法国巴黎郊外的Jean Zay国家超级计算机设施。该模型目前正处于三个月训练期的最后几周。

精选的文本

hug Face的机器学习研究员Yacine Jernite说,模型的好坏取决于它们所基于的数据集,所以一个主要任务是选择模型应该从哪些文本中学习。大多数主流模型都直接从网络上获取语言,包括像Reddit这样的网站。相反,BigScience的研究人员从500个来源的3410亿字数据集中挑选了近三分之二的数据。其中包括Semantic Scholar,这是一个基于人工智能的学术出版物搜索引擎,还包括诸如自然新闻文章。这些资源是在一系列研讨会上提出的,包括与社区团体合作,如非洲自然语言处理社区Masakhane、人工智能中的LatinX和东京机器学习。“我们想要确保那些接近数据、他们的国家、他们说的语言的人,能够参与选择模型训练的语言,”杰尼特说。

为了充分利用可用的计算能力,该团队使用多语言网络抓取来填充数据库,过滤质量并对隐私进行了一些编辑。合作还试图减少色情网站通常的过度代表(这可能导致模型中的性别歧视关联),但不排除会删除在通常代表性不足的社区中与坦率的性讨论相关的内容的关键词。

杰尼特承认,BLOOM不会没有偏见。但通过为其提供多元文化和高质量的资源,该团队希望改进现有的模型。至关重要的是,由于模型背后的代码和数据集是开放的,研究人员可以尝试了解有害行为的根源,这可以改善未来的迭代,Wolf说。

罗德岛州普罗维登斯市布朗大学的自然语言学习研究人员Ellie Pavlick说,对该模型的评估也将不同于通常的基准。除了在回答问题的能力上将BLOOM与其他模型进行比较之外,研究人员还想研究更多样化的指标,比如它对某些刻板联想的强烈程度,或者它对特定语言的能力有多偏颇。帕夫利克希望,由于模型已经被训练成多语言,它可能对语言有更深入的理解,这可能有助于它泛化各种任务的能力。

莱希预测,考虑到该模型的英语数据集更小,它的表现可能会比其他大型英语模型稍差一些,但在其他方面的表现应该会明显更好。

免费使用

经过全面训练的BLOOM模型可供研究人员下载,他们可以对其进行实验,也可以对特定应用的新数据进行训练。但是下载并运行它需要大量的硬件容量。因为只有很少的研究团队可以使用,BigScience还将发布更小、更少硬件密集的版本,并创建一个分布式系统,允许实验室在他们的服务器之间共享模型。此外,“拥抱脸”将发布一个网络应用程序这样任何人都可以在不下载的情况下查询BLOOM。类似的应用程序将在本周晚些时候发布。

BLOOM可以在人工智能之外的研究中找到用武之处。位于珀斯的西澳大利亚大学的语言学家弗朗西斯科·德·托尼(Francesco de Toni)联合领导了一个大科学(BigScience)工作组,该工作组正在研究使用模型从大量的历史文本中提取信息,这些文本太大了,无法手工翻阅。例如,模型可以提取文艺复兴时期商人信件中提到的所有名字或商品——这些信息用搜索引擎是不可能找到的。

BLOOM附带了概述其功能和限制的文档。使用它还需要签署一份不断演进的法律许可协议,承诺研究人员不得将该模型用于恶意或不适当的目的,例如生成假新闻。“拥抱脸”的伦理学家、巴黎索邦大学的哲学家、BigScience的伦理和法律工作组联合主席Giada Pistilli说,这次合作将监测该模型如何应用,并在必要时调整许可和文件。“真的很难想象和预测所有的用途,”她说。