信贷:说明项目的双胞胎

字段的存在理由是编年史,古生物学非常有远见的组织时其数据。维多利亚时代的自然历史博物馆精心组织与手写的卡片收藏生存到今天。在过去的15年里,研究人员共同进入一百万多个化石的记录到一个在线数据库,允许他们在生命的历史跟踪广泛的趋势。现在,古生物学家正在探索使用机器算法将化石数据自动从他们的研究论文。

“我相当确信这就是未来,可以肯定的是,“Shanan Peters说,威斯康辛大学麦迪逊分校的古生物学家(威斯康辛大学麦迪逊)谁是该努力使用软件从成千上万的古生物学论文中提取信息。“建立一个数据库,将过去的事了。这些数据库会动态生成基于你感兴趣的问题,和机器将会做繁重的。”

彼得斯应该知道。他的首席研究员是古生物学数据库(PBDB;paleobiodb.org),详细说明了年龄、位置和标识约120万化石。自1998年开始,研究人员花了大约80000个小时——相当于连续9年-输入和客观数据从最初的实地研究和大约40000篇文章。PBDB产生数以百计的论文,使得古生物学家来解决问题,否则无法回答的,话题从epoch-wide物种灭绝率某些恐龙的消失。

PBDB数据库由专家:大约380个科学家们上传560000个320000年发表意见分类分类名称。但是彼得斯是好奇的想知道这样的一个数据库可以由计算机自动编译。所以在2013年,他开始了与米隆Livny和克里斯再保险合作,然后数据科学家在威斯康辛大学麦迪逊(重新在加州斯坦福大学)。再保险已开发的软件称为DeepDive,矿山书面文本(比如在一篇研究论文)拿出来的事实。文本挖掘或内容矿业-现在是一个普遍的工具在计算机科学和正慢慢开始发现使用从基因组学研究领域的药物发现。文本挖掘古生物学文学向再保险,部分原因是PBDB提供了宗教比较电脑生成的对应的数据库。

解析过去

DeepDive首先解析研究论文的方式将熟悉的人记得他们早期的语法课。“这是把那些文件和转换成文本,“重新说:它试图确定回答这样的问题,“什么是名词,一个动词和你图一个句子吗?“接下来,DeepDive试图预测那些句子中存储的概念(例如,古生物学,化石的名称和它们被发现的地方)和概率分配一个断言。结果是软件”,通常是在很多方面不完善”,是说。“这就是你让领域科学家参与进来。”

彼得斯花了大约一年的时间才将初步的软件,例如,它知道在古生物学论文寻找新物种的名字和他们的地理位置被发现。重新将这个过程描述为一个“来回”彼得斯,要求数据的再保险的科学家小组提出自定义计算解决方案做出可行的请求。“我愿意说答案是人们可以按下一个按钮,然后使用它并运行它,他们不需要我们,“你说,但这是一个球队的目标尚未达成。

证明的原则,彼得斯和重新使用定制软件,他们叫做PaleoDeepDive创建text-mined,缩小版的PBDB约12000篇论文。在某些方面,电脑数据库中黯然失色PBDB,彼得斯说,因为所有的信息,它带有一个概率分配给它,回到原文有关。“机器很清楚的不确定性,当有歧义,或者文档和作者之间的差异,”彼得斯说。PaleoDeepDive还设法提取192000意见从论文分类的分类名称,而PBDB人类馆长发现只有80000。

PaleoDeepDive没有做这种不好组织信息。在2014年12月发表的一篇论文,再保险和彼得斯报告说,从100年随机样本语句从电脑数据库,92%是正确的——他们说类似于PBDB (s . e .彼得斯的准确性《公共科学图书馆•综合》9e113523;2014)。这两个数据库的得分也同样在第二个实验中,当科学家们提出了五个文件,要求分数的准确性事实已经从他们开采PBDB和电脑。

也许最令人印象深刻的是,PaleoDeepDive被用来估计物种多样性和物种灭绝率在过去的5亿年里,想出措施类似于由PBDB决定。

“这有点吓人,机器正变得越来越好。这就是我们要习惯,“说古生物学家乔治梅森大学的马克乌亨在费尔法克斯,弗吉尼亚,PBDB的执行委员会。“我认为这是最好的一个创新,古生物学已经在很长一段时间,”乔纳森·坦南特说,伦敦帝国学院的古生物学家。他每天使用PBDB,认为文本挖掘可以作为一个有用的方法来收集大量数据后手动检查——但不是作为宗教的全面替代数据库PBDB等。“我没有看到机器取代人类。我认为重要的是我们保持人类的方面分析,”他说。

这有点吓人,机器越来越好。

悉尼麦考瑞大学古生物学家约翰•Alroy,澳大利亚,谁共同PBDB但不再隶属于它,不太看好文本挖掘。他说,DeepDive倾向于高估物种存在的期间,物种多样性的主要错误的估计。他认为速度是唯一利用文本挖掘。“但没有需要快速的在这种情况下,因为PBDB已经非常全面,所以几乎任何问题您可能想问已经可以回答。这就解释了为什么它产生了很多出版物,”Alroy说。

文本挖掘的挫折

彼得斯说,他将利用计算机生成的数据库作为补充二氧化硫PBDB但补充道,现在,它是有限数量的文档工作从古生物学家们利用它的添加。他想让PaleoDeepDive宽松的一套更大的文件,但是他没有法律许可。其他文本矿工发现,许多出版商paywalled文章持谨慎态度让研究人员发短信我的论文,即使他们有合法访问文学;出版商倾向于地方限制文本挖掘的结果可以发布和重用,并且经常限制了一个科学家的论文数量可以在任何时候(见下载自然483年,134 - 135;2012)。“我想不出任何一个古生物学家在自己的储备,40000篇论文至少合法获得的,”坦南特说。

彼得斯,Livny花了几个月的代理处理一个科学出版商爱思唯尔,获得成千上万的论文。“这只是事情现在的令人沮丧的现实:高级功能在机器阅读,学习,和现在进展的瓶颈是文档一起在一个地方进行分析,”彼得斯说。他和他的同事们正在研究积累和解析文档给到PaleoDeepDive和地质文献称为GeoDeepDive相关软件工具。再保险,与此同时,正在与其他领域的专家DeepDive应用于药物开发,基因组学和人口贩卖。

参观 工具箱中心 更多的文章

许多古生物学家也想让它更容易找到埋在他们的论文的数据,因此他们呼吁研究论文被描述在未来更加系统。“如果我们开始有出版,一切都是标准的,那么它将会更容易读取和处理这些数据,”坦南特说。乌亨补充说,“我认为这是一种文化的转变在古生物学,人们感兴趣的数据聚合,并获得更多的是水晶清楚你发现化石的地方。”

尽管存在这些挑战,许多古生物学家认为文本挖掘领域的前进。“这是一个巨大的浪费时间的研究生和博士后手动重新输入已经发布信息到一个结构化的数据库,”罗斯Mounce说,伦敦自然历史博物馆的古生物学家谁在使用文本挖掘跟踪8000万年博物馆的标本收集用于研究论文。彼得斯希望努力如PaleoDeepDive允许他和他的同事们更多的时间来生成数据而不是支出他们已经天组织数据。“我看到这些机器阅读系统,解放我们的努力一点点,,改变我们的工作领域和回博物馆。”