背景与总结

热电材料可以将热转化为电,反之亦然。随着全球能源需求的增加以及目前发电方法对环境的不利影响,热电材料本身就成为迈向更可持续未来的一个机会。大多数电气和机械过程会产生大量的废热,这些废热可以通过热电装置的应用来收集。这种设备重量轻,可扩展,固态,并具有大而可靠的工作寿命1

热电材料将热转化为电的有效性,反之亦然,由热电性能系数决定,ZT型2ZT型由Eq定义。1,在那里年代为塞贝克系数,σ是导电性,κ导热系数,和T是材料的温度。

$$ZT=\frac{{S}^{2}\sigma}{\kappa}T$$
(1)

为了获得高热电性能,材料应结合高塞贝克系数和/或导电性,以及低热导率。这些数量之间的相互依赖使这项工作具有挑战性3.此外,人们还采用掺杂和纳米结构等方法来提高材料的热电性能。这一领域吸引了大量的兴趣,近年来发表的文章越来越多。

传统上,新材料的发现是由研究人员的直觉和试错过程指导的。然而,数据科学领域的最新进展和现成机器学习算法的发展为简化材料发现提供了潜力4.顾名思义,要使数据驱动的方法有效,就需要一个包含相关信息的大型数据集。

在热电学领域,高图瓦.首先对热电材料进行了基于人工努力的数据驱动审查,对上述五个热电量进行了分类,适用于不同的温度和不同的热电材料家族5.从100篇文章中提取的信息形成了一个具有1,100个数据记录的数据库,基本上是热电材料领域的先驱数据驱动分析。在随后的研究中6,这些数据结合从头开始计算的电子结构性质从Hautier7和Pymatgen8,以训练一个机器学习系统,该系统可作为网上推荐引擎(http://thermoelectrics.citrination.com).25000种计算生成的化合物被筛选出来,一种新的化合物,“远离”熟悉的热电化合物的化学空间,被认为是一种有前途的,但尚未研究的热电材料。

从头开始密度泛函理论(DFT)计算是热电应用的典型数据来源9,可以计算跨越数千种材料的不同热电性质的值。Gorai.开发了热电设计实验室10这是一个在线工具,它使用定制的预测器,根据计算出的热电性质对数千种化合物进行排名11,这已被证明可以预测Z,在高峰期ZT型,在大约两倍的范围内。根据该网站,该数据库包含2701种材料的计算输运特性和热电性能排名.最近,Tshitoyan12训练材料科学摘要的词嵌入,以发现可能属于热电材料领域,但尚未作为可行候选研究的化合物本身

在这类研究中,作者经常评论大型可靠的热电材料数据库可以提供的潜力。而从头开始计算生成的数据库有能力产生大量的数据,它们需要应用近似值,这挑战了它们的可靠性。相比之下,手动管理的数据库可以非常精确,但需要该领域的专家投入大量的时间来构建。使用文本挖掘从科学文献中自动提取数据可以将实验数据的准确性与计算手段提供的高通量能力相结合。本文展示了基于Cole及其同事开发的软件的化学感知自然语言处理工具包ChemDataExtractor 2.01314,通过自动从大量相关研究论文中提取数据,生成热电材料数据库。

据我们所知,这是科学文献中第一个自动生成的热电材料数据库。对ChemDataExtractor进行了调整,与热电材料领域相关,也可能扩展到其他材料性能。我们数据库自动生成的工作流程包括文章检索、预处理和数据提取、数据清洗、后处理和评估。由此产生的数据库展示了通过材料信息学促进热电材料发现的潜力,以及作为用户查找表的功能,以通知科学家某些材料及其性质。

方法

检索条

数据库生成工作流程的第一步是使用网络抓取,以便从科学出版商那里提取在线发现的大量文章。具体来说,使用关键词“热电”搜索,从Elsevier检索了40488篇文章,从皇家化学学会(RSC)检索了4983篇文章,从施普林格检索了15392篇文章。结果总共有60,843篇文章从中提取了热电信息。这些集合中分别有1904、603和2440篇开放获取的文章,分别来自Elsevier、RSC和施普林格。ChemDataExtractor提供了用于网络抓取的python代码,利用' urlib3 '和' requests ' HTTP客户端python库,用于将文章下载到本地机器上。使用这些刮刀器,Elsevier的文章以可扩展标记语言(XML)的形式获得,RSC的文章以超文本标记语言(HTML)的形式获得。施普林格文章以简单的文本形式下载,使用单独的刮板。爱思唯尔和施普林格以应用程序编程接口(API)的形式提供具象化状态传输(REST)服务,支持在线请求;需要一个有效的API密钥,该密钥由发布者分发。可以指定不同的搜索条件,例如查询词、出版日期等,从而可以检索所需的数字对象标识符(DOIs)和文章。 The RSC had not yet established an API during the timeframe of this work; therefore, documents from the RSC were scraped using the Mozilla Firefox Gecko WebDriver, which provides the API to communicate with the browser and download the articles.

文档处理

ChemDataExtractor接收下载的文档,并使用定制的阅读器处理其中的信息。XML和HTML文档具有层次结构,带有语义标记标记,例如标记,其中包含关于DOI、作者和文档标题的信息。ChemDataExtractor使用这些标记来识别每个文档的重要特征,如标题、标题、摘要和图表。然后对文档本身的文本进行整理,以创建连续且统一的文本元素流。流存储在ChemDataExtractor工具包的Document对象中,并遵循预定义的顺序,允许以相同的方式处理每个文档,而不考虑原始设置,从而形成进一步处理的基础。从施普林格下载的文本文件被“按原样”处理,因为它们缺乏语义标记。

自然语言处理

ChemDataExtractor采用最先进的自然语言处理(NLP)技术,这些技术已经为化学和物理领域量身定制,例如定制的句子分割、标记化、词性(POS)标记和化学命名实体识别(CNER),以促进数据提取。ChemDataExtractor的NLP代码主要保持不变,但进行了有针对性的调整,以改进热电材料领域的CNER。例如,由于许多热电化合物包含掺杂剂,CNER规则被扩展到以其他几种形式表达掺杂的化学实体,无论是定性还是定量。表格1介绍了不同的掺杂形式和化学实体提及(CEMs)的例子,我们的ChemDataExtractor的改编可以识别和提取。此外,还添加了与热电领域相关的前缀和后缀,如“纯”、“未掺杂”、“单晶/多晶”、“超晶格”、“p/n型”等。这些词缀可以捕获有关材料的结构、维度、结晶度、半导体类型或掺杂的信息。ChemDataExtractor的适应热电中心版本可在https://github.com/odysie/thermoelectricsdb/tree/main/chemdataextractor_thermoelectrics

表1对热电材料领域的默认ChemDataExtractor工具包进行适配后,可以提取的cem的不同类型和示例。

信息提取

ChemDataExtractor 2.0提供了三种不同的从文本中提取信息的方法,它们可以独立发挥作用,也可以相互补充。第一种方法涉及使用正则表达式(regex)模式和POS标记来通过基于规则的方法提取信息的显式构造语句。第二种方法是自动解析,它依赖于在ChemDataExtractor中构建的维度、单位和模型对象来定义提取的属性,类似于使用SI基本单位来定义属性,具有具有数值和可能的单位的可测量量。ChemDataExtractor还包括模板解析器,模板解析器预先打包了用于信息提取的手工规则,可以现货使用,也可以根据目标领域作为开发新规则的基础。第三种方法采用了Snowball算法的改进版本1516它可以以半监督的方式在文档语料库上进行训练,然后用于在文档的句子级别上概率提取信息。方法一和方法三已经被用于单独生成材料数据库17,或协同地16.为了考察自动解析的优点和缺点,以及衡量其适用性和潜力,本文对自动解析进行了调整和应用。

ChemDataExtractor的内置框架用于定义必要的模型、单位和尺寸,用于提取热电性能图、电导率和电阻率、热导率(总、电子和晶格贡献)、塞贝克系数以及功率因数。功率因数是用来描述热电材料的一个复合量,通常记为PF,等于年代2σ.这五个模型中的每一个都嵌套了一个温度模型,这意味着每次提取都需要检索相关的温度,因为这些属性依赖于温度。温度模型继承自温度量对象,该对象可通过ChemDataExtractor 2.0的默认安装获得。温度模型提取数值和不同的可能单位,如开尔文、摄氏度或华氏度。然而,在科学文章中,热电量的值有时后面跟着一串单词,例如在室温下,表示读数接近295开尔文。因此,通过利用ChemDataExtractor的StringModel功能,在模型中引入了一个新字段。该字段允许提取特定的文本模式,以捕获室温提及,提取后将其转换为数值。

材料科学文章包括有关材料的加工、结构、特性和性能的复杂信息。关于热电材料的文章是复杂的,因为经常使用掺杂、性能对温度读数的嵌套,以及在特定温度下涉及的合成过程,这些都会影响测量性能的值,可能会导致许多假阳性提取。因此,通过提供的AutoSentenceParser (ASP),使用ChemDataExtractor 2.0的自动句子提取功能,文本提取的范围被限制为每次一个句子。如前所述,ASP不依赖于定制的规则,而是采用已定义的属性模型,并使用所包含的字段,使用先到先得的方法从句子中提取单个记录。文本中找到的任何字段都被提取并链接在一起,将CEM、属性说明符、单位、值等连接到单个数据记录中。虽然字段之间的链接遵循先到先得的方法,但字段本身通过机器学习和手工制作的规则混合施加了限制,这些规则试图提取正确的信息。当然,不同的规则适用于不同的领域,例如cem、数值、单位和其他描述符,这些描述符已经在ChemDataExtractor中进行了适应,用于热电材料领域。这限制了ASP的提取能力,每句话只能提取一条记录,有时也会成为包含不止一组材料或属性的特定句子结构的受害者。由于热电系数的无量纲性质,这个问题更加严重,ZT型,它不像在这项工作中提取的其他性质那样,通过对单位存在的期望来限制其数值提取。此外,由于热电材料领域的研究人员通常以提高热电性能为主要目标,ZT型,其数据提取经常使用比较句式结构,将新记录与类似类型和家族的材料进行比较,或与高性能标准进行比较。这种句子的普遍存在给ChemDataExtractor 2.0的默认ASP功能带来了额外的障碍,这可能在其他不太频繁使用直接比较的领域不那么普遍。

为了改善这些问题,在信息提取之前采用了句内“分割和拼接”步骤,以简化句子,从而减少假阳性记录的数量,同时增加真阳性记录的数量。具体来说,如果在一个句子中暂时确定了一个嵌套模型,并且该句子包含指示多个记录比较的触发词,那么该句子将根据触发词进行拆分。然后,句子的每个部分都与临时记录中标识的说明符和温度相结合,前提是拆分中不存在这些信息。下面是图中所示的例子。1,说明词或温度只会在句子的结果部分中转移,如果在其中找不到该信息。在第一个示例中,温度读数和说明符分别转移到句子的第一部分和第二部分,如方括号所示。在第二个例子中,只有说明符被转移到句子的第二部分,这部分没有说明符,而关于温度的信息根本没有被转移,因为它可以在句子的两个分割部分中找到。

图1
图1

分割和拼接步骤的示例说明,其中粗体字母表示每个句子的触发词,方括号表示从分割句子的不同部分传输的信息。

这个过程有时会在分离的句子中引入不需要的人工制品,导致不正确的数据提取。然而,大多数的改变是有益的,导致假阳性的总体减少和真阳性记录的增加。

此外,ASP中还包含了一个范围参数,用于在数据提取过程中设置可接受值的边界条件。这是在提取ZT型,使用已知热电材料记录的极端范围。在撰写本文时,单晶SnSe保持了世界纪录ZT型在2.618,这些都是经过充分研究的材料。因此,对于可行的数据提取,范围设置为0到3ZT型.添加了另一个预解析步骤,该步骤掩盖了与制造过程有关的任何温度(例如特定温度下的烧结),以避免在性能测量期间材料的温度与材料制造过程的温度之间提取假阳性数据。最后,还添加了更多的字段,这些字段提取了有关制造材料所涉及的加工和处理条件的信息,如退火、烧结、铣削等,在可能的压力或前面描述的隐藏温度下。由单一元素组成的化学名称被排除在可行的数据提取之外,因为热电材料通常是至少两种化学元素的化合物。单元素掺杂自然被接受,并增加了一个附加字段,以提取可能包含在句子中但不属于化学实体的掺杂信息;如。”BiCuSeO在Cl掺杂后ZT为1.3。”.“数据记录”部分描述了在提取数据记录期间可以包含的字段,以及它们所包含的信息的简要说明。

根据功能属性模型的定义以及上面描述的预处理步骤,ChemDataExtractor允许从选定的文章语料库中自动提取信息。由于数据源包含约60,000篇文章,并且ChemDataExtractor的适应处理管道施加了适度的计算需求,因此使用超级计算机进行数据提取过程。因此,超级计算机地中海,阿贡领导计算设施(ALCF)19使用的是美国伊利诺斯州。要运行的脚本以作业的形式提交,向超级计算机请求一定数量的节点,系统对作业进行排队,并分配相应的计算资源。脚本使用python编写,并使用mpi4py模块20.,它遵循并行编程的消息传递接口(MPI)协议。每个模型使用10 - 20个节点为10000篇文章的子集编写不同的脚本,这些脚本运行大约10个小时。上述五种热电性质是数据提取的主要目标;尽管在数据提取过程中使用了六种特性的模型,但另一种是电阻率,然后利用它们的逆关系将其转换为电导率。

数据清洗、规范化和推断

在数据提取过程之后,通过过滤包含过多条目的数据记录(例如没有任何字母字符的化合物或名称长度超过200个字符),编写代码来清理生成的数据库。执行更具体的清洗步骤,例如过滤出具有常见问题形式的化学名称,例如数字百分比后面跟着一个化学实体,这很可能是指掺杂,而不是化合物本身。这些步骤可以在上传到上面的代码中找到注释https://github.com/odysie/thermoelectricsdb.每个数据记录都标记了源文章的出版商(Elsevier、RSC或施普林格)、文章是否开放获取以及它的出版年份。电阻率值归一化为电导率值,遵循它们的反比关系。此外,将室温提及转化为数值,并将所有提取的量的值归一化为每个量的单个单位。如果同时提取了温度值和室温提及,则优先考虑室温提及。这是因为室温更可能指的是测量过程中材料的温度,而数值温度值可能指的是其他情况,如化学或机械过程。热导率被区分为电子、声子和总贡献,电导率被分类为正常或离子,根据正则表达式规则,在提取的说明符上运行。此外,提取的属性之间的相互依赖允许新数据记录的推断,这将在技术验证部分进行描述。

数据记录

完整的数据库可供公开下载Figshare21,支持CSV、JSON和MongoDB三种标准格式。本节描述在我们的数据库中找到的记录。这个领域说明符包含要提取的每个属性所需的文本信息。这说明符字段还可能包含指示属性值位于其极端端点或平均值的信息,因为如果发现' peak ', ' max/min ', ' highest/lowest ', ' mean/average '等可选前缀位于说明符之前,也会提取它们。关于化合物的半导体类型的信息也可以作为说明符的一部分找到。这个领域模型区分五个提取的性质之一:热电性能图,热导率,塞贝克系数,电导率,或功率因数。在热导率的情况下,场Model_Type进一步区分了“晶格”、“电子”和“总”热导率的可能性,而在电导率的情况下,它区分了“电子”和“离子”电导率。这个领域的名字所提取的化学实体的名称。的标签字段指的是可能在化合物中找到的变量成分标签的值。价值而且单位是否根据每个模型分别对相关属性的值和单位进行归一化以支持一致性。的单位的无量纲情况下,未填充ZT型.每个数据记录都有一个相关的Temperature_Value而且Temperature_Units场,归一化到开尔文。通常,价值而且Temperature_Value字段是一个具有单个数值的列表。当提取表示一个范围时,有两个分量,第一个和第二个分别表示范围的最小值和最大值。也有这些值的平均值,在Temperature_Average而且Value_Average列。这个领域编辑包含描述材料的成分或过程,如掺杂,但不作为化学名称的一部分提取。这个领域压力用一个列表填充,其中第一个分量是提取的数值,第二个分量是研究样本时的压力单位。这个领域过程包含有关数据记录的提取过程的信息,而字段Direction_of_Measurement提供有关属性测量的轴向或平面方向的信息。这个领域决议试图将cem的简单组合分解为“宿主”和“掺杂”成分,同时区分不同的组合方法,如“掺杂”、“添加”、“混合”等,并确定所涉及的量(如果指定的话)。该字段包含一个包含此信息的python字典,其中组件的解析在数据提取后执行。例如,复合名称' 10 at。%掺杂TiO2'将被解析为{' host ': 'TiO2', ' dopant ': '', ' amount ': ' 10 at。% ', ' method ': ' doping '}。这个过程还没有对其有效性进行评估,主要是作为数据科学应用的推荐方向。最后是字段DOI,标题,访问类型,出版商,期刊,作者,Publication_Year包含从数据记录中提取的文章的相关信息。

技术验证

采用精密度和查全率两个指标评价数据库的质量。精度是正确的数据提取相对于提取总数的百分比,召回率是正确的数据提取相对于文章中出现的真实记录数量的百分比,如等式所述。2而且3.

$ $ =精度\压裂{TP} {TP + FP} $ $
(2)
$ $ =回忆\压裂{TP} {TP + FN} $ $
(3)

其中TP、FP和FN分别为真阳性、假阳性和假阴性记录的数量。一个记录被认为是一个TP,如果名称,编辑,模型,值,单位,和关联Temperature_Value而且Temperature_Units这些字段被发现与提取它们的文件的句子相匹配;如果这些数据是不正确的,则提供FP。FN是一篇文章中存在的记录,我们的系统没有对它进行数据提取,即A错过了记录。

为了评估句子的准确性,在推理程序之前,从数据库中随机抽取了五种属性各200条记录(见下页),共1000条记录。数据记录尽可能地从开放获取的文章中取样,并在必要时从订阅类型的文章中补充记录。200条记录的数量是根据测试选择的,这些测试表明,这么多记录足以证明在精度上的收敛。如图所示。2),在大约一半的记录被用于评估后,精度分数趋于平缓,这表明该指标可以代表整个数据库。为了评估召回率,从数据库中随机抽取了至少3种不同模型的60篇文章的数据记录。与精度相似,在这个采样范围内观察到收敛,如图所示。2 b).在这些文章中,有53篇是开放获取的,并辅以订阅类型的文章,以便公平地代表每个出版商。当然,这些图的形状取决于文章被选择(或呈现)进行评价的顺序,但打乱顺序被发现会产生类似的收敛趋势。

图2
图2

累积平均(一个)精度和(b)对五种提取的热电性质进行回忆,显示值收敛,作为连续评估的数据记录或文章的函数。

表格2显示每个属性的精度、召回率和记录数量的结果。所有属性的加权平均句子精度为82.25%。这个权重是根据每个模型的数据记录数量与所有模型的数据记录总数之间的比例来加权的,以便更好地表明整个数据库的精度。单个属性的精度范围为78.5%-85%。该范围的适度变化(6.5%)表明数据提取具有良好的可靠性和一致性。5种车型的加权平均召回率为39.23%。召回率低的部分原因是由于数据提取的范围有限,处于句子级别,而一些记录跨越了一个以上的句子(通常是两个,偶尔是五个或更多)。高回忆之间的差异ZT型其余4个有维的模型都归结于单位提取。在某些情况下,单位以非常规的(甚至严格地说,不正确的)的方式,ChemDataExtractor没有考虑到这一点,这导致了具有维度的模型的假阴性率更高。对于功率因数来说尤其如此,它涉及到一个相当复杂的数据提取,因为它在其单位(Wm−1K−2),有时甚至在它的说明符(年代2σ\(\sigma {a}^{2},\frac{{S}^{2}}{\rho},\)等等)。作者认为最重要的指标是整个数据库的估计精度,发现其高达82.25%。这种优先级反映了这样一个原则,即拥有一个包含高比例正确数据记录的较小数据库比拥有一个记录大量错误的较大数据库要好。

表2每个模型的精度、召回率和记录数量,与温度嵌套。

通常,通过牺牲召回率来实现高精度。在材料科学文章中发现了大量的化学和数值信息,再加上使用ChemDataExtractor的自动解析功能在正确相关的温度下提取每个属性的愿望,导致了在句子级别提取数据的限制。尽管如此,ChemDataExtractor中为服务于该材料领域而进行的编码调整允许创建相对相当大且精确的热电特性数据库;同时,所开发的方法也可推广到其他材料领域的性质模型,特别是句内分裂-拼接过程、取值范围限制参数和掺杂化合物的扩展CNER。

该数据库的精度可与材料科学中的其他自然语言处理方法相媲美。Court & Cole在39,822个数据记录中提取了居里和Néel的温度,并使用基于规则的方法和引入改进的雪球算法实现了73%的精度16.Huang & Cole使用基于规则的方法,对包含292,313个数据记录的电池材料数据库实现了80%的精度17.我们的方法同样是自动的,并且期望适用于任何其他独立的属性,有或没有维度,它们嵌套或不嵌套温度。类似地,它可以扩展到嵌套任何其他属性的任何属性。电池材料数据库17从229,061篇文章中提取292,313条独特的记录,提供类似人类的精度,实现比我们更高的记录数量,精度相似。这既证明了高回忆的力量(80%相比于我们的39%),也证明了能够从大量现有文献中找到许多文章。相比之下,当施普林格为“热电”一词返回28,396个搜索结果时,它为“电池”一词返回了269,351个结果,这大约高出一个数量级。最后,需要注意的是,Huang & Cole的数据库和我们的数据库在数据提取方法上是不同的(基于规则的和修改后的自动提取),虽然提取的属性数量是相同的,但我们所有的记录都嵌套了一个额外的属性:温度。与我们的数据库相比,记录更少或精度更低的数据库已经被证明足以满足数据驱动的材料发现22.然而,在本研究中引入的温度依赖性的附加维度可能证明先天的数据提取需要更高数量的记录来执行这样的任务,从而要求在数据提取阶段提高召回率或使用更大的语料库从中提取相关数据。

聚合数据

如前所述,我们提取的热电材料数据库包含22,805条记录。其中包含10641个唯一提取的化学名称,尽管这些名称可能指的是同一种化合物,但表达方式不同(例如5%Cl-掺杂氧化锌而且0.95O0.9Cl05),导致高估真实价值。为了聚合提取的信息,根据匹配的化合物(以及它们的工具,如标签、压力等)和提取每条记录的doi收集数据库的归一化模型值。生成的数据库记录具有唯一的化合物、温度和DOI条目,在该温度下具有五种可能属性中的任意数量。对于所描述的同一组字段,如果有多个值,则取该值的平均值。这个过程将结果数据库的数据记录数量减少到18,509条,其中包含19,311个不同的属性值。在该数据库中,对Seebeck系数进行了平方处理,只保留了总热导率分量,不区分离子电导率。这种表示方式便于现有记录之间的比较,或新记录的推断,因为存在于Eq中描述的热电性质之间的内在关系。1

因此,只要可能,就使用这些方程对提取的记录进行比较PF=年代2σ而且ZT型=PF / Tκ.当其中一个方程中涉及的所有项都包含在数据记录中时,可以通过将目标值作为手头方程的主题并替换因变量来比较目标值。其余的值用于计算目标值,并将结果与提取的目标进行对比,取绝对百分比差值。然后重复这个过程,以一个不同的量作为要计算的量。方程1它本身从推理过程中被省略了,因为错误的概率很高,符合条件的数据记录数量很少,这源于每个记录必须存在5个不同的提取。在对称性的基础上,只有两种方式来进行这些比较,这可以被视为比较方程的左边,LHS,和右边,RHS,如Eq中所示。4

$ $ {\ rm{绝对}}\;rm \ % \;{\{区别}}= \压裂{| {{\ rm {lh}}} _ {{\ rm{计算}}}- {{\ rm {RHS}}} _ {{\ rm{提取 }}}| }{{{\ rm {RHS}}} _ {{\ rm{计算}}}}$ $
(4)

四次比较的结果是绝对差异的中位数较低。虽然这并不意味着我们的数据提取有很好的正确性,但它可以证明每篇文章的数据提取之间是一致的。数字3.显示这些绝对差异的直方图,为美观起见,在200%后截断。无论如何,显示截断前的真实中值。正如预期的那样,来自第二对比较的比较显示绝对差异的中位数更高,因为涉及四个提取而不是三个提取增加了数量之间不一致的概率。一个比较字段已添加到聚合数据库中,该数据库保存了一个python字典,其中包含每个数据记录计算的百分比差异,其中任何差异都是合适的。

图3
图3

当选择不同的数量作为方程的主题时,绝对百分比差异(高达200%)的直方图:(一个PF=年代2σ, (b年代2=PF/σ, (cZT型·κ=PF·T,及(dPF·T=ZT型·κ.直方图标题中带括号的数字是指比较中涉及的汇总记录的数量。

聚合数据库还允许根据这些热电方程和Eq推断新的值。1,只要在数据记录中找到足够数量的属性值。推理过程产生了额外的1,204条唯一记录。数字4演示有多少数据记录与给定数量的模型相关联,以及它们在数据库中的流行程度,在推理前后以比率显示。

图4
图4

饼状图(一个)及(b)分别比较每个模型在推理前后总记录的百分比。柱状图(c)给出了每个模型在推理之前和之后的确切记录数。

正如预期的那样,绝大多数提取的记录都是热电数字,因为这是热电材料领域最受欢迎的数量,同时由于其无量纲的性质,它也提供了更多的提取。因此,具有最低比例的新推断记录的性质是热电系数的优点。根据每个推断所涉及的属性,可以使用这些成分的评估精度来估计推断属性的精度,如上传到的inference_estimated_precision .csv文件所示https://github.com/odysie/thermoelectricsdb/tree/main/supplementary_material

根据设计,聚合数据库中的所有数据记录至少具有一个属性;但是,在推断之前,只有1.34%的人包含三个或三个以上的属性。推理步骤将这一百分比提高到6.21%。自然,只有一个属性的数据记录的数量不会改变。具有2个属性的数据记录数量减少,而具有3个属性的记录数量增加,因为在可能的情况下执行了推断。恰好具有4个属性的数据记录的数量消失了,因为所有这些记录都转换为具有全部5个属性的记录。聚合数据库可从Figshare21.数据库的字段类似于聚合之前在数据库中找到的字段,如Data Records部分所述,主要区别在于每个数据记录的每个可能的属性值有五个不同的字段,而不是每个记录有一个属性。这些字段是ZT PF S^2 S, k分别为热电性能系数、功率因数、塞贝克系数(平方)、电导率和热导率。还有两个附加字段,Original_Counts而且New_Counts它们分别告知在推理之前和之后,每个数据记录中包含了多少这五种热电性质。最后,还有一个附加条件推理字段,该字段显示哪些属性(如果有的话)参与了推断过程。

数字5给出了五个提取属性的直方图。一些工件出现在发行版中。特别是对于的情况ZT型,在整数十进制值附近可以看到尖峰,这被认为反映了研究人员倾向于将数字四舍五入以满足整位数,以及引用整数作为已经或应该满足的基准。的显著峰值ZT型= 1,(图5),可以归因于使用统一作为许多热电材料的基准值。我们还可以在室温附近的温度分布中识别出一个显著的峰值,(图。5 f),这可以归因于对室温工作热电器件的高度重视,以及800 K附近的二级尖刺家族。对每个模式的温度分布进行单独研究表明,这种峰族主要源于ZT型模型,这可能表明许多热电器件在800k左右具有最高值,因此在这些温度下更常被引用;然而,需要进一步的分析,这超出了这篇数据描述符论文的范围。正如在ZT型分布(图。5),是表现最佳的材料ZT型在我们的数据库中找到的是p型BaMgSi,最近被描述为实现一个ZT型在最佳掺杂浓度下,在800 K时,等于2.9623.如图所示,在我们的数据库中找到的其他高性能热电材料都是n型BiSbSe3.ZT型= 2.9在750 K)24而且Br-掺杂SnSe晶体(ZT型在773 K时= 2.8)25.重要的是要注意SnSe自从发表了在SnSe单晶中观察到的前所未有的高热电系数(在923 K时为2.6)以来,变体主导了对高性能热电材料的讨论。18在2014年。事实上,这反映在我们的数据库中,超过76%的条目带有ZT型高于2.5涉及SnSe化合物。与数据库的其他部分相比,具有超低热导率的条目偏向于假阳性,这是因为材料的功率因数有时引用的单位是热导率的标准单位。就量级而言,功率因数通常比热导率小得多,这在检查低热导率的末端范围时产生了偏差。尽管如此,在我们的数据库中发现的一些具有有效超低导热系数的数据条目是:CuGaTe2(1.35 Ã - 10−3Wm−1K−2950 K)26K2“透明国际”6O13胡须(0.017Wm−1K−21033k)27,有限公司0.70.3某人3.(0.03Wm−1K−2700k)28

图5
图5

五个属性的数据分布:(一个ZT型, (b)导热系数,(c)塞贝克系数(d)功率因数,(e)电导率,及(f温度(适用于所有模型)。

数字6显示了平均值ZT型从1997年到2020年,所有提取的材料相对于其出版年份的变化,(图;6),以及每年的记录数目(图;6 b).显然,在……中可以看出积极的趋势ZT型,这意味着热电材料界的努力趋于成功的进展。1997年和2005年的异常值可以忽略不计,因为在2010年之前每年的记录很少,所以在大标准差占主导地位的情况下,平均过程很差。外推线性拟合图中的数据。6(a)预测到2052年平均文献中讨论的热电材料的值为1.5。像我们这样的数据库可以促进数据科学方法,旨在通过简化材料发现来加速这一趋势,走向更可持续的未来。

图6
图6

一个)平均ZT型相对于出版年份,根据颜色条,标记颜色表示每年的数据记录数量。(b)每年发表的数据记录数目。

使用笔记

这些数据库以CSV、JSON和MongoDB格式提供;包含完整版本和带有推理的聚合版本,并且可以从Figshare21.完整版本是主数据库,在数据记录一节中讨论。这些数据库可以通过数据查询语言进行查询,如SQL或MongoDB查询语言;以及具有适当支持的编程语言,如Python、R、Java、MATLAB等。由于数据库的结构化形式,数据库中的数据记录易于读取、搜索、编辑和删除。