介绍

人工智能(AI),特别是机器学习算法在生物医学研究领域的作用越来越大,这凸显了有效使用大规模生物医学数据集的机遇和挑战123..大量临床数据的可用性以及各种机器学习模型代表了关键的机会;然而,数据异构性和有限的数据协调技术的可用性是关键的瓶颈。最近,美国国立卫生研究院(NIH)的桥梁2ai倡议强调了这些挑战4.Bridge2AI计划侧重于使生物医学数据“人工智能/机器学习(AI/ML)就绪”的关键需求,使用本体和术语作为“AI/ML就绪”的核心组件。

由于不同的临床表型、病因、癫痫发作机制、遗传学和相关医疗条件,数据异质性的挑战在癫痫神经障碍中尤其严重56.现有的机器学习在癫痫中的应用主要集中在使用数字数据值,如脑电图(EEG)记录和癫痫发作检测任务的成像数据78910.然而,在患者登记、电子健康记录(EHR)系统和描述分子、病理、手术和实验室结果的临床记录中,有一组丰富的数据元素可用,由于特征工程的挑战,这些数据元素尚未在机器学习工作流程中广泛使用。机器学习工作流可以由三个主要组成部分概念化:(1)输入数据;(2)特征工程,创建输入数据的表示,供机器学习模型使用;(3)从数据中产生新见解的数学模型11.特征工程包括通过将数据预处理成适当的格式,将原始数据转换为可学习的特征,这些格式可用于表征特征重要性和特征交互等任务;因此,本体在特征工程任务中起着重要的作用12

生物医学本体在协调精准医疗的不同数据集、查询大规模EHR数据和执行多维分析方面发挥着核心作用1314.生物医学本体被广泛用于调和术语的异质性,例如基因本体(GO)。15医学临床术语系统化命名法16和RxNorm用于临床药物名称17.自2012年以来,我们一直在开发癫痫和发作本体(EpSO),这是目前最大的开源癫痫本体,以支持患者记录数据的比较分析,鉴别诊断等应用181920.21.除了这些传统的本体应用之外,EpSO作为一个严格设计的本体,通过基于本体的特征工程,在使机器学习工作流程能够访问大量异构癫痫临床数据方面发挥着关键作用。

在本研究中,我们扩展并验证了EpSO在机器学习工作流程中用于特征工程任务的使用,使用三种学习模型对神经病理报告进行多标签多类别分类,以诊断为输出,并使用免疫组织化学、显微镜、成像和解剖学作为输入特征(图2)。1)。

图1
图1

机器学习工作流程的可视化及癫痫本体在特征工程中的作用。

在本文的其余部分,我们描述了这项工作与使用本体的特征工程中现有方法的关系。在“方法章节中,我们详细描述了用于开发癫痫本体的工程方法,以及本体驱动的学习模型特征生成的实现。我们将在下一节讨论和总结之后,对基于本体的映射在机器工作流程中的有效性进行比较评估。

语境研究:相关工作和当前研究的意义

我们于2022年2月11日在PubMed中使用术语“本体机器学习特征工程癫痫”进行了基于关键字的搜索,我们的搜索没有产生任何结果。我们修改了我们的搜索,用两个带有和逻辑连接的查询表达式去除了“癫痫”一词,即“本体机器学习特征工程”和“本体”和“特征工程”和“机器学习”。搜索查询分别产生89和5个结果,其中只有Garla等人的一篇论文描述了使用统一医学语言系统(Unified Medical Language System, UMLS)作为文本分类中特征排序的本体结构22.另外两篇论文描述了在电影评论的意见挖掘中使用控制术语来计算语义相似度,另一篇评论论文描述了在特征选择中使用本体2324.与这些应用相反,本文描述的方法将原始输入数据转换为学习特征,这对机器学习模型的准确性和运行时性能都有直接影响。综上所述,本文所描述的新方法:

  1. 1.

    将输入数据转换为基于本体的学习特征,这与之前工作中描述的特征排序和特征选择应用不同。

  2. 2.

    实现一个系统的三步本体映射过程,该过程使用本体的形式化语义来生成上下文感知的特性(在“方法”一节)。这种方法尚未在任何已发表的论文中描述,并且从癫痫临床数据中生成学习特征是本研究中解决的一个独特挑战。

  3. 3.

    提出了一种本体驱动的方法,以弥合两种广泛使用的癫痫和癫痫发作分类系统之间的差异,以改进癫痫临床数据的特征生成(在“讨论”一节)。

据我们所知,这是第一个使用本体进行特征工程的研究,该研究使用非数字临床数据对癫痫患者记录进行多标签多类别分类。这也是最大的研究,分析了使用组合本体类表达式和语义转换在机器学习工作流中创建学习特征的潜力。本研究评估了个体学习特征的重要性,以及基于本体的特征工程对机器学习模型性能的影响。从长远来看,这种基于本体的特征工程方法可能使机器学习工作流程能够访问EHR系统和患者登记处的大量癫痫临床数据,而不仅仅是用于分类和预测任务的脑电图记录等数字数据。这种特征工程方法还提高了应用于癫痫数据的机器学习模型的性能,并扩展了现有生物医学本体在机器学习工作流程中的应用。

方法

研究设计及参与者

我们使用德国埃尔兰根癫痫外科神经病理学参考中心的去识别记录进行了一项回顾性的概念验证研究。该研究队列包括315例接受癫痫手术并被诊断为双重病理(n=5)、海马硬化(HS) (n=36),不hs (n=10)、皮质发育畸形(MCD) (n=136)、脑瘤(n=81)、胶质瘤(n=20.)、脑炎(n=11)、囊肿(n=3.)、脑病(n=2)、海绵状瘤(n=2)、阿兹海默症(n=1)、动静脉畸形(n=1)及其他未指明的(NOS) (n=7)。其中3例患者因病历中缺乏神经病理学诊断价值而被排除在研究之外;因此,312例患者被纳入最终分析。诊断的基本事实是报告中记录的原始发现。

我们获得了所有参与研究的患者或其法定监护人的书面知情同意,以便在神经病理学系(Universitätsklinikum Erlangen)主办的欧洲癫痫脑库(EEBB)中收集手术组织和临床数据,包括在医学和科学调查中使用组织和临床数据,以及发表结果。Friedrich-Alexander University (FAU) erlangen - n rnberg, Germany)医学院伦理委员会批准了这项研究(AZ 160_12B, AZ 92_14B, AZ 193_18B),所有研究都按照赫尔辛基宣言进行。

应用本体工程方法建立癫痫神经病理学模型

作为ILAE大数据开放数据工作组的一部分,我们组建了一个由神经病理学家、癫痫学家和计算机科学家组成的国际合作团队,该团队在2020-2021年期间举行了为期18个月的定期、每两周的远程会议。我们使用了同行评议的出版物和Blumcke等人的局灶性癫痫的外科神经病理学教科书。25,以及来自任务组之外的领域专家的正式和非正式反馈,以进行本体建模决策。我们重点建模了四个神经病理学主题,即HS、MCD、脑肿瘤和脑炎,以及免疫组织化学、显微镜、解剖学、遗传学和影像学术语,这些术语在本研究中使用的机器学习工作流程中用于特征工程。

海马硬化模型

HS是一种典型的局灶性癫痫综合征,是颞叶癫痫最常见的病因。正确识别和调查,它也是最可通过手术补救的综合征之一。HS在组织病理学上以海马亚区内特定的神经元细胞丢失和胶质细胞形成为特征。最常见的亚型是经典HS (HS ILAE 1型;60-80%)是指与HS ILAE 2型中以CA1为主的神经元细胞损失和胶质细胞形成(发生率为5-10%)或HS ILAE 3型中以CA4为主的神经元细胞损失和胶质细胞形成(发生率为4-7%)相比,严重的神经元细胞损失和胶质细胞形成主要发生在玉米(CA) CA1和CA4区。25.从颞叶癫痫(TLE)患者获得的手术海马标本也可能显示只有反应性胶质瘤(无hs)的神经元含量正常。

在EpSO中,我们使用ILAE开发的国际共识分类系统来描述星形胶质细胞增生的类型(例如,中度星形胶质细胞增生或原纤维星形胶质细胞增生)和特定位置的神经元损失水平(例如,CA1- - - - - -CA4(齿状回)25.EpSO模型海马硬化的四种亚型:HSType 1HSType 2HSType 3,无海马硬化的神经胶质瘤(我们使用斜体来区分EpSO中的本体术语和临床术语)。然而,我们并没有根据这些术语的神经元损失或星形胶质增生值(如“HSType1 with fibrillary astrogliosis in CA2”)对它们的大量亚类进行建模,而是使用了一种灵活的“组合建模”方法,使用了OWL对象属性上定义的存在量词和通用量词26.数字2的建模HSType3详情为astrogliosis神经元丧失的程度在特定的位置,如CA3CA4齿状回.脑位置术语被建模为EpSO中的本体类,并映射到综合的基础解剖学模型(FMA)本体,其中包含基于脑段和同义术语的组织信息27

图2
图2

EpSO使用组合建模方法,使用描述逻辑量词以及OR和AND连接词来表示神经病理学发现的多个维度。

ILAE国际共识分类系统根据类型分配0到2之间的数值astrogliosis神经元丧失的程度28.引入这种半定量分级系统是为了提供一种简化但实用的评估神经元损失的方法,因为定量神经元密度测量耗时且通常不可用,尽管更准确。描述性评估范围包括海马CA1-CA4亚区无明显神经元丢失或中度星形胶质增生(值= 0)、中度神经元丢失和胶质增生(值= 1)、重度神经元丢失(大部分神经元丢失)和原纤维星形胶质增生(值= 2)。在齿状回中,分级用于描述颗粒细胞弥散(值= 1)或严重颗粒细胞丢失(值= 2)的其他组织病理学模式,这种模式可在约50%的海马硬化症或正常齿状回(值= 0)中发现。EpSO显式地对这些与不同类别相关联的数值进行建模astrogliosis数值度,可用于病历之间的分类、排序和相似度评分的计算。

皮质发育畸形建模

这是顽固性癫痫的一个重要类别,具有很强的遗传基础。许多类型的MCD适合手术干预,因此神经病理组织分析是一种标准做法。EpSO对MCD的11个亚型进行了建模,包括PolymicrogyriaSchizencepahly的附加子类别局灶性皮质发育不良FCDType 1FCDType 2,FCDType 3),异位(例如,结节性异位乐队异位,皮质dyslamination)。在本体中对染色结果进行建模,例如检测气球细胞使用波形蛋白磷酸s6核糖体蛋白表位局灶性皮质发育不良IIB型是一个重大的工程挑战。为了应对这一挑战,我们开发并使用了OWL对象属性,例如hasNeuroPathologyFinding的不同类相关联的对象属性限制抗原表位(n = 53)和细胞类型(图3)。S1(见补充文件)。

表位的蛋白质功能被映射到现有的蛋白质本体,例如,它们的功能被建模为对对象属性的限制谷氨酸脱羧酶GAD65参与…神经递质合成.EpSO术语与外部资源的这种相互链接是实现跨本体互操作性的重要本体工程最佳实践。参照ILAE一致的局灶性皮质发育不良神经病理分类系统,对EpSO相关术语进行建模25.例如,共定位的神经病理发现如发生皮质dyslamination毗邻血管畸形都是为局灶性皮质发育不良IIIC型使用存在量词逻辑连接词。

与癫痫相关的脑肿瘤模型

肿瘤性癫痫是一种常见的发现,组织诊断对于肿瘤的准确分类以及治疗干预的预后和结果非常重要。尽管基于其解剖位置的任何脑肿瘤都可能导致癫痫,但大多数癫痫相关肿瘤是良性的,主要是神经元或混合胶质-神经元起源,并且经常位于颞叶25.特征实体包括神经节胶质瘤、胚胎发育异常的神经上皮肿瘤和低级别神经上皮肿瘤,如血管中心性胶质瘤,它们共同占回顾性手术癫痫病例系列中发现的绝大多数肿瘤25.在EpSO中,我们的目标是根据不同类型的脑肿瘤的表型建立模型,包括具有主要胶质神经元表型的肿瘤,如报告星形表型包括神经胶质瘤.表格S1在补充资料中列出了EpSO本体类对应的七类脑肿瘤即脑胶质神经元瘤脑胶质瘤脑神经细胞瘤错构瘤上皮囊肿脑膜瘤,转移性肿瘤连同它们的子类别以及相关的世界卫生组织(WHO)分级和基因突变信息2930.

作为更广泛的癫痫精准医学(PM)倡议的一部分,对癫痫遗传学的关注日益增加,其标志是对基因致病性变异以及功能突变的获得或丧失如何导致特定表型的了解有所增加31.例如,基因突变激活基因与下丘脑癫痫病因是下丘脑错构瘤.同样的,Dravet综合症与基因突变的功能丧失有关SCN1A美国国家生物技术信息中心(NCBI) ClinVar数据库中列出了该基因的多个序列变体3233.ClinVar是一个公共数据库,记录了人类遗传变异和相关表型,也存储了与报告的关联相关的证据。

EpSO通过将基因分类与NCBI基因数据库连接,建立癫痫的遗传学模型;(2) ClinVar数据库中基因的序列变异,包括该基因的分子结果、表型和变异类型的详细信息。例如,SCN1A变体型号ID 68500是否与其表现型有关Dravet综合症错义变体作为分子的结果,和单核苷酸变体作为它的变体类型。EpSO中癫痫遗传学术语的建模旨在促进其在医疗数据语义整合中的持续作用,这些数据越来越多地具有遗传变异及其在癫痫表型中的作用(表1)1)。

表1本体度量包括代表癫痫相关基因的类。

基于癫痫本体的特征工程

我们选择显微镜、成像结果、免疫组织化学和解剖位置作为三个机器学习模型的输入特征,这些模型为每个患者记录分配了一个或多个神经病理学诊断标签。来自312份神经病理学报告的原始数据元素具有显著的术语异质性,其中1328个不同的术语用于描述输入特征和输出诊断标签。与数据集的大小相比,出现相对较多的学习特征是机器学习工作流程中的一个常见挑战,这通常会导致训练模型的过拟合和低泛化。

因此,特征工程方法,包括使用嵌入进行降维,在机器学习工作流程中发挥着重要作用。在这项研究中,我们利用EpSO中神经病理学术语的详细建模来实现特征标准化,并减少输入和输出特征之间的可变性。本体驱动的特征工程是手工实现的(图2)。3.),包括三种方法:

  1. 1.

    多个术语映射到一个标准的本体术语:例如,术语“小胶质细胞结节”、“脑室周围结节性异位”、“多结节病变”、“脑室周围异位神经元结节”和“双侧脑室周围异位”被映射到结节性斜视

  2. 2.

    一个术语映射到本体术语的组成:例如,“CA2中神经元的消耗”,“CA2中的节段细胞损失”,“CA2中的神经元细胞损失”,“CA2中神经元密度降低”被映射到组成神经元的损失游离钙

  3. 3.

    术语映射到本体术语的语义转换:例如,“星形胶质表型”被映射到组成GlialCell星形胶质细胞,BrainGlialTumor

图3
图3

特征工程工作流程采用三步法将患者报告中的术语映射到癫痫本体。第一步使用语法匹配,然后映射本体术语的组合,最后是语义转换。所有的映射都是手动检查的。经过三步匹配过程后的最终术语列表用作机器学习模型的输入特征和输出标签。

关于基于本体的特征工程的更多细节,请参见补充文档章节1.1.表格2显示了从神经病理报告中提取的原始特征列表的映射结果以及映射到这些特征的EpSO类的数量。所有的映射由神经病理学家审查一致性和准确性。

表2使用映射到EpSO术语的特征工程结果。

我们使用了来自开源Scikit库的机器学习库34,详细的模型架构、参数、多标签分类的二元相关变换方法和验证方法在补充文档章节中描述1.2

结果

基于本体的特征工程的比较评价

我们比较了基于本体的特征工程对三种机器学习模型的影响,并在没有任何映射到本体术语的情况下计算了基线结果。在第一阶段,仅将输入特征映射到本体术语,在第二阶段,将输入特征和输出标签都映射到本体术语。结果见表13.)被分为两种类型:(1)正确的结果,其中机器学习模型的诊断结果与基本事实(患者报告中的原始诊断)相匹配;(2)部分正确的结果,其中诊断结果由基础真值诊断项的子集组成;其中可能包括错误的诊断标签。

表3基于本体的特征工程在逻辑回归、随机森林和梯度增强树模型中的比较评价。

表中报告的值3.是基于一个五重交叉验证过程的结果。当输入特征和输出标签都映射到本体术语时,逻辑回归、随机森林和梯度树增强模型在生成正确结果方面分别提高了35.7%、54.5%和33.3%。结果还表明,即使输入特征与本体术语的部分映射也会导致所有三种机器学习模型的改进,包括减少由正确和不正确诊断术语组成的混合结果类别。

个体学习特征的本体映射评价

我们使用了多标签多类分类任务的三个常见性能指标,即汉明损失、平衡准确率和召回率来评估本体映射对单个特征的影响35(这三个指标的详情见补充文件章节1.3)。数字4显示了当四个输入特征和输出特征中的每一个逐步映射到本体术语时三个模型的性能。精度值(图1)4A)随着越来越多的输入特征被映射到本体术语,输入特征和输出标签的映射都显示出最大的改进。我们注意到,随着越来越多的输入和输出特征被映射到本体术语,从而减少了特征的总数,召回值有一个边际下降。4B)。

图4
图4

基于本体的特征工程的三种平衡精度度量效果比较评价(一个),回忆(B)和汉明损失(C),适用于所有三种机器学习模型。基线值没有任何本体映射,病例I到V分别对应于向显微镜、免疫组织化学、成像结果、解剖位置和诊断(输出标签)添加本体映射。(D)影响三种机器学习模型性能的输入特征的特征重要性得分。

然而,我们注意到,当单个输入特征被映射到本体术语时,准确率和召回值并没有一致地增加或减少。例如,将免疫组织化学和脑解剖区域术语映射到本体术语导致逻辑回归模型的准确性值降低,而将这两类输入值映射到本体术语导致随机森林模型的准确性值增加。在所有三种机器学习模型的召回值中也可以看到这种模式。数字4C显示,当显微镜和免疫组织化学术语被映射到EpSO用于逻辑回归和随机森林模型时,汉明损失值有所改善;然而,当诊断值被映射到本体术语时,用汉明损失测量的三种模型的性能下降。

个人学习特征的重要性

为了研究本体映射后单个特征性能的这些变化,我们评估了每个特征对分类任务的贡献。有多种测量特征重要性的方法来估计特征的重要性,以便更好地理解机器学习模型如何使用输入特征来生成结果3637.特征重要性分数在特征工程中用于解决偏差,并允许用户根据单个输入特征的贡献来解释结果38.我们使用Scikit-learn库来计算四个输入特征中的每一个的特征重要性分数,而不需要对所有三个模型进行任何本体映射(图3)。4D).结果表明,在所有三种机器学习模型中,输入特征显微镜具有一致的高特征重要性得分。我们注意到,在显微镜术语上应用基于本体的特征工程方法导致术语总数减少最多(表中为84.41%)2),结合其较高的特征重要性得分,可能与所有三种学习模型的平衡精度测量的改善有关,如图所示。4D。

相比之下,免疫组织化学的特征重要性得分在所有三种模型中都很低,我们还注意到本体映射的使用导致术语减少最少(表中40.4%)2),用于此输入特征(在图中标记为案例II)。4D).在所有三种模型中,成像的特征重要性得分相对较高,而解剖特征的得分最低。这些特征重要性分数概述了每个输入特征对三种机器学习模型性能的贡献。然而,这些分数不足以表征不同特征之间的相互作用及其对机器学习模型性能的影响。例如,单个特征(如显微镜)和组合特征(如成像结果和解剖学)的重要性需要在更大的数据集上进行额外的评估1239.对特征相互作用的详细评估和特征重要性分析可以使我们探索额外的特征工程步骤,例如将解剖学分解为基于脑叶的特征,或将免疫组织化学值分解为基于表位靶标的单个特征(例如,增殖指数或细胞模式标记)。

基于本体的特征工程对机器学习模型运行时性能的影响

人们一直非常关注机器学习实现的运行时性能,包括使用专用硬件,如张量处理单元(TPU)或图形处理单元(GPU),以减少执行机器学习工作流程所需的时间4041.在这项研究中,我们评估了基于本体的特征工程对实现工作流运行时性能的影响,结果表明,在所有三种机器学习模型中都有显著的改进。测试在32 GB内存、Intel®Core™i7-9700K CPU (3.60 GHz × 8)处理器、运行64位Ubuntu 20.04.4 LTS的服务器上进行。这一结果是基于平均执行7次死刑得出的。数字5与基线相比,梯度树增强提高了93.8%,随机森林提高了67.2%,基于本体的特征工程的逻辑回归提高了77.6%。值得注意的是,所有三种模型的运行时间的减少对应于所有三种机器学习模型的平衡精度的一致改进。基于本体的特征工程对学习模型运行时性能产生重大影响的一个关键原因可能是由于使用癫痫本体的输入特征的标准化,我们建议在我们未来的工作中开发一个基准评估来表征这种影响。

图5
图5

三个机器学习模型在没有基于本体的映射(基线)和同时具有输入和输出值映射的情况下的运行时性能。

讨论

协调异质性癫痫与癫痫本体的发作分类系统

ILAE分类系统(ILAE- ec)和四维分类系统(4D-EC)是两种广泛应用于癫痫和发作的分类系统5.由于癫痫作为一种异质性疾病的固有复杂性,使用两种分类系统进一步加剧了机器学习工作流程中的数据协调和特征工程挑战。Rosenow等人最近的一篇论文提出使用癫痫类型、病因、癫痫类型、合并症、癫痫综合征和癫痫发生区五个常见轴来协调ILAE-EC和4D-EC分类系统5;但是,目前还没有对所建议的方法的实现。我们在EpSO中实现了所提出的方法,该方法可以使用两种常用的分类系统中的任何一种来支持数据集的特征工程。

数字6展示了两种癫痫类型的模型(儿童慢性进行性部分连续性癫痫常染色体显性部分癫痫伴听觉特征),并将一组属性映射到ILAE-EC和4D-EC。EpSO中的这些本体映射可以被软件工具访问以进行自动解析;因此,使用EpSO术语的应用程序也可以识别与本体术语相关的特定ILAE 2017癫痫发作类型。在OWL规范中定义的本体属性26允许我们灵活地更新本体术语的映射,以反映ILAE-EC可能提出的未来修订,这些更新也可以通过使用嵌入库自动传播到机器学习工作流。这些带有本体映射的嵌入库可以通过版本控制平台(如GitHub)在机器学习工作流中重用。

图6
图6

基于ILAE 2017分类系统和四维分类系统的EpSO两种属性癫痫综合征建模

基于本体的特征工程,支持可解释的AI

特征重要性分数的计算和特征之间的相互作用的量化是帮助理解机器学习模型产生的结果的重要步骤,包括可以与用户共享的可靠性分数的关联3637.有多种框架可以解释机器学习模型的性能,包括基于树的模型的可解释性框架,如随机森林和梯度增强树,使用博弈论来解释输入特征对单个输出结果的影响3637.其中一些框架基于模型生成结果所使用的路径,可以通过本体的相互链接结构进行扩展。此外,还可以使用遍历本体结构的推理算法来表征不同特征之间的交互isA的一部分hasEtiology,以及在EpSO中建模的其他本体属性。使用基于描述逻辑的推理算法可以提高不同模型生成结果的可解释性。然而,这种提出的方法将需要解决输入特征到本体术语映射中的偏见挑战,包括使用多个本体类来表示单个输入特征。

限制

本研究仅限于单一站点数据集,患者报告的选择基于报告可用英文的标准;因此,该研究队列没有解决人口学、临床发现和癫痫患者亚类别方面的偏倚,这些癫痫患者被考虑进行神经病理学评估。本研究中使用的映射方法是由一位神经病理学家验证的,这可能会导致机器学习模型在特征生成和相应结果产生偏差。本研究中使用的特征重要性度量不考虑特征相互作用和特征之间的任何相关性。

总之,我们的研究结果表明,基于本体的特征工程在提高学习模型的性能方面是有效的,它可以用来释放患者登记和电子病历系统中大量异质癫痫临床数据的价值。下一步,我们计划将这项研究扩展到多机构数据集,并应用深度神经网络模型和Shapely值来获得可解释的结果,这些结果可能会集成到临床决策支持系统中。