目前大多数阿尔茨海默症(AD)和轻度认知障碍(MCI)研究使用单一数据模式来预测,例如AD的分期。多种数据模式的融合可以提供AD分期分析的整体视图。因此,我们使用深度学习对成像(磁共振成像(MRI))、基因(单核苷酸多态性(SNPs))和临床测试数据进行综合分析,将患者分为AD、MCI和对照组(CN)。我们使用堆叠降噪自编码器从临床和基因数据中提取特征,并使用3D卷积神经网络(CNN)来处理成像数据。我们还提出了一种新的数据解析方法,通过聚类和扰动分析来识别深层模型学习到的表现最好的特征。使用ADNI的数据集,我们证明了深层模型的性能优于浅层模型,包括支持向量机(SVM)、决策树、随机森林和k近邻(KNN)。此外,我们还证明了集成多模态数据在准确率、精确度、召回率和平均F1分数方面优于单通道模型。我们的模型已将海马体、杏仁核脑区和雷伊听觉言语学习测试(RAVLT)确定为最主要的特征,这与已知的AD文献一致。本文发表在Scientific reports杂志。
深度学习在多种疾病的临床决策支持方面显示出了巨大的潜力,包括糖尿病性视网膜病变、癌症以及阿尔茨海默症(用于成像分析)。与其他浅层模型相比,深度学习模型的主要优点是能够直接从给定标签示例的原始数据中学习最具预测性的特征。在诸如影像、电子健康记录(EHR)和SNPs等单一数据模式下,深度学习已经展现出优于浅层学习的效果。深度学习技术还有助于在仅存在部分数据的情况下进行训练和预测。在这项研究中,我们开发了一种新的用于临床决策支持的深度学习架构,它使用多模态数据(影像、临床数据和基因信息)预测阿尔茨海默症(AD)的分期。
AD是美国最常见的神经退行性疾病和第六大致死病因。预计到2030年,全世界AD的疾病负担将达到2万亿美元,这就需要及早发现。尽管进行了广泛的研究并在临床实践中取得了进步,但只有不到50%的AD患者根据其临床症状准确地诊断出其病理和疾病进展。阿尔茨海默症最确凿的证据是组织病理学中存在淀粉样斑和神经原纤维缠结。然而,阿尔茨海默症的早期发病与斑块的存在无关,而与突触和神经元的缺失有关。
ADNI的数据和数据挖掘策略的研究仍在进行中,以提高我们对潜在疾病进展的理解。AD生物标记物包括临床症状(如痴呆症、记忆力减退)、神经系统测试和分数(例如MMSE分数),通过成像、基因和蛋白质生物标记物得到增强。这些研究大多使用单一数据模式识别生物标记物,这限制了对AD疾病进展的整体评估。已经有结合了各种成像模式的AD多模态分析,例如结构性MRI(T1加权、T2加权)、功能性MRI、正电子发射断层扫描(PET)和影像基因学。此外,基因学已与临床数据结合使用,以增加数据标签和表型。除了浅层学习,自编码器和深度信念网络(表A1)等深度学习模型已被用于PET和MRI影像数据的融合,并改进了预测。
表A1 阿尔茨海默症文献中的深度学习方法。该表对深度学习方法和研究设计进行了简要说明。
在本研究中,我们进一步利用多模态AD数据融合,通过深度学习结合影像、EHR和基因组SNP数据,将患者分为对照组(CN)、MCI和AD组,从而推进AD的分期预测。我们分别对EHR和SNP数据使用堆叠降噪自编码器,以及新型的3D卷积神经网络(CNNs)来训练MRI成像数据。在对每个数据模态分别训练网络后,我们使用不同的分类层将它们组合起来,包括决策树、随机森林、支持向量机和k近邻。我们使用包含SNP(808例患者)、MRI成像(503例患者)以及临床和神经系统测试数据(2004例患者)的ADNI数据集证明了我们整合模型的性能。
尽管使用多种类型的数据在临床决策支持方面表现优异,但广泛采用深度学习模型进行临床决策的一个主要缺点是缺乏解释深层模型定义的方法。我们通过开发新的扰动算法和基于聚类的方法寻找有助于决策的最重要的特征,以应对这一挑战。
在本文中,我们阐述了对AD分期预测的主要贡献如下:
·
新型深度学习架构优于浅层学习模型;
·
使用深度学习的多模态数据分析优于单模态深度学习模型;
·
新型可解释的深度学习方法能够提取表现最优的特征。
本文采用阿尔茨海默症神经成像倡议(ADNI)数据库(ADNI .loni.usc.edu)中的数据进行分析。ADNI旨在测试是否可以结合系列MRI、PET、生物标志物以及临床和神经心理学评估来判定MCI和早期AD的进展。ADNI数据库包含4项研究(ADNI1、ADNI2、ADNI GO和ADNI3)中2220多名患者的影像、临床和基因数据。我们的研究重点是ADNI1、2和GO,因为ADNI 3是一项正在进行的研究,预计将于2022年结束。目前数据是分阶段发布的,未经处理的成像数据有限,还没有基因数据。影像学数据(ADNI1、2和GO)由MRI和PET图像组成,其中我们使用了与ADNI1基线筛查(503例患者)相对应的横断面MRI数据。数据发布者已经对图像进行了标准化,以消除由不同供应商的扫描仪造成的非线性特性。在本研究中,我们使用了横断面MRI数据,包括每个患者分布在18个切片上的9108个体素(每个切片有22 × 23个体素)。对于临床或EHR(电子健康记录)数据,我们使用了2004例患者(ADNI1、ADNI2和ADNI GO)的临床测试数据(如记忆测试、平衡测试和认知测试)、用药数据(如左旋多巴的使用)、影像评估总结(如PET中的氟代脱氧葡萄糖(FDG)水平、MRI中的脑容量)、患者人口统计数据(如年龄和性别)和生化检查。基因数据包括2012年和2013年Illumina非临床实验室修正案(non-CLIA)实验室在大约30%-40%覆盖率的808名ADNI参与者(包括128名AD, 415名MCI, 267名对照)的全基因组测序(WGS)数据。产生的变体调用文件(VCFs)是由ADNI在2014年使用广泛的最佳实践(BWA和基因组分析工具包(GATK)单倍型调用器)生成的。我们在本研究中总共使用了2004例患者数据,其中所有患者都有临床资料,503例患者有影像学资料,808例患者有基因资料(图1)。对于多次就诊的参与者,我们使用患者上一次就诊的诊断结果。如图1c所示,220例患者拥有所有三种数据模式,588例患者有SNP和EHR(电子健康记录), 283例患者有影像学和EHR,其余患者只有EHR数据。
如上所述,我们使用影像数据(503张MRI图像)、SNP(808例患者)和EHR(2004例患者)来预测AD的分期。对于每一个单一的数据模态,我们首先展示了深层模型比浅层模型(如KNN、一对一编码支持向量机、随机森林和决策树)更优越的性能。浅层模型和深度学习模型的SNP和EHR特征是相同的。对于成像,当使用深度学习时,我们直接应用多层3D体素,而对于浅层模型,我们则从3D体素中提取由专家精心处理过的特征。
关于AD分期,只有EHR有CN、MCI、AD三个阶段。SNP基因表达在MCI和AD之间没有差异,仅具有CN与AD/MCI预测。在图像上,早期MCI患者的结构与CN相似,而晚期MCI患者的结构与AD相似。因此,对于影像数据,只有CN和AD被用于分期评估。因此,结合这三种方法可以帮助我们显著提高AD分期预测的准确性。如图2、3所示。我们已经开发了三种数据融合策略:(i)使用浅层模型的特征级组合、(ii)使用深层模型的中间特征级组合、以及(iii)使用浅层模型的决策级组合。
特征级组合是通过使用浅层学习直接拼接数据模式来实现的(图2)。中间特征级组合是通过使用深度学习提取中间特征,进而拼接并通过分类层来实现的(详见补充材料)。决策级组合通过对单模态进行投票来执行。我们测试了浅层模型,如KNN、一对一编码支持向量机、随机森林和决策树的决策级组合,并提出了性能最好的模型。对于中间特征级的模型(图3),我们评估了四种组合:(i) EHR+影像+SNP、
(ii) EHR+影像、 (iii) EHR+SNP和(iv) 影像+SNP。对于除影像+SNP以外的所有组合,我们进行了三阶段分类(CN、AD和MCI)。对于影像+ SNP,我们进行AD和CN的分类。
上述所有案例都使用内部交叉验证和外部测试集进行评估。我们首先分离出10%的数据作为外部测试集。对于剩余的90%,我们进行10折交叉验证,其中81%的数据用于训练,9%用于内部交叉验证。内部交叉验证数据集用于优化模型。
图1(a) ADNI数据说明。临床数据包括人口统计资料、神经系统检查和评估、药物、影像数量和生物标志物。
(b)按病情和疾病阶段分列的病人人数。(CN对照,MCI轻度认知障碍,AD阿尔茨海默症)。
(c)220例患者拥有所有三种数据模式,588例患者有SNP和EHR, 283例患者有影像和EHR,其余患者只有EHR数据。
我们将汇报内部交叉验证分区和外部测试数据集的ADNI结果。对于每一个深度学习模型,或基线浅层模型,我们使用准确率、精确度、召回率和平均F1分数的平均值作为指标,以显示深层模型在单模态方面的优势以及从数据集成中获得的改进。
3D卷积神经网络在MRI成像数据上优于浅层模型。一位患者的影像数据由9108个22 × 23 × 18的3D体素组成,分别对应于所选的5个脑区。
图2 数据集成的深度模型与浅层模型的比较。
(a)浅层模型上的特征级集成,特征在传递到浅层模型之前被连接起来。
(b)深层中间特征级集成,在集成和预测之前,利用深层模型对原始特征进行单独转换。
(c)使用单个分类器的决策进行投票的决策级集成。在本研究中,我们比较了深层中间级集成与浅层特征和决策级集成在阿尔茨海默症分期预测中的表现。
特征融合:
使用前端融合(早融合),即在输入层进行特征融合,再在融合后的特征上训练。具体做法是首先对每个样本的每个数据模式的特征向量进行拼接,并使用决策树进行分类。然后利用拼接后的特征进行预测分类(图2a)。我们测试了KNN、决策树、支持向量机和随机森林。表A4列出了各分类器的优化参数。
图2。(a)浅层模型上的特征级融合,特征在传递到浅层模型之前被连接起来。
表A4:调整后的多种类分类器的优化参数(特征级别的集成)。表中给出了浅层分类器上特征级组合的最终超参数。不同对比方式的浅层模型超参数也根据验证数据进行了调整。
图3 面向临床决策支持的多模态数据集成的中间特征级组合深层模型。来自不同来源、成像、EHR和SNP的数据使用新型深层架构进行组合。将3D卷积神经网络结构应用于三维MR图像区域,获得中间成像特征。采用深度堆叠降噪自编码器获得中间EHR特征。采用深度堆叠降噪自编码器获得中间SNP特征。将这3种中间特征传递到分类层,进行阿尔茨海默症分期(CN,MCI和AD)的分类。
深度学习模型中第一级全连接层的节点数为5×20=100,第二级全连接层的节点数为20。结果(图4a)表明,基于CNN的成像模型优于浅层模型,并给出了最优的准确率和平均F1分数。
在EHR数据上,深度自编码器模型可与浅层模型相媲美。EHR数据包括2004例患者,每个患者有1680个归一化特征,我们用这些特征将患者分为AD、MCI和CN(三类)。我们使用一个三层的自编码器,分别有200、100和50个节点。深度网络使用Adam算法进行训练,最大历元数(在整个数据集上重复深度学习网络训练以实现充分的训练)为25。超参数优化后,初始训练的正则化系数固定在0.03,微调的正则化系数固定在0.03。所有层的失活概率设置为0.6。结果(图4b)表明,自编码器的性能优于KNN和SVM等浅层模型,并可与决策树和随机森林相媲美。
图4。单数据模式预测阿尔茨海默症阶段的内部交叉验证结果。
(a)成像结果:深度学习预测优于浅层学习预测;
(b) EHR结果:深度学习优于浅层模型KNN和SVM,与决策树和随机森林相当;
(c) SNP结果:深度学习优于浅层模型。KNN、SVM、RF和决策树是浅层模型。(KNN:k近邻;SVM:支持向量机;RF:随机森林)。
对于SNP数据,深度自编码器模型优于浅层模型。处理过的SNP数据包括808例患者,共有500个特征(每个特征都有1、2、3级),我们用这些特征将患者分为AD vs MCI和CN(两类)。自编码器网络由三个隐藏层组成,分别有200、100和50个节点。使用Adam优化和最大epoch为30,性能最好的模型初始训练的正则化系数为0.03,微调的正则化系数为0.06。每一层的失活概率是0.6。结果(图4c)表明,自编码器模型优于所有基线模型。
多模态分类结果
由单模态深层模型生成的中间特征被连接并传递到另一个分类层进行集成。
三种模式的结合:(影像+EHR+SNP):深层模型优于浅层模型。当某个特定的模态不可用时,我们在使用深度学习时将其掩蔽为零。三种模式的中间特征被传递到分类层。我们测试KNN、决策树、随机森林和支持向量机作为分类层的替代方案。以深度模型和随机森林作为分类层的内部交叉验证准确率最好(图5a)。三种模态组合的深层模型优于单模态深度学习。此外,在组合过程中,对于内部交叉验证和外部测试集,深层模型优于特征级和决策级等浅层模型(表1)。
SNP和EHR模式的结合:深层模型优于浅层模型。以深层模型、随机森林为分类层的内部交叉验证准确率为0.78±0(图5b)。EHR + SNP组合的深层模型优于单模态深度学习。在组合过程中,对于内部交叉验证和外部测试集,深层模型优于特征级组合模型等浅层模型(表1)。
结合影像和EHR模式:深层模型优于浅层模型。以深层模型、随机森林和SVM为分类层的内部交叉验证准确率为0.79±0(图5c)。EHR+影像组合的深度模型优于单模态深度学习。此外,在组合过程中,深度学习模型在内部交叉验证和外部测试集上的表现都优于特征决策层等浅层模型(表1)。分类层随机森林在外部测试集上的表现最好。
结合影像和SNP模式:浅层模型优于深层模型。我们使用SNP和图像中间特征(CN vs. AD/MCI)进行两类分类。内部交叉验证准确率为0.75±0.11,采用特征级组合模型(图5d)的效果最好。然而,外部数据的结果很差。较差的外部验证可归因于只有220名患者同时使用了两种模式的数据。
图5。整合数据模式预测阿尔茨海默症阶段的内部交叉验证结果。
(a)影像+EHR+SNP:深度学习预测优于浅层学习预测;
(b)EHR+SNP:深度学习预测优于浅层学习预测;
(c)影像+EHR:深度学习预测优于浅层学习预测;
(d)影像+SNP:由于样本容量较小,浅层学习比深度学习具有更好的预测效果。(KNN:k近邻;SVM:支持向量机;RF:随机森林;SM:浅层模型;DL:深度学习)。
表1。深层模型特征提取以及内部验证结果与外部测试结果比较。
自编码器模型用于EHR和SNP数据,CNN用于成像数据。对于多模态模型,三模态模型和双模态模型(EHR+SNP,EHR+影像)的预测性能最好。对于多模态模型,3或4种组合的深层模型优于浅层模型。
我们的研究结果表明,对于单模态数据,深层模型优于传统的浅层模型。浅层模型通常需要专家手动设计特征,而深层模型可以在训练过程中找到最优特征集。此外,深层模型(例如自动编码器和CNNs)可用于执行无监督的特征生成,然后与更复杂的决策层结合。该体系结构使多类分类问题的复杂决策边界建立成为可能。由于这一特性,深层模型对于MCI的识别尤其有效,而由于三组之间的微小差异,这一直是阿尔茨海默症研究中的一个临床挑战。因为浅层模型(除了随机森林)不能很好地容忍噪声和缺失数据或缺失模态,对于有噪声的数据,深度学习给出了单模态的最佳性能。
多种模式的整合提高了预测准确率(四种场景中的三种)。与传统的特征级和决策级集成相比,用于集成的深层模型还显示出改进的性能。深度学习的优越性能体现在它能够从不同的模态中发掘特征之间的关系。当数据集非常小的时候(例如影像和SNP的结合),深层模型表现不佳。网络缺乏训练数据可能会导致性能下降。总体来说,我们的调查显示:对于单模态数据(临床和影像),深度学习模型的性能总是优于浅层模型;当使用深度学习模型时,多模态数据的预测效果优于单模态数据。三种最好的融合组合是:EHR+SNP、EHR+影像+SNP和EHR+影像。
我们提出的基于深度学习的数据集成模型的一个瓶颈是ADNI数据集的样本规模太小。为了减轻小样本容量带来的挑战,我们可以利用迁移学习和领域适应等策略。对于每种数据模态,我们可以采用在其他类似数据集上预先训练的神经网络(例如针对其他条件训练的基于CNN的MRI/CT脑影像分类模型)。通过将这些预先训练好的网络及其参数组合在我们的模型中,我们可以使用标记好的ADNI数据进行域自适应或微调网络参数。另一方面,我们也可以使用公开的数据(例如用于SNPs的癌症基因组图谱(TCGA)数据集)对每个数据模态进行无监督的特征表示学习。我们的特征提取步骤是针对当前深度学习模型中的每个模态独立执行的,它没有训练端到端与集成和分类步骤。未来的一个方向是实现端到端训练,并将自编码器与特征拼接之外的其他集成策略相结合。
模型解释是深度学习的主要挑战,通常被认为是现实生物医学应用的障碍。研究表明,深层模型的权重通过多层组合影响结果,因此不会产生临床中有意义的解释。在本研究中,我们开发了一种新的解释方法,每次掩蔽一个特征,并测量准确率(图6)。在特征提取中,准确率下降幅度最大的特征排名更高。
图6。深层模型解释的特征提取。新型的特征解释方法,每次掩蔽一个特征并观察其对分类的影响。准确率下降幅度最大的特征排名最高。我们对特征进行了排序,并使用聚类分析来检查中间特征是否选择了不同于原始数据的关联类型。深层模型显示的关联类型不同于浅层模型,深层模型可以解释更高的性能。
EHR的主要特征(表1)包括记忆测试、影像总分数和脑容量。记忆和脑容量的变化已被报道为AD的生物标志物。影像标记物,如边缘和皮质区域受累,以及海马体积和结构的改变,是PET和MRI研究中已知的生物标记物。SNP特征选择了10、4、19、1和5号染色体。
SNP+影像+EHR和SNP+EHR选择了更多的EHR特征(记忆测试、代谢标志物和脑容量),这些都是已知的AD相关特征。EHR+影像选择包括脑容量、临床痴呆评估和代谢标志物的EHR特征。影像+SNP选择的大脑区域如海马体和杏仁核脑区比SNP特征更高阶。
此外,我们还使用kmeans对EHR和SNP数据中的中间特征进行聚类,以显示中间特征之间的关联。在绘制中间特征和原始特征的聚类图时,我们发现与原始特征相比,中间特征的分离效果更好。这表明了由深层模型挑选的中间特征之间微妙的关系(图A5、A6)。
图A5。使用聚类分析的新型数据解释结果,以证明深层模型提取原始EHR数据中不明显的数据关系的能力:A)从容易分成集群的EHR数据中提取中间特征。B)排名靠前的(使用ReleFF)EHR特征没有划分成定义明确的集群。
图A6。使用聚类分析的新型数据解释结果,以证明深层模型提取原始SNP数据中不明显的数据关系的能力:A)从容易分成集群的SNP数据中提取中间特征。B)排名靠前的(使用ReleFF)SNP特征没有划分成定义明确的集群。
对AD 患者的诊断工作具有挑战性,并且分期评估的预测准确率仍然很低。在这项研究中,我们汇报了深度学习在多模态数据融合方面的潜力,包括:
·在单模态阿尔茨海默症分期预测方面,深层模型优于浅层模型。
·用于多模态数据融合的新型深度学习框架优于单模态深度学习。
·新型的基于扰动和聚类的特征提取辅助深度学习模型解释能够进行AD分期的预测。
·将3D卷积神经网络架构应用于MRI图像数据有利于AD分析。
尽管性能有所提高,但我们的研究仍存在数据集大小有限等缺陷。未来,我们将在更大、更丰富的数据集上测试我们的模型。
在本研究中,我们使用深度学习模型进行多模态数据融合(图3)(即影像、EHR和基因组SNP数据),将患者分为CN、MCI和AD组。我们对EHR和SNP使用堆叠降噪自编码器,对MRI成像数据使用3D卷积神经网络 (CNN)。在针对每种数据模态分别训练网络之后,我们应用决策树、随机森林、支持向量机和k近邻对AD分期进行综合分类。
数据预处理。如上所述,ADNI数据集由临床数据、SNP数据和影像数据组成。
核磁共振成像数据。我们首先对 3D 图像进行预处理以过滤噪声、执行颅骨剥离、分割不同类型的脑组织、将图像归一化并将图像共同配准到 MNI 空间(图7a)。之后,我们提取了21个大脑区域(与阿尔茨海默症相关)的 3D 区域,包括右侧杏仁核、左右角、左右小脑、左右海马、左右枕区域以及左右上颞区(详见补充材料)。
临床表现。我们从ADNI1、ADNI2和ADNI GO中提取了1680个常见的临床特征(定量实数、二进制和分类特征)。我们将定量数据标准化到1-2范围内,使用毒热编码将分类数据转换为二进制。最后,将二进制数据转换换为1或2(图7b)。
基因数据。每个被试在原始VCF文件中有大约300万个SNP。我们应用多个过滤和特征选择步骤(图7c)来消除具有(i)低基因型质量、(ii)低次等位基因频率、(iii)高丢失率和(iv)显著的哈迪-温伯格平衡定律p值(p-value)的SNPs。过滤后,我们应用两阶段特征选择:(i)保留位于已知 AD 相关基因上的SNP,(ii)使用最小冗余最大相关性(mRMR)选择500个SNP特征。我们选择mRMR作为特征选择方法是因为它可以很好地处理分类数据(例如SNP数据),并且之前曾用基因数据报道过。考虑到计算成本,我们选择mRMR而不是其他基于包装器的技术,例如顺序特征选择器。将来,我们将研究其他基于滤波器的特征选择方法,例如相关技术、ANOVA和relieFF(详见补充材料)。
使用单通道的中间特征生成。我们首先分别对每个通道进行特征提取(图7),然后使用深度学习生成中间特征。使用自编码器生成EHR和SNP数据的中间特征,并使用3D卷积神经网络生成图像的中间特征。从每个单模态中产生的中间特征随后被用于多模态分析。作为一种数据驱动方法,深度学习的性能在很大程度上依赖于大量经过良好注释的训练数据。然而,ADNI数据集总共只包含几千个样本,所有三种模式的样本甚至更少。因此,我们只使用深度学习来进行特征表示学习,而不是端到端的训练。
图7。用于三种数据模式的数据预处理流程:
(a)成像数据首先是颅骨剥离,分割成白质、灰质和脑脊液。然后,在使用自动解剖标记图谱提取21个大脑区域之前,将图像配准到标准空间。
(b)将临床数据归一化为1-2或编码为1-2。之后,我们丢弃缺失值>70%的特征,以获得204个患者的1680个特征。
(c)首先对SNP数据进行过滤、纠错、使用已知基因进行特征选择,然后使用基于最大相关性(MaxRel)的方法,以获得808名患者的500个SNP。
影像数据的中间特征。
首先,我们选择感兴趣区域,并将它们放入单独的3D卷积神经网络(图A2),其权重在CNN模块中共享。CNN模块可以从抽象化处理后的图像中提取更高级别的特征,以形成概念,这些概念通常与目标更相关。上述体系结构中的每个3D卷积神经网络由10个大小为5×5×5的3D卷积核组成,随后是具有大小为3×3×3的池化核的池化层。在池化层之后,我们将池化后的3D图像送入修正线性单元(RELU)非线性,以从输入通道中学习复杂的特征。我们使用体积批归一化,它是卷积神经网络的一种有效的正则化方法。接下来,每个3D卷积神经网络生成的特征地图被展平,并被送入具有RELU激活函数的单独的全连接层中,随后是丢弃正则化。我们集成每个通道生成的特征,并将它们送入第二级全连接层和相应的丢弃层。最后,我们使用具有负对数似然损失函数的Softmax层来训练成像网络。
我们使用从第一级全连接层生成的组合特征作为中间特征,这些中间特征被送入我们的多通道深度学习模型中。
图A2。使用VCFtools生成的基因型矩阵。这四种基因分别被映射到0、1和2。将显性纯合子基因型(BB)映射到0,将两个杂合子(Bb和bB)映射到1,将隐性纯合子基因型(bb)映射到2。在预处理过程中,数据在1到4之间移动,之后进行归一化。
使用自编码器的EHR和SNP数据的中间特征。
我们将每个患者数据(特征学习算法的EHR和SNP输入)表示为长度为m的向量(m是特征数量)。之后,我们将这些数据通过一个两层的堆叠降噪自编码器网络(图A3),以获得患者数据的高阶表示。每个自编码层采用维度为n×d的输入x,其中n是训练样本的数量,d是输入维度(第一层的d=m)。每一层的输入会先通过编码器转换成数据的更高阶表示。
其中f是激活函数,例如Sigmoid或tanh,[W,b]是要训练的参数。然后我们通过解码器传递映射值(y)以获得输入(X)的表示。
其中b’需要被训练,并且权重WT与编码器权重捆绑。我们通过堆叠训练的编码层来构建网络,并使用丢弃来实现降噪,其中对输入值的一部分进行掩蔽(设置为零),以便在小的和有噪声的训练数据存在的情况下更好地泛化模型。我们通过使输入数据和重建后的输入数据之间的平均交叉熵最小化来执行反向传播训练。
其中a是维度的数量。使用Adam算法进行优化,批量大小(batch size)为3。
在训练完自编码层之后,我们通过添加预测最终类的Softmax层来对每个层执行网络微调。中间特征是去除Softmax层之后微调网络的输出。模型中的超参数,如层的大小、丢弃参数和正则化系数(以防止过拟合),并使用十折交叉验证进行优化。
以上就是本篇文章【结果和关于新型特征提取的讨论,以协助深度学习模型的解释】的全部内容了,欢迎阅览 ! 文章地址:http://dh99988.xhstdz.com/news/4564.html
栏目首页
相关文章
动态
同类文章
热门文章
网站地图
返回首页 物流园资讯移动站 http://dh99988.xhstdz.com/mobile/ , 查看更多