论文写作笔记2:AIME-相关论文

郎雅昶

2023-12-01

肝移植Liver Transplantation

	论文主题	论文发表时间	作者背景	被引
1	动态加权进化+神经网络解决类别不平衡 (结合供体、复位和手术特征的器官分配, 有序多分类问题) Dynamically weighted evolutionary ordinal neural network for solving an imbalanced liver transplantation problem	2017.3	计算机科学与数值分析系	26
2	多目标进化(MOEA)人工神经网络预测肝移植后的患者生存率->器官分配 Predicting patient survival after liver transplantation using evolutionary multi-objective artificial neural networks	2013.5	计算机科学与数值分析系	47
3	机器学习的方法, 对胸腔移植患者预测生存时间 A machine learning-based approach to prognostic analysis of thoracic transplantations	2010.5	工业工程与管理学院	51
4	用遗传算法和分布预测算法做特征选择, 预测TIPS术后生存率 Feature subset selection by genetic algorithms and estimation of distribution algorithms: A case study in the survival of cirrhotic patients treated with TIPS	2001.1	医学(通讯计算机与AI)	62
5	在重症监护病房使用数据挖掘，通过不良事件对器官衰竭进行评级 Rating organ failure via adverse events using data mining in the intensive care unit	2008.7	医学(通讯信息系统)	66
6	模糊分类+进化算法->预测(多目标优化避免单目标丢失信息) 严重烧伤患者的生存/死亡预测 Multi-objective evolutionary algorithms for fuzzy classification in survival prediction	2014.3	计算机	48
7	综述-医学中的进化计算 Evolutionary computation in medicine: an overview	2000.5	理工学院	129

1. 动态加权进化+神经网络解决类别不平衡

肝移植相关

(结合供体、复位和手术特征的器官分配, 有序多分类问题)

Dynamically weighted evolutionary ordinal neural network for solving an imbalanced liver transplantation problem

https://www.sciencedirect.com/science/article/pii/S0933365716302901

2017.3

作者背景:

计算机科学与数值分析系

所用方法: 神经网络ANN, 优化网络的遗传算法, 针对类别不平衡对遗传算法和梯度下降调整, 有序情况的代价函数, 动态加权进化(其中动态加权与集成学习boosting的思想相似: 为了让 EA 专注于有更多问题需要正确分类的类。权重可以被视为一种进化（或动态）成本，它将迫使错误分类的类（无论它可能多么小）对适应度函数产生强烈影响。)

摘要

输入

donor, recipiend and surgery characteristics(供体, 受体, 手术3者的信息, 即受体的严重程度+供受体的匹配程度);

输出

the probability of organ survival at different thresholds for each donor–recipient pair considered (预测每个供体 - 受体对在不同阈值下的器官存活概率)

方法

dynamically weighted evolutionary algorithm (动态加权进化算法)-缓解不平衡性, 强调最差的分类损失

Ordinal over-sampling (有序过采样)-对少数类添加虚拟点(virtual patterns), 使训练集平衡, 改进分类器

cost-sensitive evolutionary ordinal artificial neural network (ANN)(代价敏感+进化算法+有序ANN) -有序多分类问题

数据

7 different Spanish hospitals and the King's College Hospital (United Kingdom)7家医院

随访患者状态12个月

预测不同阈值下的器官存活率: 少于15天，15至90天，90至365天至365天以上. 其中超过85%的案例属于最后一类, 不平衡.

结果

能够正确预测超过73%的移植结果，灵敏度的几何平均值为31.46%，远高于终末期肝病等模型

主要贡献

提出代价敏感进化算法与过采样相结合

同通讯单位同项目论文

上面是这篇的改进

多目标进化(MOEA)人工神经网络

预测肝移植后的患者生存率->器官分配

Predicting patient survival after liver transplantation using evolutionary multi-objective artificial neural networks

2013.5

https://www.sciencedirect.com/science/article/pii/S0933365713000122

领域知识比较丰富, 比较医学统计模型效果

为获得器官的最佳分配, 使用供体，受体和移植器官的特征来确定移植物存活率

数据:

11家西班牙医院

对11个西班牙肝移植单位进行了多中心回顾性分析，该分析基于2007年1月1日至2008年12月31日期间进行的所有连续肝移植。我们纳入了所有18岁或以上的移植受者。移植时报告了受体和供体特征。接受部分，分裂或活体肝移植的患者以及接受联合或多内脏移植的患者被排除在研究之外。所有患者从移植之日起进行随访，直到死亡，移植物丢失或肝移植后三个月完成。肝移植单位分布在西班牙各地。

对于每个供体 - 受体对，总共报告了16个受体特征，20个供体特征和3个移植因子（受体，供体和移植因子的特征可以在第4.4.1节中看到）。ANN建模的终点变量是三个月的移植物死亡率。最初共纳入1031例肝移植，1003例肝移植期完成随访。由于缺乏移植物生存数据，共有28例被排除在外。

提到医学方面统计模型:

Child [4]提出了Child-Turcotte-Pugh（CTP）评分，用于评估患者肝病的严重程度。

冯[5]提出了一个供体风险指数（DRI），目的是建立与供体特征的各种组合相关的定量风险

Rana等人[7]设计了一种评分系统（SOFT），可以预测肝移植后三个月的受者生存率

CTP、DRI、MELD评分和SOFT评分均基于Logistic回归分析

方法

径向基函数神经网络

训练算法多目标遗传算法-MPENSGA2算法(memetic Pareto进化非支配排序遗传算法2）

评价指标: 准确度accuracy, 以及最小灵敏度度量MS(minimum sensitivity)

结果

多目标进化算法出比单目标算法性能好， MS=48.98, AUC=0.5659

3. 机器学习胸腔移植预后分析

A machine learning-based approach to prognostic analysis of thoracic transplantations

2010.5

机器学习的方法, 对胸腔移植患者预测生存时间

https://doi.org/10.1016/j.artmed.2010.01.002

作者背景:

工业工程与管理学院

摘要

输入

通过特征选择方法确定

输出

survival time estimation生存时间

方法

机器学习(非线性, 传统模型为线性)

特征选择(确定与生存时间最相关因素)：

（1）对机器学习方法得到的模型进行敏感性分析sensitivity analysis,

（2）从已发表的文献中提取变量，

（3）从医学专家和其他特定领域的知识库中获得变量medical experts and other domain specific knowledge bases

回归模型构建:

然后使用一组统一的因子来构建(develop) Cox 回归模型和相关预后指数(prognosis indices).

聚类确定风险组数:

基于Cox回归模型的结果，对基于聚类的算法(clustering algorithm-based)和传统风险分组技术进行了比较，以确定胸部接受者的最佳风险组数(optimal number of risk groups)。

验证簇区别:

进行Kaplan-Meier生存分析，以验证已确定的各种风险群体之间的区别(discrimination)

数据

thoracic 移植数据集 (obtained from the United Network for Organ Sharing—UNOS)

结果

预测生存时间:

径向基核函数的SVM模型R^2=0.879，神经网络R^2= 0.847，基于 M5 算法的回归树R^2=0.785

确定变量, 构建Cox survival model

使用Cox survival model得到的预后指标以及k-means聚类算法，风险组识别的最佳数量=3. 并且验证了不同的风险组之间有显著的差异.

主要贡献

在创建Cox survival 模型时, 用集成机器学习(integrated machine learning)选择变量比传统方法更有效

4. 用遗传算法和分布预测算法做特征选择, 预测TIPS治疗肝硬化患者生存率

Feature subset selection by genetic algorithms and estimation of distribution algorithms: A case study in the survival of cirrhotic patients treated with TIPS

https://www.sciencedirect.com/science/article/pii/S0933365701000859

2001.10

医学(通讯计算机与AI)

摘要

transjugular intrahepatic portosystemic shunt（TIPS经颈静脉的肝内的门体静脉分流术）:肝硬化伴随门静脉高压患者的介入治疗

输入

特征子集选择算法得到

输出

预测用TIPS治疗的肝硬化患者生存率

方法

4*有监督机器学习二分类器

特征子集选择feature subset selection (FSS) 提高预测准确率, 减少特征维度.

数据

临床数据库clinical database 107样本, 77个特征

结果

FSS中的FSS-TREE(随机算法randomized algorithm, 由 EDA (分布估计算法estimation of distribution algorithm) paradigm启发)效果最好

5. 在重症监护病房使用数据挖掘，通过不良事件对器官衰竭进行评级

Rating organ failure via adverse events using data mining in the intensive care unit

https://www.sciencedirect.com/science/article/pii/S0933365708000390

2008.7

医学(通讯信息系统)

摘要

重症监护病房(ICU)的主要目标是通过及时干预来避免或扭转器官衰竭过程。在这种情况下，及早识别器官损伤是一个关键问题。评分方法: 器官衰竭评估sequential organ failure assessment (SOFA).

输入

病例组合(即年龄、诊断、入院类型和入院时间)

四个临床生理变量bedside physiologic variables (即收缩压、心率、脉搏血氧饱和度和尿量)定义的不良事件

输出

六个器官系统(呼吸、凝血、肝脏、心血管、神经和肾脏)的状态(即正常、功能障碍或衰竭)，由SOFA评分来衡量.

方法

多项Logistic回归(MLR)

人工神经网络(ANN)

20次5折交叉验证

评估指标ROC曲线和Brier score

数据

ICU的25215份每日记录

结果

神经网络的性能最好

ROC曲线下面积均值分别为64%、69%和74%，Brier评分均值分别为0.18、0.16和0.09

特别是对肾功能衰竭的预测效果非常好(ROC曲线面积为76%，Brier评分为0.06)

中间结果(来自bedside monitored数据的)不良事件有重要作用，有助于识别ICU期间器官功能障碍和衰竭

6.模糊分类+进化算法->预测(多目标优化避免单目标丢失信息)

Multi-objective evolutionary algorithms for fuzzy classification in

survival prediction

生存/死亡率预测

https://www.sciencedirect.com/science/article/pii/S0933365713001668

2014.3

计算机

方法: 多目标进化MOEA

摘要

用于严重烧伤患者的生存/死亡预测

创新

提出一种新的基于规则的模糊(fuzzy)分类方法

(1)对患者数据集进行多目标约束优化(multi-objective constrained optimization)，使用基于Pareto的多目标进化(elitist multi-objective evolutionary)算法，在可解释性约束下最大化分类器的准确性和最小化分类器的复杂性(规则数量)；这一步产生一组可选的(Pareto)分类器；

(2)语言(linguistic)标注，为每个模糊的分类器集分配一个语言(linguistic)标签；这一步对分类器的可解释性至关重要；

(3)决策。如果没有令决策者满意的分类器，则该过程使用不同的输入参数集在步骤(1)中再次开始。

方法

三种多目标进化算法:

niched pre-selection multi-objective algorithm, elitist Pareto-based multi-objective evolutionary algorithm for diversity reinforcement (ENORA) and the non-dominated sorting genetic algorithm (NSGA-II)

多目标交叉验证, 评价指标: hypervolume multi-objective metric

数据

来自重症监护烧伤病房的患者数据集和来自标准机器学习库的标准机器学习数据集

结果

改进了其他非进化技术(决策树、人工神经网络、朴素贝叶斯和基于案例的推理)所获得的分类率，用Enora获得了0.9298的分类率(classification rate)、0.9385的特异度(specificity)和0.9364的敏感度(sensitivity)，平均有14.2条可解释的模糊规则

该多目标进化方法是基于实参数优化的非组合进化方法，与文献中已有的基于组合优化的进化方法相比，时间开销显著降低

7. 综述-医学中的进化计算

Evolutionary computation in medicine: an overview

https://www.sciencedirect.com/science/article/pii/S0933365799000470

2000.5

理工学院

概述六种类型的进化算法的基本工作原理：遗传算法、遗传编程、进化策略、进化编程、分类器系统和混合系统

描述进化算法如何应用于解决医学问题，包括诊断、预测、成像、信号处理、规划和调度。最后，我们提供了一个广泛的参考书目，根据所处理的医学任务和所使用的进化技术进行分类

在下一节中，我们描述了六种进化算法的基本工作原理：遗传算法，遗传编程，进化策略，进化编程，分类器系统和混合系统。因此，第2节为不熟悉该方法的读者简要总结了进化计算的工作原理。然后，第3节描述了如何应用进化算法来解决医疗问题，包括诊断，预后，成像，信号处理，计划和调度。最后，第4节提供了广泛的参考书目，根据所处理的医疗任务和使用的进化技术进行分类。

并发症预测Complication Predicting

	论文主题	论文发表时间	作者背景	被引
1	神经网络+集成学习预测肺切除后心脏并发症发病率 Prediction of postoperative morbidity after lung resection using an artificial neural network ensemble	2004	医学	50
2	对多元时间序列做特征选择, 预测抗生素抗药性 Feature selection based multivariate time series forecasting: An application to antibiotic resistance outbreaks prediction	2020	计算机AI与知识工程	14
3	预测重症监护病房胃肠道出血患者的实验室值：关于合并症和药物影响的比较研究 Predicting lab values for gastrointestinal bleeding patients in the intensive care unit: A comparative study on the impact of comorbidities and medications	2019	计算机工程	0
4	~~基于多模态张量的方法，用于术后心脏护理过程中的综合和连续患者监测~~	~~2021~~
5	应用不规则和不平衡的数据，使用可视化和特征选择方法预测糖尿病 Application of irregular and unbalanced data to predict diabetic nephropathy using visualization and feature selection methods	2008.1	生物工程	104
6	重症监护病房的生存率(早期死亡率预测->预测患者是否幸存出院)：基于贝叶斯分类器的预后模型 Survival in the Intensive Care Unit: A prognosis model based on Bayesian classifiers	2021.5	数学系	1
7	利用可解释的深度学习利用复杂的医疗数据进行药物不良事件预测 Exploiting complex medical data with interpretable deep learning for adverse drug event prediction	2020	计算机	4
8	乳腺癌存活率的预测：三种数据挖掘方法的比较 Predicting breast cancer survivability: a comparison of three data mining methods	2005	管理科学与信息系统	1009
9	从少量变量和训练示例中预测重症监护病房患者的生存概率 Predicting the probability of survival in intensive care unit patients from a small number of variables and training examples	2009.1	AI	21
10	预测肺炎死亡率的机器学习方法的评估 An evaluation of machine-learning methods for predicting pneumonia mortality	~~1997.2~~		/
11	基于特征聚类和卷积神经网络的川崎病早期评估中挖掘不完整的临床数据 Mining incomplete clinical data for the early assessment of Kawasaki disease based on feature clustering and convolutional neural networks	2020.5	医学信息(重庆医科大)	4
12	预测ICU住院的每一天的最终住院死亡率 Assessing and combining repeated prognosis of physicians and temporal models in the intensive care	2013.2	医学信息	5
13	动态决策支持图—可视化 ANN 生成的病理状况随时间发展的诊断指示 Dynamic decision support graph–—Visualization of ANN-generated diagnostic indications of pathological conditions developing over time	2008.3	医学信息	4
14	促进急性消化道出血患者管理的决策支持系统 A decision support system to facilitate management of patients with acute gastrointestinal bleeding	2008.3	数学统计(医学共一)	59

1.神经网络+集成学习预测肺切除后心脏并发症发病率

Prediction of postoperative morbidity after lung

resection using an artificial neural

network ensemble

https://www.sciencedirect.com/science/article/pii/S0933365703000599

2004

医学

摘要

使用人工神经网络(ANN)集成模型, 预测肺癌non-small cell lung cancer (NSCLC)肺切除术后心肺并发症

输入

患者性别、年龄、体重指数、缺血性心脏病、心律失常、糖尿病、诱导化疗、切除范围、胸壁切除、围手术期输血、肿瘤分期、forced expiratory volume in 1 s percent(1s内用力呼气量)(FEV1%)、术后预计FEV1%(ppoFEV1%)

输出

各类术后心肺并发症是否发生

方法

集成人工神经网络由100个反向传播网络通过简单的平均方法组合而成

评价指标ROC曲线

数据

489例NSCLC手术病例

训练集348训练神经网络, 141例测试集.

结果

用集成模型预测发病率(ROC曲线下面积)的准确率为0.98

2. 对多元时间序列做特征选择, 预测抗生素抗药性

Feature selection based multivariate time series forecasting: An application

to antibiotic resistance outbreaks prediction

主要贡献如下：包装器特征选择方法的应用，其中搜索策略基于多目标进化算法（MOEA）以及基于回归算法的评估器。特征选择方法的性能是使用均方根误差（RMSE）和平均绝对误差（MAE）性能指标来测量的。

https://www.sciencedirect.com/science/article/pii/S0933365719306608

计算机AI与知识工程

摘要

基于特征选择的时间序列预测问题

输入

由金黄色葡萄球菌甲氧西林敏感和MRSA感染的发病率、流感发病率

+左氧氟沙星和奥司他韦两种抗生素的总治疗天数组成的多变量时间序列

输出

抗药性

方法

特征选择方法wrapper，其中搜索策略基于多目标进化算法(MOEA)，评估器为回归算法

特征选择性能指标: 均方根误差(RMSE)和平均绝对误差(MAE)

预测模型选择: 提出了一种新的多准则决策过程. 利用上述指标以及模型预测线的斜率提前1、2和3步预测来选择

数据

医院University Hospital of Getafe(Spain), 每1月为一组time granularity

结果

最优模型对提前1、2和3步的预测分别有aRMSE=(0.1349，0.1304，0.1325)和AMAE=(0.1003，0.096，0.0987)

3. 预测重症监护病房胃肠道出血患者的实验室值：关于合并症和药物影响的比较研究

Predicting lab values for gastrointestinal bleeding patients in the intensive

care unit: A comparative study on the impact of comorbidities and

medications

https://www.sciencedirect.com/science/article/pii/S0933365717303238

2019

计算机工程

摘要

输入

输出

方法

1. 零阶Takagi-Sugeno模糊模型zero order Takagi-Sugeno fuzzy modeling +有序向前选择方法the sequential forward selection method

2. 在最后的预测阶段之前，使用患者的共病信息(comorbidity information)对患者进行聚类。对于每个聚类，构建药物特征并将其添加到数据中以用于最终的特征选择。

数据

MIMIC-II数据库

结果

虽然根据共病数据对患者进行分组可以改善预测值，但平均而言，结果并没有改善

4. 基于多模态张量的方法，用于术后心脏护理过程中的综合和连续患者监测(用到心电图信号处理)

~~Multimodal tensor-based method for integrative and continuous patient~~

~~monitoring during postoperative cardiac care~~

~~https://www.sciencedirect.com/science/article/pii/S0933365721000257~~

~~2021~~

~~结合显著生理信号和EHR数据的多模态方法来预测血流动力学失代偿的开始。~~

输入

输出

方法

数据

~~心脏手术后康复患者的回顾数据集~~

结果

信号处理技术从生理波形中提取复杂特征，同时采用一种新的基于张量的降维方法对特征空间进行降维。对这些方法进行评估，以预测失代偿开始的不同时间间隔，从失代偿事件发生前半小时到12小时不等。表现最好的模型在半小时和12小时间隔内的AUC值分别为0.87和0.80。这些分析表明，多模态方法可用于开发提前几小时预测不良事件的临床决策支持系统。

5. 应用不规则和不平衡的数据，使用可视化和特征选择方法预测糖尿病肾病

Application of irregular and unbalanced data to predict diabetic nephropathy using visualization and feature selection methods

https://www.sciencedirect.com/science/article/pii/S0933365707001157

2008.1

生物工程

摘要

预测糖尿病肾病的发病时间

输入

输出

方法

风险因素的可视化

Logistic回归、支持向量机等几种分类方法与代价敏感的学习方法

特征选择

数据

不规则和不平衡的糖尿病数据集

292例患者, 184个特征

结果

特征选择得到39个特征，AUC=0.969

相似点

也是机器学习SVM, 数据集也是不平衡, 也特征过多用到特征选择

特征选择:

ReliefF中的一个关键思想是评估每个特征对类间差异和类内相似性的贡献

6. 重症监护病房的生存率：基于贝叶斯分类器的预后模型

Survival in the Intensive Care Unit: A prognosis model based on Bayesian classifiers

https://www.sciencedirect.com/science/article/pii/S0933365721000476

2021.5

数学系

摘要

对死亡风险的评估, 预测患者出院时是否幸存

(A)早期死亡率预测

(B)对高危患者做出更有效的医疗决策

(C)评估新疗法的有效性或检测临床实践中的变化

输入

输出

方法

基于贝叶斯分类器的机器学习分层模型

带权重的平均集成标准构建为五个基本贝叶斯分类器的集成，我们将其命名为集成加权平均(EWA)

数据

真实ICU记录的特征构建

结果

对比其他机器学习模型更好

该方法将置信度水平与所提供的预测相关联, 比使用多数票集成效果更好

7. 利用可解释的深度学习利用复杂的医疗数据进行药物不良事件预测

Exploiting complex medical data with interpretable deep learning for

adverse drug event prediction

https://www.sciencedirect.com/science/article/pii/S0933365719311546

2020 计算机

摘要

预测建模和从病历中提取知识

根据诊断和药物数据预测ADE(不良药物事件)

输入

数值风险和临床文本特征

输出

预测ADE(不良药物事件)

方法

两种最先进的基于医学编码的模型

优化一个可解释的深度学习体系结构(输入特征数值风险和临床文本特征)

数据

模型和大量的电子病历(EPR)数据集(包括诊断、用药和临床文本数据)

结果

已有深度学习方法, 强调时间注意机制和衰变因素，促进医疗代码级解释的同时，包括关于医疗事件发生的新近的高度时间相关的信息。

评估了注意机制对于医学代码级和文本级可解释性的有用性的重要性

8. 预测乳腺癌生存能力：三种数据挖掘方法的比较

Predicting breast cancer survivability:

a comparison of three data mining methods

https://www.sciencedirect.com/science/article/pii/S0933365704001010

2005

管理科学与信息系统

摘要

预测乳腺癌存活率

输入

输出

乳腺癌存活率

方法

人工神经网络和决策树, Logistic回归

10倍交叉验证

数据

超过20万例

结果

决策树(C5)的预测准确率最高，为93.6%

人工神经网络次之，准确率为91.2%，

Logistic回归模型最差，准确率为89.2%。

9. 从少量变量和训练示例中预测重症监护病房患者的生存概率

Predicting the probability of survival in intensive

care unit patients from a small number of variables

and training examples

https://www.sciencedirect.com/science/article/pii/S0933365708001760

2009.1 AI

摘要

输入

特征选择

输出

预测的评分函数

方法

SVM, Logistic回归

对急性生理学和慢性健康评估(AP AChE，ICU中常用的评分系统)

数据

研究的患者总数为2501人，其中19.83%死亡, 一些样本部分特征可能没有登记

不同环境下对根据信息来源定义的变量组：监测设备、实验室结果以及人口统计学和诊断特征

结果

SVM效果最好

11. 基于特征聚类和卷积神经网络的川崎病早期评估中挖掘不完整的临床数据

Mining incomplete clinical data for the early assessment of Kawasaki disease

based on feature clustering and convolutional neural networks

https://www.sciencedirect.com/science/article/pii/S0933365719307602

2020.5

医学信息(重庆医科大)

摘要

川崎病(KD)是儿童获得性心脏病的主要病因。

输入

输出

早期KD评估

方法

集成特征聚类的方法来实现基于矩阵的表示和卷积神经网络(CNN)的特征提取和融合，以显式地利用多源数据结构

数据

临床数据的不完全(基于群体的缺失)

结果

将缺失数据修补方法与所提出的方法相结合，与一些基准方法相比，具有更高的精度(AUC为0.97)。

我们的研究强调了基于矩阵的特征表示和基于CNN的特征提取用于不完全临床数据挖掘以支持医疗决策的可行性

12. 评估和结合重症监护医生的重复预后和时间模型

Assessing and combining repeated prognosis of physicians and temporal models

in the intensive care

https://www.sciencedirect.com/science/article/pii/S0933365712001133

2013.2

医学信息

摘要

包含时间序列器官衰竭模式的预后模型，以预测重症监护病房(ICU)住院的每一天的最终住院死亡率。

输入

输出

每一天的最终住院死亡率

方法

计算器官衰竭sequential qualitative organ failure (SOFA)评分，并作为二元变量嵌入到三种Logistic回归模型中，从而建立了ICU住院2-7天的预测模型。

A型模型包括入院时病情严重程度评分(SAPSII)和SOFA模式。

B型模型将SOFA得分的平均值、最大值和增量(增量)添加到这些协变量中。

C型模型还包括专家意见中的平均值、最大值和差值(即医生对死亡率的预测)。

数据

结果

与没有主观信息的模型(AUC range over days: 0.78–0.79 vs. 0.71–0.74)和 (Brier得分范围：0.15-0.18比0.16-0.18)相比，医生的辨别能力在统计学上要好得多。

然而，当我们结合两种预测来源时，在C型模型中，我们得出了明显优于单独使用客观和主观模型的识别率和准确性(AUC范围：0.80-0.83；Brier评分范围：0.13-0.16)。

13. 动态决策支持图—可视化 ANN 生成的病理状况随时间发展的诊断指示

https://www.sciencedirect.com/science/article/pii/S0933365707001303

2008.3 医学信息

摘要

ANN决策支持算法在随时间发展的条件下生成的诊断指标的可视化方法

输入

血浆肌红蛋白和肌钙蛋白-I的测量结果

输出

急性心肌梗死预测

方法

首先在两个选定的、在临床上建立的“显示变量”的空间中，计算ANN算法的输出给出的诊断指示, 并以图形表示诊断指标相对应的决策区域。

其次，将这些(通常是生化标记)的时间序列测量结果的轨迹与相应的95%置信区间叠加在决策区域上。这将允许护士或临床医生一目了然地以图形方式掌握诊断指标。

该指标进一步与临床医生已经熟悉的临床变量有关，从而提供了一种解释。该指标的预测值由测量结果与决策边界的接近程度、决策区域的分隔以及通过数值计算的个性化预测值来表示。

数据

结果

通过监测血浆肌红蛋白和肌钙蛋白-I的测量结果，将该方法应用于先前发表的用于急性心肌梗死早期调入和调出的ANN算法

14. 促进急性消化道出血患者管理的决策支持系统

https://www.sciencedirect.com/science/article/pii/S0933365707001315

2008.3 数学统计(医学共一)

摘要

开发一种模型来预测出血来源，并在需要紧急干预(包括内窥镜检查)的急性消化道出血(GIB)患者中风险分层, 确定次序。

输入

临床数据，如出现的体征和症状、人口统计学数据、合并症的存在、实验室数据以及相应的内窥镜诊断和结果

(x)临床表现数据和内窥镜诊断-对应治疗(y)

输出

出血来源预测

方法

人工神经网络(ANN)、支持向量机(SVM)、k近邻、线性判别分析(LDA)、收缩质心(SC)、随机森林(RF)、Logistic回归和Boosting等8个数学模型

性能指标: 标准统计分析和ROC曲线

数据

医院病历数据库中189名急性GIB患者所有可用数据变量

训练集122, 测试集67

结果

随机森林模型效果最好, 准确率约为80%或更高(内窥镜检查的准确率大于75%)。RF的ROC曲线下面积大于0.85。

高维小样本High Dimension and Low Sample Size Data

	论文主题	论文发表时间	作者背景	被引
1	高维异质医学数据的生存分析：特征提取代替特征选择 Survival analysis for high-dimensional, heterogeneous medical data: Exploring feature extraction as an alternative to feature selection	2016.9	计算机辅助医疗(慕尼黑工业大学)	27
2	高维基因数据降维步骤 Clustering of high-dimensional gene expression data with feature filtering methods and diffusion maps	2010.3	计算机	47
3	缺失数据插补 Clustering of high-dimensional gene expression data with feature filtering methods and diffusion maps	2022.1	计算机	47
4	不平衡数据过采样 Overly optimistic prediction results on imbalanced data: a case study of flaws and benefits when applying over-sampling	2021.1	医学(通讯计算机)	22
5	2维convex hulls的分类算法 A model-free ensemble method for class prediction with application to biomedical decision making	2009.7	生物统计学	13
6	不平衡数据集预测脑卒中 A hybrid machine learning approach to cerebral stroke prediction based on imbalanced medical dataset	2019.11	自动化(清华)	32

1. 高维异质医学数据的生存分析：特征提取代替特征选择

Survival analysis for high-dimensional, heterogeneous medical data: Exploring feature extraction as an alternative to feature selection

https://www.sciencedirect.com/science/article/pii/S0933365716300653

2016.9

计算机辅助医疗(慕尼黑工业大学)

摘要

生存分析survival analysis: 不良事件发生前的时间

电子健康记录数据特点：

(1)患者记录由高维特征向量组成，需要特征选择和特征提取

(2)特征向量是分类特征和实值特征的混合，这意味着不同特征之间的统计特性不同。

输入

输出

方法

研究了特征提取方法: multiview spectral embedding algorithms

使用随机生存森林来从右删失的生存数据中准确地确定局部邻域关系

10种特征提取方法的组合和6种具有/不具有固有特征选择的模型

数据

3个临床数据集

结果

对于小样本量(少于500名患者)，内置特征选择的模型(带有惩罚的Cox模型、随机生存森林模型和梯度增强模型)在协调性指数(四分位数范围)方面比特征提取方法的中位数优势为6.3%

对于小样本量，首选具有内置特征选择的模型。

对于大样本量，特征提取方法的执行相当

如果样本数量不足，特征提取方法就无法可靠地识别底层流形，这使得它们在这些情况下的使用有限。对于大样本量 - 在我们的实验中，2500个或更多样本 - 特征提取方法与特征选择方法一样有效。

2.高维基因数据降维步骤

Clustering of high-dimensional gene expression data with feature filtering

methods and diffusion maps

https://www.sciencedirect.com/science/article/pii/S0933365709001006

2010.3 计算机

摘要

输入

输出

方法

层次聚类算法和K-Means算法, 模糊ART神经网络聚类

使用两步法对基因表达数据进行降维

首先，根据基因表达水平的统计特征提取基因子集。

然后，为了进一步降维，我们采用扩散映射，将马尔可夫矩阵的特征函数解释为原始数据集上的坐标系，以获得数据几何描述的有效表示。

最后，将模糊ART神经网络聚类理论应用于所得到的数据，以生成癌症样本的聚类。

数据

小型圆形蓝细胞肿瘤数据集

结果

与层次聚类算法和K-Means算法相比，本文提出的方法能够有效地识别不同的癌症类型，并生成高质量的癌症样本聚类。

3.缺失数据插补

https://www.sciencedirect.com/science/article/pii/S0933365721002074

Clustering of high-dimensional gene expression data with feature filtering

methods and diffusion maps

2022.1

计算机

摘要

输入

输出

方法

层次聚类算法和K-Means算法, 模糊ART神经网络聚类

使用两步法对基因表达数据进行降维

首先，根据基因表达水平的统计特征提取基因子集。

然后，为了进一步降维，我们采用扩散映射，将马尔可夫矩阵的特征函数解释为原始数据集上的坐标系，以获得数据几何描述的有效表示。

最后，将模糊ART神经网络聚类理论应用于所得到的数据，以生成癌症样本的聚类。

数据

癌症样本

结果

对称不确定性和 L2 正则化回归以识别插补值。

深度学习保留了数据集的全局结构，聚类分析保留了局部结构。

4.不平衡数据过采样

Overly optimistic prediction results on imbalanced data: a case study of flaws and benefits when applying over-sampling

https://www.sciencedirect.com/science/article/pii/S0933365720312525

2021.1

医学(通讯计算机)

摘要

输入

输出

方法

数据

结果

从子宫电图electrohysterography记录中提取的信息可评估早产风险, 以区分将使用公共资源(称为长期/早产子宫电图数据库)分娩的患者的记录。

方法缺陷：在将数据划分训练集和测试集之前过采样。

评估了在数据分割之前应用过采样对预测性能的实际影响

5. 2维convex hulls的分类算法, 不担心维度爆炸

A model-free ensemble method for class prediction

with application to biomedical decision making

分类预测的无模型集成

https://www.sciencedirect.com/science/article/pii/S0933365708001759

2009.7

生物统计学

摘要

提出了一种利用训练集样本的二维凸壳进行分类的算法

对于每对预测变量，在训练集中分别形成正样本和负样本的凸壳，并利用这些凸壳根据最近邻准则对测试点进行分类。

通过将从m个预测器导出的mC2个可能的分类器修剪成仅包括唯一预测器变量的一组分类器，形成这些二维凸壳分类器的集合。

利用集成投票的能力，将具有唯一性的二维分类器的分类组合在一起，得到最终的分类结果。

输入

输出

方法

利用训练集样本的二维凸壳进行分类

数据

三个具有基因组预测因子的公开可用的生物医学数据集

结果

6.不平衡数据集预测脑卒中

A hybrid machine learning approach to cerebral stroke prediction based on imbalanced medical dataset

https://www.sciencedirect.com/science/article/pii/S0933365719302295

2019.11 自动化(清华)

在线学习+训练集加权+验证集损失优化模型参数(训练时优化用验证集损失真的没问题吗? 之后还有测试集吗)

摘要

基于不完备和类别不平衡的生理指标监测的数据, 预测脑卒中

输入

输出

预测脑卒中

方法

首先，在分类前采用随机森林回归方法对缺失值进行补缺。

其次，将基于深度神经网络(DNN)的自动超参数优化算法(AutoHPO)应用于不平衡数据集上的中风预测。

数据

医学数据集包含43,400条潜在患者的记录，其中包括783次中风

结果

预测方法的假阴性率只有19.1%，与其他传统方法相比平均降低了51.5%。该方法预测的假阳性率为33.1%，准确率为71.6%，灵敏度为67.4%