基于机器学习的原发性高血压心血管风险预后模型

摘要：

目的筛选原发性高血压心血管风险的中西医预后危险因素，构建基于血管功能、中医证候的原发性高血压预后的最优预测模型。方法以前期建立的高血压队列人群中原发性高血压患者为研究对象，采集人口社会学资料、病情病史特征、实验室指标、血管功能及心功能检查指标、中医证候等相关基线指标，随访心血管风险的发生情况。使用比例风险模型单因素、多因素分析及共线性诊断初步确定高血压心血管风险的中西医预后模型的纳入变量。筛选的病例按7∶3的比例随机划分为训练集和测试集，基于训练集使用随机森林算法建立原发性高血压的预后预测模型，利用测试集评价预后模型的预测效能，分别使用决策树、随机森林、支持向量机和人工神经网络算法建立原发性高血压的预后预测模型，以测试集评估并对比4种预后预测模型的预测效能，评估并建立具有较好预测能力的模型。结果纳入985例病例中有284例出现心血管风险。COX回归单因素、多因素分析及共线性诊断确定18个变量纳入预后模型变量。变量包括：一般资料[病程、性别、早发心血管病家族史、体重指数(BMI)、饮食习惯]、实验室指标[糖代谢异常、脂代谢异常、血同型半胱氨酸(Hcy)]、血管功能指标[平均踝臂压指数(ABI)、平均动脉压、颈股脉搏波传导速度(cfPWV)、血流介导的血管舒张功能(FMD)]、中医证候(头晕、头痛、气虚血瘀证、阴虚阳亢证、肝肾阴虚证、阴阳两虚证)。基于这18个建模变量，分别通过决策树、随机森林、支持向量机和人工神经网络算法构建4个原发性高血压的预后预测模型。通过混淆矩阵评估4种算法对训练集的数据解析能力，发现基于相同变量的情况下，人工BP神经网络的错误率最低(19.1%),其次为支持向量机(24.2%),决策树(28.7%)和随机森林(28.7%)并列最差。测试集带入模型，支持向量机错误率最低(26.5%),其次为随机森林(28.2%)和决策树(28.9%),错误率最高的是人工BP神经网络(30.9%)。因而，基于相同变量情况下，4种模型中支持向量机的预测效能最好，其次为随机森林和决策树，预测效能最差的是人工BP神经网络。结论基于血管功能、中医证候构建原发性高血压模型心血管风险预后模型有较好的应用，使用机器学习可以对高血压心血管风险进行初步判定。该模型构建中支持向量机的预测效能较好。

关键词:原发性高血压;血管功能;中医证候;预后模型;

Prognostic model of cardiovascular risk in essential hypertension based on machine learning

CUI Wei-Feng LIN Ping LIU Xiao-Xiao

Henan Institute of TCM

Abstract：

Objective To screen the prognostic risk factors of traditional Chinese and Western medicine for the cardiovascular risk of essential hypertension(EH), evaluate and establish a prognosis prediction model for EH, with a view to construct the optimal prognosis of EH based on machine learning of vascular function and traditional Chinese medicine(TCM) syndromes.Methods The previously established hypertension cohort with EH patients were selected, and the demographic and sociological data, medical history and characteristics, laboratory indicators, vascular function and cardiac function examination indicators were obtained. TCM syndromes and other relevant baselines were collected. The follow-up was conducted to observe the cardiovascular risk. The proportional hazard model single factor analysis, multivariate analysis and collinearity diagnosis were used to initially determine the included variables of the prognosis model of Chinese and Western medicine for the cardiovascular risk of EH. The selected cases were randomly divided into training set and test set according to the ratio of 7∶3. Based on the training set, the random forest algorithm was used to establish the prognosis prediction model of EH, and the test set was used to evaluate the prediction performance of the prognosis model. Tree, random forest, support vector machine and artificial neural network algorithm were adopted to establish the prognosis prediction model of EH, evaluate and compare the prediction performance of the four prognosis prediction models with the test set, evaluate and establish a model with better prediction ability. Results 985 cases were completed and 284 patients had cardiovascular risk. The single factor, multifactor analysis and colinear diagnosis of COX regression determined 18 variables incorporated into the prognostic model variables. Variables include: general data(course, sex, family history of early cardiovascular disease, BMI), laboratory indicators(abnormal glucose metabolism, abnormal lipid metabolism, Hcy), vascular function indicators(average ABI, average arterial pressure, cfPWV, FMD), TCM syndrome(dizziness, headache, Qi deficiency blood stasis syndrome, Yin deficiency and Yang hyperactivity syndrome, liver and kidney Yin deficiency syndrome, Yin and Yang deficiency syndrome). Based on these 18 modeling variables, four prognostic models of EH were constructed by decision tree, random forest, support vector machine and artificial neural network algorithm. The confusing the matrix was used to evaluate the data resolution of the training set of four algorithms, the error rate of artificial BP neural networks was the lowest(19.1%) based on the same variable, followed by that of support vector machines(24.2%); that of decision tree and random forests were the worst(both 28.7%). The test set was introduced into the model, with the lowest error rate of the support vector machine(26.5%), followed by random forests(28.2%) and decision trees(28.9%), and the highest error rate was the artificial BP neural network(30.9%). Therefore, based on the same variables, the prediction performance of support vector machines was best in the four models, followed by random forests and decision trees, and the worst prediction performance was artificial BP neural networks.Conclusions The cardiovascular risk prognostic model based on vascular function and TCM syndrome has a good application. Machine learning can be used to determine the cardiovascular risk of EH. The prediction performance of support vector machine is better in this model.

Keyword：

Essential hypertension(EH); Prognostic risk factors; Vascular function; TCM syndrome; Prognostic model;

高血压发病率逐年上升，其并发症具有较高的致残、致死率，已成为影响全球疾病负担的首要危险因素[1]。高血压最常见的并发症是心、脑、肾等靶器官的损伤，其中又以心血管疾病最为常见[2]。目前关于原发性高血压预后危险因素的研究有很多，但缺少中医临床表现、中医证型等中医证候相关信息。目前临床研究中大多以血压及症状等指标为效应指标，对于评判预后更有意义的心脑血管终点事件等结局指标缺乏研究[3,4]。预测模型研究多以线性关系预测模型为主，尚未建立基于复杂关系的预后模型方法。本研究纳入血管功能评价及中医元素探索建立基于人工神经网络的原发性高血压心血管风险预后模型。本研究结果能够对高血压预后进行全面评估，提供更为准确的预后预判，有助于临床工作者向患者及家属提供更为精准的预后信息、为临床原发性高血压心血管的防治及决策提供依据，并可探索建立预后模型构建的方法学。

1 资料和方法

1.1 研究对象

于2001～2016年在全国高血压中医诊疗中心建立高血压队列人群，选取其中原发性高血压患者为研究对象。纳入标准：①符合原发性高血压诊断标准；②年龄在18岁以上；③病程在5年以上；④可以接受随访。采用调查表完成基线的采集和随访，基线采集包括年龄、性别、病程、有无早发心血管病家族史、身高、体重、腰围、臀围、吸烟史、饮酒史、情绪、睡眠、饮食习惯、运动量、总胆固醇(TC)、三酰甘油(TG)、高密度蛋白胆固醇(HDL-C)、低密度脂蛋白胆固醇(LDL-C);血糖：空腹血糖、餐后2 h血糖、糖化血红蛋白、空腹血胰岛素；电解质：钾(K)、钠(Na);肾功：尿素氮、肌酐、尿酸；血同型半胱氨酸、颈股脉搏波传导速度(cfPWV)、颈桡脉搏波传导速度(crPWV)、踝肱脉搏波传导速度(baPWV)、踝臂压指数(ABI)等；血管内皮功能检测：血流介导的血管舒张功能(FMD)、中心动脉压；心功能检查：左室后壁厚度、室间隔厚度，左室射血分数(EF)、左室舒张末期内径；头晕、头痛、心悸、心慌、易怒、耳鸣、口干苦、面红、失眠、水肿；辩证结果。随访时间为2015年1月至2016年12月。随访主要心血事件发生情况及时间。主要心血管事件包括：脑血管死亡、脑梗死、脑出血、心肌梗死。

1.2 统计学方法

分别采用R语言进行统计分析。计量资料符合正态分布的使用均数±标准差表示，进行独立样本t检验；不符合正态分布则用中位数(四分位间距)表示，采用秩和检验进行分析。计数资料的构成比使用频数(百分数)表示，使用χ2检验或Fisher确切概率法进行分析。使用COX回归分析对可能与预后相关的因素进行筛选。以P<0.05为差异具有统计学意义，对筛选后的变量进行共线性诊断，将存在严重共线性的变量进行删减或替换。用R语言将数据按照7∶3的比例随机分成训练集和测试集，使用R语言构建预后预测模型，决策树模型使用“party”包，随机森林模型使用“random Forest”包，支持向量机模型使用“e1071”包，人工神经网络模型使用“nnet”模型。构建预后预测模型，基于训练集的数据将各个变量代入算法进行建模，然后在测试集中验证。模型预测的效力使用混合矩阵评估其准确性。

2 结果

2.1 病例分布情况

共纳入了1 000例原发性高血压患者，剔除无法完成随访的病例后，共有985例进入分析，随访时的平均年龄为(55.82±5.80)岁，平均病程(10.60±4.20)年，有早发心血管病家族史者431例(43.8%),基线血压水平在正常范围内的为280例(28.4%),基线血压水平达高血压1级的有581例(59.9%),2级者95例(9.6%),3级者29例(2.9%)。男性有833例(84.6%),吸烟史者有295例(30.0%),有饮酒史者384例(39.0%);在运动量方面：经常运动427例(43.4%)、有时运动311例(31.6%)、很少运动247例(25.1%);睡眠情况：很好536例(54.4%)、时好时坏293例(29.7%)、较差156例(15.8%);情绪：经常有不良情绪263例(26.7%)、很少有不良情绪430例(43.7%)、几乎无不良情绪292例(29.6%);饮食习惯：高脂肪饮食186例(18.9%)、一般饮食456例(46.3%)、很清淡饮食343例(34.8%)。985例患者经查阅整理病例资料及随访资料，至随访结束时，212例(21.5%)脑梗死，8例(0.8%)脑血管病死亡；26例次(2.6%)脑出血，38例次(1.7%)心肌梗死，合计284例患者发生终点事件。体重指数(BMI):未发生终点事件(26.89±4.31)kg/m2、发生终点事件(26.39±3.63)kg/m2;糖代谢异常：正常719例(73.0%)、异常266例(27.0%);脂代谢正常584例(59.3%)、异常401例(40.7%);血同型半胱氨酸(Hcy): 未发生终点事件(15.67±6.97) μmol/L、发生终点事件(17.18±7.58)μmol/L;平均ABI:未发生终点事件1.15±0.46、发生终点事件1.13±0.09;cfPWV:未发生终点事件(8.88±2.65)m/s、发生终点事件(8.77±2.60 )m/s; 平均动脉压：未发生终点事件(103.98±9.30)mmHg、发生终点事件(100.96±12.13)mmHg; 头晕578例(58.6%);头痛535例(54.3%);气虚血瘀证164例(16.6%);阴虚阳亢证51例(5.2%);肝肾阴虚证207例(21.0%);阴阳两虚证11例(1.1%)。

2.2 确定建模变量

以是否发生心血管风险为因变量，影响心血管风险的因素为自变量构建风险比例模型，经COX单因素、多因素筛选(多因素分析前共线性诊断后对同类变量进行删除或合并),从48个变量中共筛选出13个变量[病程、性别、早发心血管病家族史、BMI、饮食习惯、Hcy、平均ABI、平均动脉压、FMD、气虚血瘀证、阴虚阳亢证、肝肾阴虚证、阴阳两虚证]与心血管风险相关。参考相关文献[5,6]数据并考虑模型的预测全面性及预测能力。糖耐量异常、脂代谢异常、cfPWV均与心、脑血管疾病的发生密切相关，影响原发性高血压患者的预后，高血压首发症状头晕(14.0%)、头痛(6.9%)本研究发生频率较高。最终确定这些变量进入预后模型的变量。对以上18个变量进行共线性诊断，发现这18个变量的容忍度均>0.1,方差膨胀因子均<10,各变量之间不存在共线性。见表1。

2.3 决策树模型

在模型训练方面，混淆矩阵提示决策树模型训练集中的总体错误率为28.7%,说明模型对训练集分类的效果尚可。决策树模型如图1所示。

2.4 随机森林模型

随机森林建模变量的重要程度分析得出BMI、Hcy、平均ABI、平均动脉压等变量对模型的正确率贡献较大，见图2。在模型训练方面，混淆矩阵提示随机森林模型训练集中的总体错误率为28.7%,提示随机森林模型对训练集数据的分析能力尚可。见表2。

2.5 支持向量机

支持向量机同样无法实现计算过程及模型的可视化，构建支持向量机模型后，观察模型对训练集数据的解析，其训练集的混淆矩阵提示总体错误率为24.2%,模型对训练集分类的效果相对较好，预测正确率可达75%以上。见表2。

2.6 人工BP神经网络

BP神经网络模型是目前应用最广泛的神经网络模型之一，能够通过反向传播来不断调整网络的权值和阈值，降低网络模型的误差[2]。本研究中BP神经网络训练集混淆矩阵提示总体错误率为19.1%,模型对训练集分类的效果较好，预测正确率也在80%以上。见表2。

2.7 模型评估与比较

使用测试集数据对4个模型进行评估与对比，具体方法是将测试集数据分别代入4种模型，验证并评估模型对是否发生终点事件的预测能力。结果提示支持向量机对测试集病例是否发生复合终点事件的预测更为准确，其次为随机森林和决策树，而人工BP神经网络的准确性最低。见表3。

3 讨论

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论等多个学科，本质上是研究计算机怎样模拟或实现人类的学习行为，通过训练、学习大量的样本集得出需要的参数或模式，不断调整和改进自身已有的知识结构和性能，是人工智能的核心部分[7]。本研究中所用到的决策树、随机森林、支持向量机和人工神经网络算法均属于机器学习算法，且对数据的分布形式无特殊要求，适用性较广，能够很好地适应临床工作中各种各样的数据形式。

决策树算法是一种树状结构，通常分为两个阶段：决策树的构建和修剪；决策树的每个节点代表一个属性，每个分枝代表它在上一节点属性上的可能取值，通过这种方式构建一种分类规则，每一个根节点到叶的路径都代表了一种分类规则[8]。其优势是能够实现模型推导过程的可视化，便于理解和传播。但其不足之处则是由于建模过程过于简单，导致其对异常值的处理能力不足[9,10]。

随机森林是基于决策树算法的分类器，能够利用多棵树对样本进行训练并预测，最后通过综合多棵决策树的表决结果来进行类别判断[11]。其优势在于能够自动探索对类别具有较大帮助的变量，进而构建出类别差异明显的分类器，对线性和非线性数据均能进行分类[12],适用性较广。其局限性在于难以实现整个森林的可视化，且在处理某些噪声较大的数据集时容易出现过度拟合的情况，因此在使用该算法过程中要注重对变量的筛选。支持向量机通过数据的结构化，将不同类别的数据之间的差异问题转化为空间结构上的距离问题，通过寻找数据结构上的最大距离，从而对数据进行分类，这种维度的转换，可以降低分类的错误，并良好地适应线性和非线性数据，且小样本数据研究中的结果也相当稳健[13]。其优势也就在于善于处理各种维度的数据，并具有良好的泛化能力，拥有多种核算法。其局限则是在处理复杂计算过程或大数据时，需要耗费更多的时间，且经典支持向量机算法只能进行二元分类，面对多元分类问题时需结合其他算法。人工神经网络算法是模仿人类大脑神经系统信号传导结构和相关功能的一种信息处理系统[14]。人工神经网络一般分为输入层、若干隐藏层和输出层，各层包含了大量以某种特定的拓扑结构相连的节点 (或神经元)。每个神经元的传递函数是特定的，具有学习、记忆、概括、归纳等类似人脑的基本特征[15]。其优点在于与多种学科紧密联系，相互促进，并具有一定的容错和容差能力。局限性在于学习时间过长。本研究基于相同变量，分别构建了决策树、随机森林、支持向量机和人工神经网络模型，并对模型的预测效能和稳定性进行了对比，结果显示：基于相同变量条件下，4种模型中支持向量机的预测效能最好，其次为随机森林和决策树，人工神经网络最差。然而，本研究的结果仅仅基于本次研究的数据，用以探索高血压预后预测模型的最优算法，难以外推至其他数据。在实际情况中，每种算法均有其优势和局限性，应根据实际需要选择合适的算法。

本研究虽只是探索阶段，仍有许多不足，但在一定程度上弥补了目前原发性高血压预后研究的不足之处，为其预后模型的构建提供了一种新思路，具有临床参考价值。通过加入动脉功能指标和中医证候，并构建更好的预后预测模型，能够帮助临床医师更好地判断高血压患者预后，为患者提供更科学、更细致的个体化治疗方案，以期改善原发性高血压病的预后。

参考文献

[1] 国家卫生计生委合理用药专家委员会，中国医师协会高血压专业委员会.高血压合理用药指南[J].第2版.中国医学前沿杂志(电子版),2017;9(7):28-126.

[2] 王苏北，施绮，王楠.基于神经网络算法的电力信息系统综合评价实现与应用展望[J].电力与能源，2018;3(5):608-12.

[3] 杨衍涛，马莉，杨晓霞，等.中医药治疗原发性高血压系统评价的再评价[J].中国循证医学杂志，2014;9:1070-6.

[4] 张洋，何建成，唐晓婷，等.高血压病中医证候分布规律及其影响因素研究概述[J].中华中医药学刊，2016;34(3):585-8.

[5] 李吉庆，赵焕宗，宋炳红，等.基于健康管理队列的心血管事件风险预测模型[J].山东大学学报(医学版),2017;55(6):56-60,65.

[6] 邹新亮，郑万香，何国祥，等.基于随机森林算法预测肾病综合征患者的心血管风险[J].重庆医学，2022;51(3):393-7.

[7] 曲诺.基于决策树模型的概念阐述及算法改进[J].中国新通信，2018;20(21):157-8.

[8] 赵学孔，岑磊.面向用户需求的自适应学习系统个性化学习路径推荐研究[J].中国教育信息化，2016;(21):28-31.

[9] Holzinger A.Data mining with decision trees:theory and applications[J].Online Information Rev,2015;39(3):437-8.

[10] 刘广，孙艳秋，裴媛.基于C4.5决策树算法的中医胃炎实验数据分类挖掘研究[J].中华中医药学刊，2016;34(12):2958-61.

[11] Breiman L.Random forest [J].Machine Learning,2001;45:5-32.

[12] Hearst MA,Dumais ST,Osman E,<i>et al</i>.Support vector machines[J].IEEE Intelligent Systems,1998;13(4):18-28.

[13] Andrew AM.An introduction to support vector machines and other kernel-based learning methods[J].Cambridge University Press,2000;18(6):687-9.

[14] 彭驿茹.人工神经网络发展历史与训练算法概述[J].科技传播，2018;10(21):129-30.

[15]张友海浅谈人工神经网络的学习算法[J]电脑知识与技术，2018;14(19):218,220.