临床医学数据的分析方法与利用

　　[摘要]本文使用循证医学方法，对“临床医学数据的分析方法与利用”主题进行取词检索，检索中国生物医学文献、万方、维普、中国知网四大主流中文数据库，纳入相关文献进行分析。从临床数据的分析流程、临床数据的分析方法、数据在医疗领域的利用以及面临的挑战等几个方面展开讨论并加以归纳，为医疗大数据时代的临床数据管理提供参考。

　　[关键词]临床数据；数据分析；数据利用

　　[中图分类号]R19[文献标识码]A[文章编号]1673-7210（2017）12（b）-0163-05

　　随着医疗技术的飞速发展以及医疗大数据时代的到来，面对激增的海量临床数据，临床数据管理的重要性日益凸显。2000年美国公布了《临床研究数据管理规范》，并进行了多次后续修订，该规范对所有临床研究的数据收集流程、不良事件报告、数据质量控制、文件的分类归档以及数据管理培训等进行了明确的规定[1]。1999年我国颁布《药品临床试验管理规范》（goodclinicalpractice，GCP），规定临床试验数据应正确无误并及时地录入分析，确保临床数据质量以及数据的可溯源性[2]。2003年我国GCP参照国际公认原则进行了重新修订，指出“所有涉及数据管理的各种步骤均需记录在案，以便对数据质量及试验实施进行检查”“数据管理应用适当的程序保证数据库的保密性，具有计算机数据库的维护和支持程序”，可更加强调临床数据的可溯源性[3]。2016年，国家颁布《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》，提出健康医疗大数据作为国家重要的基础性战略资源，规范并推动其融合共享，开放应用势在必行[4]。

　　现今对“医疗大数据”的分析方法日新月异，常用的临床数据分析技术涉及到很多学科，包括医学统计学、职业流行病学等，因此如何提取不同类型的临床资料对有用的信息进行分析和利用是临床数据管理的重要命题[5]。

　　1临床数据分析流程

　　临床数据除具有“大数据”的特征外，还具有不完整性、冗余性、非标准化、隐私性、价值高的特点[6-7]。数据采集方式往往使用病例报告表，包括纸质病例报告表和电子病例报告表，前者包含了大量的非结构化数据和半结构化数据，非结构化数据是数据结构或记录格式未经标准化的一种数据形式，通常采用了自然语言录入的方式；半结构化数据是部分结构化了的数据形式，相对于结构化数据，其构成更为复杂和不确定[8]。为了使这两类数据更规范明了且有利于分析统计，需要通过语义分析以及数据提取将非结构化数据或半结构化数据转化成结构化数据[7]。20世纪80年代开始临床数据的采集开始逐步使用电子数據采集系统，方便研究者创建结构化的电子病历系统，通过该系统，患者个体的医疗信息更加一目了然，有利于临床医生对病史进行追根溯源，并能够在此基础上建立临床数据库[1]。

　　临床数据库通过医院信息系统、实验室信息系统、放射信息管理系统及医学影像存档与通讯系统等采集临床数据，囊括患者从入院到出院的所有诊疗信息。通过临床数据库可以构建临床数据中心，医务人员及临床科研人员可以对临床数据进行实时处理，并在数据交换平台实现数据横向或纵向的共享或流动。大规模的医疗数据集成临床数据中心，利用临床数据采集分析软件可以对海量的医疗大数据进行统计学分析、数据挖掘、医学建模，完成临床数据的分析报告和临床研究报告，再通过知识挖掘构建规则库和知识库，有利于临床知识的管理，这样又形成了知识管理的循环链（图1）。另外，现有医院在不断更新临床数据中心的同时又加入“临床数据分析引擎”模块和数据监测环节，当然这也对医院各系统的兼容性提出了更高要求[9]。

　　2数据分析

　　高质量临床数据的获得是临床数据管理的基本要求，临床数据必须是真实可信的，并且必须和研究目的相关，还要适合于统计分析[10]。临床数据分析具体过程可分为采集、导入、统计和分析、数据挖掘。数据挖掘技术包括医疗大数据的预处理、算法（人工神经网络、决策树分析、随机森林算法、聚类分析、贝叶斯算法等）、医学建模、大数据的快速检索与处理、数据安全等。

　　2.1一般统计学分析

　　在临床研究中应用最广泛的是随机对照试验，在数据分析时，不同统计方法对结果的解释也不同，因此通过不同的资料类型选择适当的统计学方法尤为重要。循证医学对随机对照试验所获得的数据进行Meta分析，将主题词加自由词组合，通过循证医学方法在数据库中大范围检索相关文献，将同质性高的文献数据进行合并，计算合并效应量。

　　2.2数据挖掘

　　数据挖掘在研究领域中被称作“数据库中知识的发现”[11]。医学数据挖掘是从大量医学数据中通过各种算法来寻找疾病新规律的过程。数据挖掘技术包涵多种算法，不同样本类型通过不同算法对临床数据进行分类，建立医学模型。大数据的分析需要与计算机技术结合，机器学习就是统计学、算法理论与人工智能结合的一门交叉学科，并在当今无人驾驶技术、人类基因组技术中获得大力发展。

　　人工神经网络算法是模仿大脑神经网络的结构建立的信息处理方法，它的特征是“计算机代码+数学函数”，它的本质是“学习”，将训练数据在一定的“学习规则”中进行学习，获取特征信息和参数后建立人工神经网络，新的数据通过神经网络计算出对应的输出，这就是“感知器学习规则”[12]。例如要评价A家不同医院的医疗水平，可以先用B家医院的数据作为训练数据，医护人员、床位、就诊数量和死亡率5个指标作为输入（X），B家医院建立的知识库作为突出权值（W），经过处理得到输出（Y），经学习后网络会自动处理A家医院的数据（图2）。

　　决策树算法和支持向量机与神经网络算法较相似，都是学习型的机制，是两种常用的数据分类方法。决策树算法通过构建决策树分类器处理不同的数据类型，计算出各特征属性的信息增益后，选取信息增益最大的特征属性作为节点，生成“树状结构”图[13]。当数据量庞大到高通量多指标（如人类基因表达谱）时，提取特征属性越发不易，此时便由决策树算法引申出随机森林法的概念，是基于决策树算法的学习方法，对树的每个节点的特征空间做一次穷尽搜索，将生成的多棵决策树组成随机森林，分类结果按树分类器的投票多少决定[14]；支持向量机是使用核函数将非线性数据投射到一个更高维的空间里即“升维”（从一维到二维，从二维到三维，从n维到n+1维）进行运算，运用泛函的方法可以将极小的样本量推演出全体的数据[15]，支持向量机堪称最有效的数据分类工具[16]。

　　聚类分析属于多元统计分析方法，常用于中医证型的辨证分析，主要分为K均值聚类法和系统聚类法，常用的统计量是距离和相似系数。K均值聚类法是指定某些观测点凝聚为初始点，计算初始分类的中心位置进行聚类，再次计算中心位置并反复循环，直到中心位置很小为止；系统聚类是将样本间距离最小的合并为一类，计算与其他类的距离后再进行最小距离的合并，每次减少一类，直至合并为一大类[17]。

　　贝叶斯算法是建立在概率学的基础上的统计学方法，被称为“统计学历史上的飞跃”，是解释性建模和描述性建模的又一新工具，对疾病数据的研究很有帮助，可以用来表示疾病与相关症状之间关系的概率，形成的贝叶斯网络是一种有向无环图，两个节点间以单箭头连接，其中一个节点是“因”，而另一个节点是“果”（图3）。

　　2.3医学建模

　　医学建模是临床大数据通过数学模型的建立寻找疾病发生发展的规律，即对医学数据进行模式识别，模式识别是将具体事物归到某一类别的过程[18]。一般医学数据有7种模式识别方法：解释性数据建模、描述性建模、预测性建模、知识性建模、序列模式建模、依赖关系建模、异常与趋势建模。

　　解释性模型的本质是模糊建模[19]，通俗地讲就是对事物进行归因分析，找寻一个模糊集合中的共性得出一个普适规律，最具有代表性的应用是指纹和人像识别技术，也应用于医疗决策支持[20]；描述性建模是从许多描述性数据（如身高、体重）入手，从具体到抽象、从特殊到一般地对事物进行归纳和演绎（即身高与体重的关系）；预测性建模是通过整合现有的大数据对未来事件进行预测，最著名的案例是谷歌公司在2009年建立的流感预测平台运用人才思维模型预测流感爆发[21]；知识性建模是利用先验的知识经验来进行新规律的发现，可用于我国中医学中大量古方的数据筛选[22]；序列模式建模和依赖关系建模比较类似，是对多因素中的两组或几组进行分析，得出不同的因素之间是关联、共生还是依赖关系；异常与趋势模型是利用数据的离散值来判读事件发生风险的模型。

　　2.4数据分析软件

　　临床研究中一般统计分析软件有Excel、spss、SAS、Stata、Sigmaplot、GraphpadPrism、Origin等，这些软件不仅支持统计学分析，还带有绘图功能。循证医学常用分析软件有Endnote文獻管理软件、ReviewManager分析软件等。数据挖掘软件中许多是建立在多种计算机语言上的，例如R语言是一个用于统计计算的开源软件，也是提取临床数据的良好工具；建立在SQL语言检索基础上的软件MicrosoftSQLserver，为临床数据模型建立提供科学依据；感知器学习规则中常用到Python语言。SPSS、SAS和Stata除了用于一般统计，也可用于数据挖掘，另外还有Weka软件、Matlab软件等。对于临床工作者而言，SPSS、SAS、Matlab、Weka更为实用。

　　3数据利用

　　美国是世界上最早关注临床数据利用的国家之一，20世纪70年代美国启用医院信息系统，较早开始了医疗信息化，2007年《美国医学信息协会白皮书》指出开展临床研究能促进医疗数据的再利用，2013年《美国医学信息年报》通过调查研究归纳出临床信息学的6类主题，其中包括了临床数据的再利用研究和数据管理[23-25]。目前，临床数据的应用方向是医院临床数据中心与“互联网+”医疗大数据平台的构建。医疗大数据平台的服务对象包括：医务人员、患者、管理者和研究人员。美国作为最早涉及这一领域的国家，建成了第一个也是最大的临床研究和社区治疗项目相结合的医疗大数据平台——美国药物滥用治疗临床试验网络[26]。建设医疗大数据应用平台具体可以应用于数据查询分析、健康档案管理、诊疗方案分析、医疗透明化和健康趋势预测等方面[27]。

　　3.1数据公开

　　建立临床数据中心，将不同数据库的数据在信息交换平台进行整合共享，强调临床数据的公开透明性和可重复性，这有利于临床质量指标的评价和临床数据的溯源，通过挖掘分析，追溯深层原因。临床大数据的共享也便于评价不同医疗机构或地区的医疗服务，有利于调整和优化整体医疗水平。另外，公开临床研究的数据将所涉及的伦理问题遁于无形。

　　3.2决策支持

　　临床数据可以用于临床决策支持和医院管理支持。基于临床数据中心对医院进行数字化建设，使患者的就诊记录、电子病历文档等信息与社区共享，联合医疗物联网以及移动医疗App等技术建立电子健康信息档案，使医生能够根据患病情况、药物疗效、不良反應等做出快速判断，辅助诊断疾病，制订诊疗方案并实行远程干预，同时监视和评价临床治疗效果，并随时调整治疗方案；患者可以通过健康信息档案进行自我健康管理，移动App为患者情况提供用药提醒、异常值预警以及疗效评价等；在优化医院配置方面，管理者可以对就诊量、床位设置或医疗费用的数据进行分析，为医疗设备和人员利用的最大化制订可行性方案；另外，政府机构可以对辖区范围内各家医院进行住院病种指数、住院费用分析以及住院机构病种组合指数等的分析。

　　3.3个体化诊疗和精准医疗

　　个体化诊疗的内涵包括测序技术、生物标志物的开发和药物基因组学的参与。通过这三大核心技术“量体裁衣”，制订具有针对性的临床治疗方案，提高临床治疗效果，促进疾病的早期检测和预防。这就引入了另一个“精准医学”的概念。2015年时任美国总统奥巴马在美国国情咨文中提出“精准医学计划”，将这个在2011年首次被提出的名词推到医学界的热点前沿[28]。医疗机构的海量临床数据中包括丰富的分子生物学、基因组学信息，将这些信息加以提取后应用于临床，使治疗方案更具针对性，将损伤控制在最低，又能达到最佳治疗效果。因此，精准医疗力求治疗方案最大程度地降低患者痛苦，也对医疗资源合理利用提出了更高要求。这与数据的处理、挖掘、整合密不可分，常常需要使用多维度的统计方法和算法。总之，个体化医疗和精准医学将推动预防为主、关口前移的医疗模式的发展。

　　3.4知识库的管理

　　将临床数据进行分析并建立医学数据模型，通过临床数据管理和循证方法构建知识图谱，实现知识挖掘和知识管理的循环，知识库的建立和更新维护有利于积累医疗经验、提供临床辅助诊断、典型案例查询和学习以及临床决策支持等[29]。

　　精准医学研究中更强调了知识库管理的重要性，通过队列研究以及组学分析获得大样本数据，经过标准化构建成知识图谱，有助于信息查找和分析、知识再造和共享，以及疾病诊断和健康管理等方面，更好地应用于科研和临床。

　　4面临的挑战

　　对医疗大数据分析与应用的发展是在曲折中前进的过程。例如，2009年谷歌工程师建立了流感预测平台，用于预测H1N1全美国范围的传播[21]，而2013年science报道了该平台预测的失败，文章提出，到2013年2月，预测得出的全美国流感样症状患者的范围占全国人口的比例几乎是实际值的2倍，有学者分析大数据失败的原因：一为数据来源单一的问题，二为临床数据的公开问题，三为快速更新变化的算法问题，这也代表了当前临床数据分析和利用存在的共性问题[30]。因此要使医疗数据分析更加精准，首先要做好数据源的追踪，数据源是否可靠是分析结果理想与否的关键，其次要根据不同临床数据的资料类型选择统计方法，使用合理的算法来解决当下的临床问题。

　　5总结

　　随着医疗与信息技术的迅速发展，医疗信息的电子化和结构化已在我国各大医院中成为主流。临床数据的合理分析与利用需要以建立临床数据库为前提下，在信息交换平台实现交流，临床数据需要先进行预处理，再使用一般方法或数据挖掘的方法进行数据分析，通过“机器学习”等方法建立医学模型，再将目标数据输入机器中得到输出。这种基于循证医学对临床数据进行分析利用的应用已得到明显成效，前景也更加广阔。

　　作者：姚纯旭等