医疗数据挖掘的特点过程及方法

1144766066 · 发表于 2020-6-1 19:35:11

The Characteristics, Process and Methods of Medical Data Mining
　　
　　 Hong Hong； Li Lingjuan
　　（南京中医药大学信息技术学院，南京 21004 ）
　　（College of Information and Technology，Nanjing University of Chinese Medicine，Nanjing 21004 ，China）
　　
　　摘要：近年来，医疗数据资料持续爆炸性增长，在治疗技术不断提升的同时也带来了新的问题――数据丰富，知识贫乏。由此，引入了新的处理方式――数据挖掘。医疗数据挖掘面向整个医疗数据库或医疗信息集合，为其提供知识、规则和决策。本文分析了医疗数据的特点和该领域知识获取的特点、步骤及方法。
　　Abstract: Nowadays, with the sustained and explosive growth of medical data , the curative technology was greatly improved but a new problem also emerged: there were rich data but less knowledge. Therefore, the new method of data mining is applied now. Data mining has provided knowledge ,rules and decision for the whole medical database or the integration of medical information. This paper analyzes the characteristics of medical data , the basic steps and methods of getting knowledge in medical data field which has significant meaning for the processing of medical data.
【关键词】：医疗数据数据特点数据挖掘
　　Key words: medical data；the characteristics of data；data mining
　　中图分类号：TP39文献标识码：A文章编号：100 -4311（2011）32-01  -02
　　0引言
　　数据挖掘是未来信息处理的骨干技术之一，它以一种全新的概念改变着人类利用数据的方式。数据挖掘技术在医疗领域的应用有其自身的优势，因为医疗过程中收集到的数据一般是真实可靠、不受其他因素影响的，而且数据集的稳定性较强。这些对挖掘结果的维护、不断提高挖掘模式的质量都是非常有利的条件。[1]
　　1医疗数据特点
　　医疗数据挖掘和其他挖掘领域的不同，一定程度上是由于原数据特性不同而导致的。医疗数据是在对病人的诊断治疗中获得的，包括了与病人的交谈记录，各种医学仪器拍摄的图片，医生的观察说明等。人类是地球上最受关注的物种，其可供观测的一些方面是很难在其他动物研究中得到的，例如视觉、听觉、对疼痛的感知、不舒适和幻觉等[2] [3]。医疗数据挖掘在所有的生物信息数据挖掘中是收获最大但最困难的。动物实验一般是短期的，因此不能追踪观察长期疗效，如对动脉硬化症的疗效，直接使用人类的医疗数据就没有使用动物实验推测到人类医疗时所产生的问题[2]。医疗数据具体特点概括如下：
　　1.1 异构性指医疗数据类型的多样化。医疗数据的类型包括了数值型数据、类别型数据、图像、文字、信号、语音、视频等，所以结构类型众多。[4]这种多模式特性是它区分其他领域数据的最显著特点，并且加大了知识发现的难度，使开发基于医疗数据库的通用软件系统较为复杂。
　　1.2 海量性由于医疗工作自身的特点，如病情观察的不可间断、各种医疗检查结果纷繁复杂以及存有大量的医学文献专著等，导致医疗数据量非常巨大，尤其现在越来越多的医疗单位使用高科技的医学检查设备（如SPEC，MRI，PET等），而这些设备每天都会产生数千兆字节的数据。[2]
　　1.3 数学表征不显著物理学家收集数据后带入公式模型，可以得到较好反应数据间关系的模式，而医疗数据混合了文字、图形等非数值型数据，使得数据挖掘人员并不能很好的找到可以反应数据间联系的模型。
　　1.4 主观性实验和诊断都会带有主观性，也就难以发掘知识。同一个领域的顶尖专家都会对对方的诊断带有异议，这就会难以整合。
　　1.5 标准化危机在医学界，很多基本概念都没有规范，例如一个简单的概念，“结肠腺癌，转移到肝”都有很多的表达形式，再如有的中药有很多别名。
　　1.  伦理性、社会性、法律性包括了数据归属权问题、数据安全问题、法律诉讼问题等[2]。
　　2预处理与统计分析
　　2.1 预处理因为医疗数据库数据量很大，数据结构多样化，且经常不完整，有数据缺失、冗余，用现有的数据挖掘工具不能直接处理它，所以需要进行预处理。
　　数据预处理：是决定整个知识探求成功与否的两个关键性步骤之一，在原数据很繁杂的时候，通常要占去一半的总处理时间。因为待处理数据量很大的话，任何一种数据挖掘算法都很难处理好所有的原数据，这就要求我们对其进行预处理，从而易于发现知识，其主要步骤[5]有：
　　①数据清理：消除噪声、不一致数据；
　　②数据集成：多模式数据源可以组合在一起；
　　③数据选择：从数据源中提取与分析任务相关的数据，从而减少分析数据量；
　　④数据变换：数据变换或统一成适合的挖掘形式，如数据标准化操作等。
　　2.2 统计分析在进行数据挖掘前，可以运用统计分析方法建立初步规律印象。医疗数据的统计分析和动物实验的统计分析有点不一样，如果数据不准确，不符合规划，也不能重新做一个实验组。其具体实现方法可如下：
　　2.2.1 统计分析样本的均值、方差、最大值、最小值等。
　　2.2.2 用二维图表的形式显示各自变量之间、各自变量与应变量之间的关系。其中关系一般指函数关系和相关关系，可以采用回归分析、相关分析和主成分分析等统计分析方法，外还有最邻近技术、Bayesian网络、遗传算法等方法，在实际应用中应根据情况选用适当的方法。
　　3数据挖掘技术
　　3.1 数据挖掘和统计学的联系和对比数据挖掘是统计学的超集，是知识探求成功与否的另一个关键性步骤。它是揭示存储在数据里的模式及数据间的关系的学科，强调对大型数据的处理。统计学是关于数据的采集、整理、分析和推理的学科。数据挖掘和统计分析之间有明显的联系，它们有着共同的目标，就是发现数据间的隐藏关系。
　　中华数据采矿协会会长谢邦昌认为，硬要去区分数据挖掘和统计学的差异其实是没有太大意义[4]。数据挖掘技术的CART、CHAID或模糊计算等算法理论，也都是由统计学者根据统计理论发展衍生，换另一个角度看，数据挖掘有相当大的比重是由高等统计学中的多元统计分析[ ]所支撑。

   和统计分析比较，数据挖掘有下列几项特性：
　　3.1.1 处理大型数据和异构数据具有优势，且不需要非常专业的统计背景。
　　3.1.2 数据挖掘技术不仅涉及统计学分析原理，且还包括数据库管理、人工智能、机器学习、模式识别、以及数据可视化等技术。
　　3.1.3 数据挖掘技术的核心是算法，当然也需要考虑模型和可解释性，但算法及可实现性才是最重要的。它所强调的首先是发现，其次才是解释，因而，数据挖掘并不过分依赖于严格的逻辑推理。
　　3.1.4 数据挖掘技术，比传统统计学更加强调探索性、实践性和灵活性。
　　3.2 医疗数据挖掘的特点医药数据挖掘就是基于医药数据进行知识发现，数据挖掘过程中需要反复和医药学专家或者已有的知识进行交互。医疗数据挖掘的特点研究：
　　3.2.1 快速的、鲁棒的挖掘算法医疗数据库数据量大，结构多样，要在如此海量的数据中提取知识，需要花费比其它数据库更多的时间，因此必须考虑医学数据挖掘的效率问题，需要使用计算速度快的挖掘算法。同时，医学数据库的类型较多，并且又是动态变化的，要求挖掘算法具有一定的容错性和鲁棒性。
　　3.2.2 知识的准确性和可靠性医学数据挖掘的主要目的是为医疗活动和管理提供科学的决策，因此必须保证挖掘出的知识具有较高的准确率和可靠性。首先根据自定的度量标准度量，识别真正需要的模式。数据挖掘系统具有产生数以千计甚至数以百万计的模式或规则的潜力，这就需要从中筛选出真正感兴趣的，真正有用的知识。其次再通过一些机器筛选之后，最后的决策是要由人来提供的。因为对于知识可用性的理解是非常主观的，且在在以生命健康作为赌注的医药领域进行知识发现需要经验丰富的专家来做最后的决策。
　　3.2.3 数据标准化是对医疗数据非标准化的特点的解决方案，把原来的非标准化的数据通过机器，翻译成标准化的数据。数据标准化过程中的一个障碍是，对输入数据的翻译有时不是唯一的，而且现在的翻译系统不能翻译过多的字，这其实也好理解，就算是人，也很难第一次阅读就能理解一个长句子的含义。
　　4医疗数据挖掘方法及应用
　　从上文的数据挖掘的特性和医疗数据挖掘的特点，可以看出，数据挖掘技术很适合应用在医疗领域。可以挖掘的数据模式有――概念描述、频繁模式、分类/预测、聚类分析、离群点分析、演变分析。[5]
　　4.1 人工神经网络人工神经网络算法是一种模仿生物神经网络的算法[1]。其模型是以人工神经元作为基本计算单元，通过神经元的相互连接组成网络。典型神经网络模型主要分为三类：感知机、BP反向传播模型、函数型网络[8]。
　　医药数据具有不完全、不确定、不精确等特性。而神经网络是一种模仿人类神经元的智能计算方法，它可以对非线性、不完全、不确定、不精确的数据进行智能处理。所以，神经网络在处理医药数据时具有良好的容错性、鲁棒性、高精度，能够满足医药数据挖掘模型的精准性要求。但是，由于神经网络是黑箱操作，所以并不易于理解，处理速度也较慢。采用BP神经网络对乳腺的X图像进行分类[9]，运用优化的Kohonen聚类神经网络用于医学图像的分割[10]，还可以利用BP神经网络预测蛋白质的亚细胞定位[11]。
　　4.2 决策树方法决策树是一种类似于流程图的树结构，决策树算法是通过测试每个属性的信息增益，选择最大信息增益的属性作为当前节点的测试属性，并自上而下递归对属性进行划分从而建树的算法。
　　决策树很适宜用来处理分类/预测模式问题，虽然其不属于人工智能算法，但因其类似于医生的思考方式所以很容易被理解而在处理医药领域问题中广泛应用。在医药数据处理中常用的决策树算法有：ID3（Iterative dichotam izer version 3）算法、C4.5算法[5]。决策树算法处理医药数据的过程很容易被医药领域专家理解，可以处理高维的医药数据，对于大量的数据处理速度也依然较快。采用将数据挖掘决策树技术用于慢性胃炎中医证型的分类[12]，用SQL Server 2005中包含的Microsoft决策树算法进行相关性分析和分类[13]，还可以用Matlab建立基于决策树算法的医学图像分类器[14]。
　　4.3 关联规则两个或多个变量的取值之间存在某种规律，如“同时发生”或“从一个对象可以推出另一个对象”就称为关联。关联分析就是挖掘隐藏在数据间的相互关系。其核心方法是基于频繁集理论的递推方法，目的就是要发现医药数据库中满足指定的最小支持度和最小可信度的所有关联规则。经典算法Apriori算法是所有已知关联规则算法的基础。可以解决的模式问题主要有频繁模式和分类模式。适用于药物成分相关性研究和病人病理症状相关性研究等[15]。用Apriori算法研究发现冠心病发病的相关因素[1 ]，用关联规则挖掘算法的建立医学图像分析器[11]，也可以通过优化的关联规则算法计算心脏病患者的基本信息的关联[18]。
　　5结语
　　因为医疗数据本身的特点，医疗数据挖掘和其他领域的数据挖掘是很不一样的。医疗在我们的生活中扮演着特殊的角色，在进行数据挖掘时，数据的异构性和数据缺失等经常会成为处理过程中的埋伏。尽管有很多困难，医疗数据挖掘却能得到最有价值的回报，因为挖掘出的有用知识也许就能延长了病人的生命或解救了病人，这些潜在的回报弥补了道路上的艰辛。
　　参考文献：
　　[1]刘申菊，田丹.浅谈数据挖掘的应用[J].价值工程，2010年3 期，95.
　　[2]Krzysztof J.Cios ，G. William Moore.Uniqueness of Medical Data Mining[J].Artificial Intelligence in Medicine journal，2002.
　　[3]AnnaShillabeer ， JohnF.RoddickReconceptualising interestingness
　　metrics for medical data mining[J].2005.
　　[4]蒋良孝，基于神经网络的医疗数据挖掘研究[J].中国地质大学硕士学位论文，2004年.
　　[5]HAN Jiawei Han，Micheline Kamber.数据挖掘概念与技术[M].机械工业出版社，2001年.
　　[ ]Richard A.Johnson，Dean W.Wichern.Applied Multivariate Statiscal Analysis[M].TSINGHUA UNIVERSITY PRESS，2001.
　　[1]matlab中文论坛.MATLAB神经网络30个案例分析[M].北京航空航天大学出版社，2010年.
　　[8]丛爽.面向MATLAB工具箱的神经网络理论与应用[M].中国科学技术出版社，2003年1月.
　　[9]李利明，李宏.基于数据挖掘的乳腺X线图像分类研究[J].陕西科技大学学报2001年2月，1（25）.
　　[10]傅仁轩，杜干.医学自动分割的神经网络[J].数据采集与处理，1998年12月，13（4）.
　　[11]Zou L，Wang Z， Huang J. Prediction of subcellular lo-calization of eukaryotic proteins using position-specific profiles and neural network with weighted inputs [J].JGenetGenomics，2001，34 （12）∶1080.
　　[12]徐蕾，贺佳.基于信息熵的决策树在慢性胃炎中医辨证中的应用[J].第二军医大学学报，2004年1月，25（9）.
　　[13]李冉冉，卢仿先.决策树算法在基本医疗保险中的应用研究[J].企业技术开发，2008年5月，21（5）.
　　[14]王曙燕，耿国华等.决策树算法在医学图像数据挖掘中的应用[J].西北大学学报（自然科学版），2005年月，35（3）.
　　[15]李文林，赵国平等.关联规则在名医临证经验分析挖掘中的应用[J].南京中医药大学学报，2008年1月，24（1）.
　　[1 ]刘宏强.基于数据挖掘的冠心病发病相关因素研究分析[J].科技资讯，2008年10月.
　　[11]王曙燕，周明全.医学图像的关联规则挖掘方法研究[J].计算机应用，2005年月，25（）.
　　[18]Carlos Ordonez，Cesar A.Santana. Discovering Interesting Association Rules in medical Data[J]，200 .
　　――――――――――――
　　作者简介：洪弘（1988-），女，江苏南通人，硕士研究生，研究方向为数据挖掘技术及其在医药领域的应用；李玲娟（通讯作者）（19 1-），女，陕西宝鸡人，副教授，主要研究方向为数据挖掘。

   转载注明来源:http://www.ybaotk.com

scout · 发表于 2020-6-1 19:35:49

奥鹏论文查重通过率是多少啊，有知道的同学吗？

GinasET · 发表于 2022-3-12 20:24:07

中国医科大学作业可以做吗？

NatoshaInden · 发表于 2022-3-13 01:28:24

甘肃电大形考作业可以做吗？

医疗数据挖掘的特点过程及方法

天涯海角也要找到Ni：医疗数据挖掘的特点过程及方法

相关帖子

浏览过的版块

QQ微信同步：1144766066。

服务

网站

战略合作