高血压诊疗系统毕业设计(论文)(编辑修改稿)内容摘要:

及其在中医药研究中的应用 数据挖掘简介 随着 Inter 的不断发展,信息化时代的到来,像超市、保险公司、医疗机构等多个行业积累的数据正在以指数式增长。 数据的存储随着计算机硬件和数据库技术的不断 成熟已经得到了有效解决。 但是面对海量的数据,人们对数据的理解程度在降低,对数据进行准确理解、分析和发现有用的新知识成为各个行业决策者的强烈需求。 比如超市的经营者希望获得哪些商品经常被顾客同时购买,保险公司希望得到购买保险的客户的特征,医疗机构研究人员希望找到影响某种疾病思病率的因素 .随着数据量的不断增长,传统的统计、查询方法都是 对数据进行简单的处理,无法直接提取出这些潜在的有价值的信息。 信息的需求带动了对信息挖掘分析工具的需求,数据挖掘 (Data Mining, DM)技术应运而生。 数据挖掘又称数据库中的知识发现 (Knowledge Discovery in Database, KDD)是通 过仔细分析大量数据提取有意义的新的关系、趋势和模式等新知识的过程。 从商业角度来看,数据挖掘是对既定的业务目标,从大量的企业数据中发现未知的规律或者验证己知的规律,并进一步模型化,从而获得辅助商业决策、解决商业向题的关键数据的方法 .ISL, NCR, DaimlerChrysler 三家公司在 1996 年制定了数据挖掘的交叉产业标准过程 (CRISPDM) ,它强调数据挖掘在商业中的应用,是数据挖掘 应用商业的通用流行标准之一。 数据库系统的参考模型的 如下图 21 所示: 北京科技大学本科生毕业设计(论文) 12 图 21 典型数据挖掘系统的结构 其主要成分有数据库、数据仓库或其它 信息库、数据库或数据仓库服务器、知识库、数据挖掘引擎、模式评估模块、图形用户界面。 数据库、数据仓库和其它信息库 数据库、数据仓库和其它信息库是 进行数据挖掘的数据源,可以在它们的数据上进行数据清理和集成。 数据库或数据仓库服务器 根据用户的数据挖掘要求,数据库或数据仓库服务器负责提取相关的数据。 知识库 用户界面 模式评估 数据挖掘引擎 数据库或数据仓库服务器 数据清理、集成和选择 数据库 数据仓库 万维网 其他信息储存库 知识库 北京科技大学本科生毕业设计(论文) 13 知识库是特定的领域知识,用于指定搜索或评估结果模式的兴趣度。 这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。 数据挖掘引擎 数据挖掘引擎是数据挖掘的最重要的基本部分,由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。 模式评估模块 通常模式评估模块使用兴趣度度量,并与数据挖掘模块交互,以便将搜索 聚集在有趣的模式上。 它可能使用兴趣度闽值过滤发现的模式。 模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。 图形用户界面 图形用户界面在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚集,根据数据挖掘的中间结果进行探索式数据挖掘。 此外,此成分还允许用户浏览数据库和数据仓库模式或数据结构、评估挖掘模式。 从技术角度来讲,数据挖掘是从大量的、真实的、有噪声的、校糊的、不确定的相同或不同的数据集中,提取隐藏的,事前不为人知的但又有用的潜在知识 的过程。 从数据挖掘技术上的定义可以看出,数据挖掘的原始数据必须是大量的真实数据,挖掘出的知识是用户感兴趣的并对用户有价值的数据,用户可以理解、接受并应用这些知识。 数据挖掘是利用区别于传统的统计方法从大量数据集中获取深层次的知识的过程。 挖掘出的知识,可以是概念、规则、规律和约束,这些知识可以用来指导决策者做出正确的决策和预测事物发展的趋势。 从数据中挖掘出有用的知识是一个往复循环的过程,首先要确定合适的挖掘目标,然后抽取所需要的数据,选取相应的挖掘算法进行数据挖掘,最后对生成的知识进行评估,如果对挖掘出的只 是不满足用户的要求,则整个挖掘过程需要退回,重新选取数据,甚至改变挖掘算法,直到满足要求为止。 数据挖掘的步骤如图 22 所示: 北京科技大学本科生毕业设计(论文) 14 图 22 数据挖掘的步骤 数据挖掘的功能概述 数据挖掘的最终目标是描述和预测,描述是规范当前存在的事实,找到数据可理解的一般特征,预测是利用数据库中的历史和当前的已知变量与字段预测未来感兴趣的其他变量或字段的未来的值。 数据挖掘功能可发现多种不同的知识模式,根据发现知识的不同可以从以下 6 个方面描述数据挖掘的功能。 概念描述 :区分和特征化 数据的概念描述 (Concept Description)包括数据区分 (Data Discrimination)和数据的特征化 (Data Characterization)。 数据区分是发现或提取目标数据的某些特征或属性与其他数据的特征或属性相比较,用于描述不同数据之间的区别。 例如,分别提取两张不同疾病的症状,利用这些症状就可以区分这两种疾病。 数据特征化是对口标数据的总体情况的描述,提取数掘的一般特征或特性的汇总。 关联分析 关联分析 (Association Analysis)就是从目标数据中发现数据项之间存在的依赖关系,关联分析又称为关联规则 .关联规则通过找出频繁地在目标数据集中一起出现的数据项问题定义 数据抽取 数据预处理 模式评估 数据挖掘 选择模式 北京科技大学本科生毕业设计(论文) 15 来发现隐藏在不同数据项之间的某种因果关系。 关联规则被广泛地应用到商业领域,通过分析交易数据来指导销售和制定市场决策 .比如人们熟知的“啤酒和尿布”的故事就是从超市的交易数据中分析得出的频繁项集。 分类和预测 分类 (Classification)是指构建一个分类模型或函数,这模型或函数能够把各个数据项映射到预定义的类别。 分类包括模型的创建和模型的使用两个过程。 通过对预先定义的各个类的训练 数据的进行分析,从每个类的训练数据中发现共性得出这个类的描述从而建立分类模型,然后使用分类模型对新的数据进行分类。 分类方法有决策树、分类规则、神经网络、粗糙集等。 例如,根据病人的症状和己建立的疾病分类规则可到定病人患病的种类。 预测 (Prediction)是利用训练数据建立模型,该模型可以获得新输入数据的未来变化的趋势或评估数据的属性值的分布范围。 聚类分析 聚类分析 (Clustering Analysis)是将抽象对象或物理对象的数据集中类似的对象聚合为一类的过程。 每个数据集包括若干个类,各类之间数据 对象相似程度极低,每个类内部的对象相似程度很高。 聚类分析的方法不同于分类预测,分类预侧是在预定义类别的前提下训练数据找出类的总体特征或属性,然后再根据每个类的特征或属性和分类锐型对新加入的数据进行分类,属于有教师监督学习方法 :聚类分析方法直接从数据集中抽象出相似程度高的对象聚合为一类,属于无教师监督的学习方法。 孤立点分析 孤立点 (Outlier)是指与数据的一般行为或模型不一致的数据对象。 大部分的数据挖掘算法都将孤立点视为噪声,在数据预处理阶段就被过滤掉了。 但是罕见或意想不到的事件有时候比正常的事件更 有价值。 比如发现病人对治疗方式的不良反应校式,在欺骗检测中孤立点可能预示着欺骗行为模式。 演变分析 演变分析( Evolution Analysis)是描述事件或对象的行为基于时间或共他序列变化的规律或趋势,并对其建模 .演变分析主要包括序列或周期校式匹配、机遇类似性的数北京科技大学本科生毕业设计(论文) 16 据分析和时间序列数掘分析。 比如,可以利用演变分析方法获得整个股票市场的变化规律,发现的规律可指导股民投资。 数据挖掘技术在中医药研究中的应用 数据挖掘技术只有十多年的发展时间,但其应用十分广泛。 在商业、金融业、工业中都有成功 的应用例子,取得了一定的经济和社会效益。 数据挖掘技术在中医药研究领域中的应用刚刚起步,但己经表现出了很好的势头,目前数据挖掘技术在此领域中的应用主要表现在以下几个方面。 在中医药信息化研究中的应用 对中医药信息进行文本数据挖掘是促进中医药信息结构化的途径之一。 从中医诊断、辨证到组方的各个环节,用文字语言描述的过程占很大比例,使得定性内容相对多一些。 当中医药在实现以计算机技术为主要工具的信息化研究时,这种定性信息的量化常常会遇到相当的困难,即使是原先有量化信息的用药剂量,也因不同中药有效成分含量的差异而失 去了原先的意义。 因此,对以古语言和纯文本为主的中医药理论和实践进行结构化解析是中医药信息化研究的重要内容,其中的某些内容可以通过对文本的数据挖掘技术来实现。 可以采用特征抽取的方法,或者采用聚类的方法描述某些相似病症的内容,找出其中隐含的相似关系。 在中医药专家系统研究中的应用 计算机和人工智能技术在中医药研究中最普遍的应用是各种专家系统,如关幼波肝病专家系统等。 专家系统是一种面向特定对象的决策支持系统 (Decision Support System, DSS),它根据专家对某种疾病的认识及多年积累的治疗 经验,在建立相应知识库的基础上,采用各种推理方法模拟专家进行疾病的诊断和治疗。 对于一个专家系统来说,实际诊断成功与否的关键取决于它的知识库中知识的完备程度,而仅凭中医专家的口授心传和系统设计者的领悟,往往难以满足专家系统知识库的要求,而且相对简单的推理往往也难以体现出人最活跃的主观能动的部分,知识的获取途径和表示方法因此成为限制专北京科技大学本科生毕业设计(论文) 17 家系统发展的瓶颈。 而数据挖掘可以在大量经验中发现隐含的、客观有用的新型知识,这对于丰富专家系统的知识库将起到积极的作用。 在中医药基础理论研究中的应用 数据挖掘不仅在中医药临床 实践中有广泛的应用,也可应用于中医药基础理论的现代化研究中。 如中药药性理论的现代化研究,中药药性理论是中药配伍应用的核心内容之一,其内容完善的程度将直接影响到组方的准确性和治疗的有效性。 中医对于中药药性的认识是一个逐渐积累和完善的过程,至今还存在某些药物的药性不完整的情况,如华山参的药性特征为只有性味而无归经;对于中药的功效归类也因专家对药物认识程度的不同,而导致同一药物分属于不同类别,甚至功效分类名称也不统一的情况。 数据挖掘技术可以在分析大量历史数据的基础上,协助中药药性的完善研究。 如数据挖掘中的分类方法 可以依据药性特征的辨识结果,将一些还未归类的中药进行分类预测。 也可用聚类方法将药味聚类后,根据同类药物的药性相近,归类也应相近的特点进行分类预测。 用决策树和关联规则分析可以自动对药物进行功效分类与其药性特征之间的关联模式或规则研究。 粗糙集理论可以实现对药物分类的简化药性特征研究等。 进行中药药性特征的数据挖掘研究,对中药复方配伍的科学规律研究有着重要意义。 在中药化学研究中的应用 中药发挥作用的物质是其所含的化学成分,在中药中提取有效成分直接用于新药开发或作为先导化合物,经过结构修饰或改造后进行合理药物设 计,然后开发为新药的途径,己成为现代新药开发的热点。 中药化学成分一般较人工合成的成分复杂,具有相同药效的成分往往具有相似的活性基团和比较稳定的活性构象。 因此通过对大量中药化学成分的二维和三维构象分析,以及结构与活性之间关系的分析,进行药效基团的建模研究,并实现对中药化学成分数据库的柔性搜索,为更充分利用中药化学成分提供技术支持。 如利用分子对接技术 (DOCK)在进行受体与配体结合分析的基础上,建立对应结构类型不同配体的构效方程和它们的结合模式。 比较分子力场分析 (COMFA)和定量构效关系 (QSAR)的结合可以 在提取大量分子共同活性结构模式的基础上,揭示出化合物之间的联系和潜在特征以及与生物活性之间的关系,并可实现对成分数据库和活性数据库中有价值信息的挖掘。 北京科技大学本科生毕业设计(论文) 18 在中医医案方面的应用 中医医案在中医药科学中扮演着非常重要的角色,大量的医案散见于文献刊物中,散见于名老中医的案头,他们的学术经验是中医药事业的一笔巨大财富。 但“百花齐放、百家争鸣”的局面使得医案经常出现药味和药量千差万别的情况,无法形成中医在整体上对疾病规律统一的认识。 应用数据挖掘方法对众多中医专家的宝贵经验进行全面整理和挖掘,将会比较全面地获得对中医 药基础理论和临床实践规律的统一的认识。 其中决策树、关联规则和面向属性的归纳方法可以在不同配伍层次 (单味药、药物功效分类等 )上分析药味配伍的模式或规则。 在中医药其他方面的应用 数据挖掘技术不但可以应用到中医药研究中的上述方面,而且在研究中医病证与复方组方的关系、中医症候与现代医学临床表现之间关联的关系以及中医药信息数据仓库的开发研究等方面都可以得到广泛应用。 数据挖掘和传统数据分析工具和学习机器的区别 对于在线分析 OLAP (On Line Analytical Processing),用户 首先建立一个假设,然后用 OLAP 检索数据库来验证这个假设是否正确。 比如一个分析师想找到是什么导致拖欠贷款,他可能先做一个初始假设,认为低收入的人信用也低,然后他可以用 OLAP 来验证他的假设,如果这个假设没有被证实,他可能去查看那些高负债的账户,如果还不行,他可能要把收入和负债一起来考虑,继续进行。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。