ais作为计算智能研究的一个崭新分支(编辑修改稿)内容摘要:

中国图象图形网 第二 章 数据挖掘及相关技术 数据挖掘的相关概念 数据挖掘的定义和特点 数据挖掘 DM(Data Mining)是对数据库中的数据进行一定的处理,从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含的、事先未知的、但又是潜在有用的信息和知识的过程 [1]。 确切地讲, DM是 KDD 过程中的一个步骤, 其处理对象是大量的日常业务数据, 它主要基于人工只能、机器学习、统计学等技术,高度自动化地分析原有的海量数据,做出归纳的推理,从中采掘出潜在的模式,预测未知的行为, 提高信息的利用,改变“人们被数据淹没 ,同时却仍感到知识饥渴”的资源浪费的局面。 KDD 是数据库技术和机器学习两个学科的交叉学科 ,由于 KDD 使用的数据来自于实际的数据库,所要处理的数据量可能很大,因此DM中的学习算法的效率和可扩充性就尤为重要;此外, KDD 所处理的数据由于来自于现实世界,数据的完整性、一致性和正确性都很难保证 ,因此数据预处理也是很有必要的。 数据挖掘的方法 DM 的技术基础包括机器学习、人工智能和统计学。 人工智能是以自动机为手段,通过模拟人类宏观外显的思维行为,从而高效率地解决事实世界问题的科学和技术。 下面介绍数据挖掘 和知识发现的几种常用方法。 1. 人工神经网络( Artificial Neural Networks) 神经网络方法是模拟人脑神经元结构,以 MP 模型和 Hebb 学习规则为基础。 它主要有三种神经网络模型: ( 1)前馈式网络。 它以感知机、反向传播模型、函数型网络为代表,可用于预测、模式识别等方面。 ( 2)反馈式网络。 它以 Hopfield 的离散模型和连续模型为代表,分别用于联想记忆和优化计算。 ( 3)自组织网络。 它以 ART 模型、 Koholon 模型为代表,用于聚类分析等 中国图象图形网 方面。 神经网络的知识体现在网络连接的权值上是一 个分布式矩阵结构;神经网络的学习体现在神经网络权值的逐步计算上包括反复迭代或累加计算。 2. 遗传算法( Geic Algorithms) 遗传算法是模拟生物进化过程的算法,由三个基本算子(或过程)组成: ( 1)选择 ( selection)。 即从一个旧种群(父代)选出生命力强的个体,产生新的种群(后代)的过程。 ( 2)交叉( crossover)。 即对选择的两个不同的个体(染色体)的部分(基因)进行交换,形成新个体的过程。 ( 3)变异( mutation)。 即对某些个体的某些基因进行变异( 0变 1,或 1变 0) ,形成新个体的过程。 这种遗传算法可起到产生优良后代的作用。 这些后代需满足适应值,经过若干代的遗传,将得到满足要求的后代。 遗传算法已在优化计算和分类机器学习方面发挥了显著作用。 3. 决策树方法( Decision Trees) 决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性字段,建立决策树的一个结点,再根据该属性字段的不同取值建立树的分支。 在每个分支集中重复建立树的下层结点和分支的过程。 国际上最早的、也是最有影响的决策树方法是 Quiulan 研究的 ID3 方法 [3]。 决策树方法在 现有的数据挖掘产品中有较为广泛的应用,如 Bussiness Object 公司在它的 OLAP 产品中新增加的一个数据挖掘的模块 Business Miner,其中就采用了一种称为 GINI 的决策数方法。 4. 覆盖正例、排斥反例方法 该方法是利用覆盖所有正例、排斥所有反例的思想来寻找规则。 比较典型的有 Michalski 的 AQ11 方法、洪家荣改进 AQ15 方法,以及洪家荣的 AE5方法。 AQ 系列的核心算法是,在正例集中任选一个种子,到反例集中逐个比较,对字段取值构成的选择子相容则舍去,相斥则保留。 按此思想循环所有正 例种子,将得到正例集的规则。 AE 系列方法是用扩张矩阵来完成的。 5. 粗糙集( Rough Sets) 它将知识理解为对数据的划分,每一被划分的集合称为概念,主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来近似刻划处理。 具体做法是在数据库中,将行元素看成对象,列元素是属性(分为条件属性和决策属性)。 等价关系 R定义为不同对象在某个(或几个)属性上取值相同,这些满足等价关系的对象组成的集合称为该等价关系 R的等价类。 条件属性上的 中国图象图形网 等价类 E与决策属性上的等价类 Y 之间有三种情况:①下近似: Y包含 E;②上近似: Y 和 E的交非空;③无关: Y 和 E的交为空。 对下近似建立确定性规则,对上近似建立不确定性规则(含可信度),对无关情况不存在规则。 6. 数据可视化 (DataVisualization) 对大批数据进行展现也是数据挖掘的重要方面。 就数据可视化系统本身而言,由于数据量很大,很容易使分析人员面对数据不知所措,可视化工具可以通过适当的图形来表示数据,并支持多维数据的可视化,为数据分析人员提供很好的帮助。 有些工具甚至提供动画功能,使用户可以“跨越”数据,观看到数据的不同层次。 该方法对揭示数据的状况、内在本质 及规律性起到了很强的作用。 7. 人工免疫系统模型( Artificial Immune System) 目前 ,AIS 已发展成为计算智能研究的一个崭新的分支,在数据挖掘、机器学习、自动控制、故障诊断等诸多领域 ,显示出 AIS 强大的信息处理和问题求解能力以及广阔的研究前景。 目前 ,由于认识到 AIS 在机器学习与数据挖掘等领域潜在的应用前景 ,AIS 的研究得到了许多大学、研究机构和工业界的重视。 英国Kent 大学的 Timmis[7]对基于 AIS 的机器学习和数据挖掘技术进行了系统性的理论研究 ,并开展了基于 AIS 的大规模数据挖 掘应用研究。 作为计算智能的一个崭新分支 ,AIS 已成为许多国际期刊的重要议题。 在数据挖掘和知识发现中应用的人工智能技术还有邻近搜索方法、规则推理、模糊逻辑、公式发现等等。 数据挖掘的功能 数据挖掘的功能用于指定数据挖掘任务中要找的模式类型。 数据挖掘的任务一般可分为两类:描述和预测。 描述性挖掘任务刻划数据的一般特性。 预测性挖掘任务是在当前数据上进行推断,用以预测。 DM 所能发现的模式类型包括以下四种(根据 IBM 的划分方法):关联分析( Associations);序列模式分析(Sequential Patterns);分类分析 (Classifiers);聚类分析 (Clustering)。 1. 关联分析( Associations) 顾名思义,关联分析的目的就是为了挖掘出隐藏在数据间的相互关系。 关联分析就是给定一组 Item 和一个记录集合,通过分析记录集合,推导出 Item 间的相关性。 该模式侧重于确定数据中不同领域之间的联系,找出满足给定支持度(support)和置信度( confidence)阈值的多个领域之间的依赖关系。 挖掘关联规则是指在数据库组中挖掘出具有这种形式的规则:由于某些事件的发生而引起另外一些 事件的发生。 例如,同时包含 A,B,C,D,E 的 Item 占总的 Item 的百分比称为规则“由 A, B, C推出 D,E”的支持度。 “ 72%包含 Item A, B的记录同时、 中国图象图形网 也包含 Item D 和 E。 ”其中百分比 72 称为规则“包含 Item A, B 和 C 的记录同时也包含 Item D 和 E”的置信度,而 A, B, C则被称为 D, E的对立面。 2. 序列模式分析 (Sequential Patterns) 序列模式分析和关联分析法相似,其目的也是为了挖掘出数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后(因果)关系。 序列模式分析 在关联分析中增加了时间属性。 序列模式分析也可称为时序关联分析。 如第一次购买电脑的顾客中 95%的人同时购买电脑应用软件,此为简单关联,也就是一般的关联分析。 股票“深发展”一上涨,则第二天金融股票上涨的可能性为 85%,这就是时序关联。 由于我们并不知道数据库中数据的关联是否存在精确的关联函数,即使知道也是不确定的,因此生成的规则带有置信度,置信度级别度量了规则的强度。 3. 分类分析 (Classifiers) 假定有一组记录集合和一组标记( TAG),所谓标记是指一组具有不同特征的类别。 分类分析时首先为每一个记录赋 予一个标记,即按标记分类记录,然后检查这些标定的记录,描述出这些记录的特征, 然后再用这些分类的描述或模型来对未知的新的数据进行分类。 这种描述可能是显式的,例如一组规则定义;或者是隐式的,例如一个数学模型或公式。 利用它可以分类新记录,实际上它就是一种模式。 目前,已有很多种分类分析模型得到应用,其中的几种典型模型是线性回归模型、决策树模型、基于规则模型和神经网络模型,贝叶斯信念网络模型。 举一个简单的例子,信用卡公司的数据库中保存着各持卡人的记录,并根据信誉程度(标记),将持卡人分作三类:优,良,中,一般,差。 这一过成程实际就是将持卡人记录标定为五类。 分类分析法检查这些记录,然后给出一个对信誉等级的显式描述:“信誉良的用户是指那些收入在 25000 以上,年龄在 45 到55岁之间,居住在 XYZ地区附近的人士”。 4. 聚类分析 (Clustering) 聚类 又称为无指导的分类 (Unsupervised Classification)。 与分类分析法不同,聚类分析法的输入集是一组未标定的记录,也就是说此时输入的记录还没有进行任何分类。 其目的是根据一定的规则,合理地划分记录集合,并用显式或隐式的方法描述不同的类别。 而所依据的这 些规则是由聚类分析工具定义的。 由于聚类分析可以采用不同的算法,所以对于相同的记录集合可能有不同的划分。 可以看出,许多在分类分析法中适用的算法同样适用于聚类分析。 聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。 上述的四种分法摘自 IBM《 Data Mining 版本 》白皮书。 但基于同样的基本技术, DATAMATION 白皮书将 DM 的方法分为以下四种: 中国图象图形网 ( 1) 预测模型( Predictive Modeling)。 在 DM中是归纳推理。 可以有多种算法实现,包括人工神经网络,规则推理等。 ( 2) 数据库分段 ( Database Segmentation)。 将数据库中的数据自动地分类,包括分类分析和聚类分析。 ( 3) 联系分析( Link Analysis)。 确定数据间的相互关系,包括关联分析和序列分析。 ( 4) 偏差检测( Deviation Segmentation)。 检测并解释数据分类的偏差 为什么有些记录不能归入段( Segmentation)中。 与 IBM 白皮书对 DM 方法的分类相比, DATAMATION 白皮书的分类层次更高,例如数据库分段和联系分析涵盖了分类分析法、聚类分析法、关联分析和序列分析法,而预测模型在 IBM 白皮书 中所列的四种方法中都包含了,只不过在DATAMATION 白皮书中被特别提出来了。 两种分类法最大的差异在于偏差检测,这是 IBM 白皮书中没有列出来的。 数据挖掘结构和步骤 数据挖掘系统的结构 如上所述, DM 的核心技术是人工智能、机器学习、统计等,但一个 DM 系统不是多项技术的简单组合,而是一个完整的整体。 它还需要其他辅助技术的支持,才能完成数据采集、预处理、数据分析、结果表述这一系列任务,最后将分析结果呈现在用户面前。 根据功能,整个 DM 系统可以大致划分为三级结构 ,如下图 数据仓库 数据库文件系统其他数据源OD BC 或其他专用数据库接口知识库用户界面 结果输出关联规则分析序列模式分析分类分析聚类分析 中国图象图形网 图 DM系统的三层结构 数据挖掘系统的步骤 1. 准备( Preparation) 本阶段主要完成数据预处理,包括数据清理,数据集成,数据选择和数据变换。 2. 挖掘( Mining) 数据挖掘器( Data Mining Processor)综合利用前面提到的四种数据挖掘方法分析数据库中的数据。 3. 表述( Presentation) 数据挖掘将获取的信息以便于用户理解和观察的方式反映给用户,这时可以利用可视化工具。 由于用户要求的不同, DM 分析的数据的范围会有所不同,例如分析一年内或三个月内的销售情况,再例如分析东 部地区或西部地区的销售情况,这样的 DM 系统会得出不同的结论。 这些基于不同数据集合的分析结果除了通过可视化工具提供给用户外还可以存储在知识库中,供日后进一步分析和比较。 4. 评价( Assess) 如果分析人员对分析结果不满意,可以递归地执行上述三个过程,直到满意为止。 分类算法的简介和分析 数据挖掘中的分类方法是根据给出数据集的特点构造分类器,利用分类器对已知类别的样本进行分类的一种技术 [35]。 按各种分类算法的技术特点,可将分类算法分为决策树方法、基于统计概率、基于关联规则、基于数据库技术、基于支持向量 机等几类来叙述。 决策树分类 决策树学习算法包。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。