数据挖掘概念与技术引言(编辑修改稿)内容摘要:
关注。 42 生物学方法- 遗传算法 遗传算法的研究与生物进化理论和遗传学密切相关。 生命的基本特征包括生长、繁殖、新陈代谢和遗传与变异。 生命是进化的产物,现代的生物是在长期的进化过程中发展起来的。 达尔文提出了用自然选择来解释生物的进化过程,该学说包括遗传、变异、生存斗争和适者生存三个方面。 生物进化是非常复杂的,它将涉及诸如染色体、脱氧核糖核酸、遗传因子、种群、基因、进化、选择、复制、交叉、变异、编码与解码等许多名词术语,而且许多现象尚无法用现有的进化理论来解释。 43 生物学方法-遗传算法 遗传算法的基本思想:从代表问题的可能潜在解集的一个种群开始,一个种群是由经过基因编码的一定数量的个体组成,每个个体是染色体带有特征的实体,染色体是多个基因的集合,它决定了个体的形状和外部表现;通过模拟基因编码形成初代种群,然后按照适者生存和优胜劣汰的原则逐代演化产生出越来越好的近似解;在每一代,根据问题域中个体的适应度大小进行选择,并借助遗传算子进行组合交叉和变异,从而产生出代表新的解集的种群;以上过程将导致种群象自然进化一样的后代种群比前代种群更加适用于环境,末代种群中的最优个体经过解码可以作为问题的最优近似解。 44 生物学方法- 遗传算法 遗传算法中的三个基本操作: 选择:即通过适应度的计算确定重组或交叉的个体,并确定被选个体将产生多少个子代个体。 交叉:又称为基因重组,即结合来自父代种群中的信息产生新的个体。 变异:即交叉之后子代的基因按小概率扰动所产生的变化。 遗传算法可起到产生优良后代的作用。 这些后代需满足适应值,经过若干代的遗传,将得到满足要求的后代(问题的解)。 遗传算法提供了一种求解复杂系统优化问题的通用框架,它不依赖于问题的具体领域,因此可以应用于函数优化、组合优化、生产调度、自动控制、机器人智能控制、图像处理、模式识别、机器学习、数据挖掘等众多领域。 45 信息论方法 信息论是研究信息的测度及其性质、信息传输和信息处理系统的一般规律的学科分支。 其研究内容主要包括:以编码理论为中心的所谓狭义信息论,它研究信息的测度、信息的容量、信源特性、信源编码、信道和信息系统模型等;信号处理技术,它研究信号和噪音分析、信号的过滤与检测,以及有关理论;以计算机为中心的信息处理技术与理论,例如模式识别、自学习理论、自动机器翻译等。 在数据挖掘中,决策树( decision tree)是一种广泛使用的图解法决策分析工具,它把影响各行动的有关因素(自然状态、概率、损益值等)用树型图表示,可直观形象地表示出各条件和所允许的行动以及各种结果中间的关系。 46 决策树方法 决策树:用树结构表示决策集,这些决策产生规则,用于对数据集进行分类。 决策树的建立:利用训练集生成一个测试函数,根据不同取值建立树的分支,再在每个分支子集中重复建树的分支的过程,即可建立决策树。 然后对决策树进行剪枝处理,即可得到规则。 典型的决策树方法: ID分类回归树( CART)、。 47 集合论方法-约略集 约略集( Rough Set)又称为粗糙集和粗集,是由波兰华沙理工大学 Z . Pawlak教授等提出的研究不完整数据、不精确知识的表达、学习和归纳的理论与方法。 约略集方法与使用统计学方法或模糊集合论方法处理不精确数据的方法不同,它是以对观察和测量所得数据进行分类的能力为基础的,为智能信息处理提供了有效的理论基础和处理技术。 48 集合论方法-约略集 约略集理论是 1982年在 《 计算机与信息科学 》 国际杂志上发表的论文 “ Rough Sets”中首先提出的一个分析数据的数学理论。 在分类的意义下,这个理论定义了模糊性与不确定性的概念,由于最初的研究大多是用波兰文发表的,因此,这项研究在当时并未引起国际计算机学界的重视,研究地域局限在东欧各国。 到了 80年代末,这个理论引起了世界各国学者的注意,人们对约略集理论的主要兴趣在于它恰好反映了人们以不完全信息或知识去处理一些不分明现象的能力,或依据观察、度量到的某些不精确的结果而进行分类数据的能力。 如医学、药学、工业、工程技术、控制系统、社会科学、地球科学、开关电路、图象处理和其他许多方面都已经成功地实现了它的应用。 49 集合论方法-约略集 国际上关于约略集理论和知识发现的会议: 1993年在 Banff, Alberta, Canada举行的 The Int’l Workshop on Rough Sets and Knowledge Discovery 1996年在 University of Tokyo举行的 The Fourth Int’l Workshop on Rough Sets, Fuzzy Sets, and Machine Discovery 研究集中在约略集理论的数学性质、拓广、与其他不确定方法的关系和互补,以及有效算法等方面。 基于 Rough集方法的数据挖掘工具:如ProbRough、 TRANCE、 KDDR、 LERS、DataLogic/R等。 50 精确集与约略集 令 U是全域, XU,若 X是任意基本集的并,则 X是 R(区分关系) 可定义的,否则是 R不可定义的; R可定义集也称作 R精确集( R Exact Sets),它在 U的知识库中可以被定义,而 R不可定义集不能在该知识库中定义,称为 R非精确集( R Inexact Sets)或 R约略集( R Rough Sets)。 51 约略集- 上近似与下近似 约略集的基本观点:用一个二元关系来建构集合的近似。 信息系统 S =( U, T, V, )的不可区分集合 RB(x)(在约略集理论中即等价类[x]B)是用来近似任何子集 XU的基石。 如果用属性 B不能精确地定义集合 X,这时可以考虑用等价关系 B导出的等价类近似地定义集合 X,给出集合 X的下近似和上近似的定义。 根据 X的上下近似,可以将 U分为三个区域:正区域,负区域和边界区域。 52 概念 X的上下近似图解 53 集合论方法- 约略集 约略集理论用于分类规则挖掘:发现不精确数据或噪声数据的内在结构联系。 其基本思想是建立样本数据内部的等价类,而这些等价类是按照下近似和上近似“ 约略地 ” 定义的。 对于每一个等价类可以产生相应的判定规则,对于下近似可建立确定性规则,对于上近似可建立不确定性规则(含可信度),并用判定表表示这些规则。 约略集理论用于特征归约和相关分析:找出描述给定数据集中所有概念的最小属性子集。 约略集理论用于属性化简及其规则筛选:减少数据库系统中的冗余属性,提高数据库中所隐含知识的可理解性。 54 集合论方法- 模糊集方法 模糊性是客观存在的,系统的复杂性越高,精确化能力就越低,也就意味着模糊性越强。 在进行分类规则挖掘时,如果采用精确值作为阈值或边界是比较苛刻的,引入模糊集的隶属函数后可以使分类更加接近于现实。 基于模糊集理论的分类方法通常需要将属性值转换为模糊值,然后使用模糊规则对给定样本数据进行分类。 模糊集合理论还可以用于对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析等。 55 统计学分析方法 在数据挖掘中,统计学可应用于预测、聚类规则挖掘和时序数据的趋势分析等。 预测是数据分析的一种重要形式,通过建立连续值函数模型,可以预测数据的未来变化趋势。 连续值的预测可以使用统计学中的回归统计技术建模,如线性回归、多元回归、非线性回归、广义线性回归(对数回归、泊松回归等)。 许多问题可以用线性回归方法解决,而更多的问题则可以对变量进行变换,使得非线性的问题转换为线性的问题加以处理。 56 统计学分析方法- 预测 在数据属性之间存在两种关系: 函数关系:能用函数公式表示的确定性关系,可以采用回归分析的方法; 相关关系:不能用函数公式表示,但仍是相关确定的关系,可以采用相关分析和主成分分析等方法。 57 统计学分析方法- 聚类分析 统计学方法还可以应用于基于模型的聚类分析。 例如,概念聚类是一种基于模型的聚类方法,它对于一组为标记的对象,产生一个分类模式。 这种聚类不仅能够确定相似对象的分组,还可以发现每一个分组的特征描述,即每一个分组代表了一个概念或类。 概念聚类的大多数方法采用了统计学的途径,在决定概念或聚类时使用概率度量,用概率描述导出的概念。 58 可视化技术 可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚、更直观。 例如,把数据仓库中的多维数据或者把由数据挖掘获得的模式和规则变成多种图形,这对揭示数据的状况、内在本质及规律性起到了重要的作用。 59 数据挖掘解决的典型商业问题 数据挖掘技术从一开始就是面向应用的,尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。 解决的典型商业问题包括:数据库营销( Database Marketing)、客户群体划分( Customer Segmentation amp。 Classification)、背景分析( Profile Analysis)、交叉销售( Crossselling)等市场分析行为,以及客户流失性分析 (Churn Analysis)、客户信用记分 (Credit Scoring)、欺诈发现 (Fraud Detection)等等。 60 数据挖掘在市场营销的应用 是以市场营销学的市场细分原理为基础, 其基本假定是 “ 消费者过去的行为是其今后消费倾向的最好说明 ” 通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销 61 数据挖掘在市场营销的应用 与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。 基于数据挖掘的营销对我国当前的市场竞争中也很具有启发意义,我们经常可以看到繁华商业街上一些厂商对来往行人不分对象地散发大量商品宣传广告,其结果是不需要的人随手丢弃资料,而需要的人并不一定能够得到。 如果搞家电维修服务的公司向在商店中刚刚购买家电的消费者邮寄维修服务广告,卖特效药品的厂商向医院特定门诊就医的病人邮寄广告,肯定会比漫无目的的营销效果要好得多。 62 竞技运动中的数据挖掘 美国著名的国家篮球队 NBA的教练,利用 IBM公司提供的数据挖掘。数据挖掘概念与技术引言(编辑修改稿)
相关推荐
个一维数组 r中,具体的做法是:设两个指示器 i和 j,初始时 i指向数组中的第一个数据, j指向最末一个数据。 i先不动使 j逐步前移,每次对二者所指的数据进行比较,当遇到 r[i]大于 r[j]的情况时,就将二者对调位置;然后令 j固定使 i逐步后移做数据比较,当遇到 r[i]大于 r[j] 时,又进行位置对调;然后又是 i不动使 j前移作数据比较; …… ; 如此反复进行,直至 i与
极差是( ) 1 名车工参加直径为 5mm 精密零件 的加工技术比赛,随机抽取甲、乙两名车工加工的 5 个零件,现测得的结果如下表,平均数依次为 、 ,方差依次为 、则下
/*矩阵的行数 */ int。 /*矩阵的列数 */ int tn。 /*矩阵的非 0元素个数 */ tritype data[maxn]。 /*非 0元素的三元组表 */ }tmatrix。 把 M压缩后,存储成: 行数 rn 列数 非 0数 tn 行号 列号 元素值 1 2 2 1 3 1 3 1 1 3 6 4 5 2 8 6 1 5 7 6 9 7 7 7 例 : 求
不会打破交易中的任何模式 包含了序列模式挖掘所需的全部信息 紧密 去除不相关信息 —不包含非频繁项 支持度降序排列 : 支持度高的项在 FPtree中共享的机会也高 决不会比原数据库大(如果不计算树节点的额外开销 ) 例子 : 对于 Connect4 数据库 ,压缩率超过 100 2020116 数据挖掘:概念和技术 20 用 FPtree挖掘频繁集 基本思想
挖掘:路线图 布尔 vs. 定量 关联 (基于规则中所处理数据的值类型 ) buys(x, ―SQLServer‖) ^ buys(x, ―DMBook‖) buys(x, ―DBMiner‖) [%, 60%] age(x, ―30..39‖) ^ ine(x, ―42..48K‖) buys(x, ―PC‖) [1%, 75%] 单维 vs. 多维 关联
空。 其中的判断条件是不科学的。 实际上,当 =maxsize1,时,对列未必满,出现了 “假溢出”现象。 采用循环对列可以解决这一问题。 循环队列 循环队列就是把顺序队列的头和尾相连,构成一个闭环。 (见图) 当尾指针 =max1 时,若要插入 (删除)一个元素, 则要插入到第 0个位置, 即 [(max1)+1] % max=0 (取余数)。 若 max=8 时,要插入一个元素,应插入到第