数据挖掘7章分类和预测1(编辑修改稿)内容摘要:
生成的会可能会 Overfit 太多的分支 , 有些可能是对异常例外的反映 在进行预测的时候准确率比较差 两种 预修剪 : 难点:选择一个域值比较困难 后修建 : 先生成完整的树,然后进行修剪 使用另外一个的一个测试集来决定哪个树最好 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 24 决定最终树大小的方法 使用部分数据: 使用全部数据: 使用一个统计测试 (., chisquare) 来估计保留或者修剪掉一个分支的影响 使用最小描述长度 (MDL) 原则 : 当树的 Coding最小的时候最佳。 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 25 对基本决策树的提高 加入对连续字段的支持 采用 A=V的形式 处理空值 用最常见的值代替 每个可能的值都给一个概率 属性构造 在现有属性上创建新的属性 ,主要是针对一些稀疏属性 从而降低 fragmentation, repetition, and replication 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 26 在大型数据库中进行分类 分类 —在统计和机器学习中有广泛的研究 伸缩性 : 对几百万记录和几百个属性进行训练的时候,能够达到一定的速度。 在数据挖掘中为什么使用决策树 ? 相对比较快的学习速度 (和其它学习方法比较来说 ) 能够转换成容易理解的分类规则 能够使用 SQL语句查询数据库 分类的准确率也不差 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 27 Scalable Decision Tree Induction 数据挖掘中提出的方法 SLIQ (EDBT’96 — Mehta et al.) SPRINT (VLDB’96 — J. Shafer et al.) PUBLIC (VLDB’98 — Rastogi amp。 Shim) RainForest (VLDB’98 — Gehrke, Ramakrishnan amp。 Ganti) builds an AVClist (attribute, value, class label) 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 28 SLIQ算法介绍 总揽: 预排序、广度优先、种类字段快速分割、 MDL修剪方法 预排序: 减少对数值字段进行排序消耗的时间 属性列表( attribute list): 属性值 索引 类列表( class list): 类标签 指向树中的节点 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 29 Sliq分类算法 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 30 Sliq分类算法 进行节点的分割: 广度优先 对当前树中所有叶子节点分割的计算都是在同一遍中完成的。 引进的数据结构:类分布表 数值字段:类标签、频率 种类字段:属性值、类标签、频率 对数值字段进行分割计算: 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 31 Sliq分类算法 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 32 Sliq分类算法 对种类字段进行分割: 通过对数据的扫描生成类分布表 寻找分割集合 如果不同字段的值少于预定值,进行完全搜索 如果不同字段的值大于预定值,使用贪心算法 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 33 Sliq分类算法 树的修剪: 采用了 MDL策略 Cost(M,D)=cost(D|M)+cost(M) 整个算法包括两个部分: 编码方法 不同子树的比较方法 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 34 基于数据立方体的决策树 Integration of generalization with decisiontree induction (Kamber et al’97). 在最低概念层上进行分类 例如 , precise temperature, humidity, outlook, etc. 低的层次,分散的类别,过多的叶子节点 模型解释的问题 . 基于 Cube的多层分类 在多个层次上进行相关性分析 . 在多个层次上进行 Information Gain的计算 . 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 35 结果显示 (一 ) 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 36 结 果 显 示 (二 ) 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 37 Any Question? 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 38 Chapter 8. 聚类分析 什么是聚类分析 ? 聚类分析中的数据类型 主要聚类分析方法分类 划分方法( Partitioning Methods) 分层方法 基于密度的方法 基于表格的方法 基于模型( ModelBased) 的聚类方法 异常分析 总结 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 40 聚类的常规应用 模式识别 空间数据分析 在 GIS中,通过聚类发现特征空间来建立主题索引; 在空间数据挖掘中,检测并解释空间中的簇; 图象处理 经济学 (尤其是市场研究方面 ) WWW 文档分类 分析 WEB日志数据来发现相似的访问模式 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 41 应用聚类分析的例子 市场销售 :。数据挖掘7章分类和预测1(编辑修改稿)
相关推荐
空。 其中的判断条件是不科学的。 实际上,当 =maxsize1,时,对列未必满,出现了 “假溢出”现象。 采用循环对列可以解决这一问题。 循环队列 循环队列就是把顺序队列的头和尾相连,构成一个闭环。 (见图) 当尾指针 =max1 时,若要插入 (删除)一个元素, 则要插入到第 0个位置, 即 [(max1)+1] % max=0 (取余数)。 若 max=8 时,要插入一个元素,应插入到第
挖掘:路线图 布尔 vs. 定量 关联 (基于规则中所处理数据的值类型 ) buys(x, ―SQLServer‖) ^ buys(x, ―DMBook‖) buys(x, ―DBMiner‖) [%, 60%] age(x, ―30..39‖) ^ ine(x, ―42..48K‖) buys(x, ―PC‖) [1%, 75%] 单维 vs. 多维 关联
不会打破交易中的任何模式 包含了序列模式挖掘所需的全部信息 紧密 去除不相关信息 —不包含非频繁项 支持度降序排列 : 支持度高的项在 FPtree中共享的机会也高 决不会比原数据库大(如果不计算树节点的额外开销 ) 例子 : 对于 Connect4 数据库 ,压缩率超过 100 2020116 数据挖掘:概念和技术 20 用 FPtree挖掘频繁集 基本思想
本获利参数的输入对话框中,要输入: 总体(。 ) 固定成本(。 ) 单位成本(。 ) 每个收益(。 ):每个小概率事件发生时所得到的获利或是减少的损失。 2020/10/5 32 假设电话销售每打一通电话所要付出的人事、设备折旧以及办公室设备相关成本总共是 250元;而每成功销售一通的话第一年可以为公司净赚 1000元。 所以每打出去一通电话: 销售成功: 1000—
距离的分割是更有“意义”的离散化方法,考虑 : 区间内密度或点的个数 区间内点的“紧密程度 价格( $ )等宽( 宽度 $10)等深( 深度 2) 基于距离7 [ 0 , 1 0 ] [ 7 , 2 0 ] [ 7 , 7 ]20 [ 1 1 , 2 0 ] [ 2 2 , 5 0 ] [ 2 0 , 2 2 ]22 [ 2 1 , 3 0 ] [ 5 1 , 5 3 ] [ 5 0 ,
条形图 饼形图 • 常见的描述连续变量的图形有 直方图 • 常见的描述两个离散变量之间关系的图形有 Web图 条形图 • 常见的描述两个连续变量之间关系的图形有 散点图 • 常见的描述一个离散变量和一个连续变量之间关系的图形是 条形图 通过图形可以表现多个变量之间的关系 Chapter 2 Clementine 简介 Chapter 2 Clementine 简介 • 目的: –初步了解