数据挖掘7章分类和预测1(编辑修改稿)内容摘要:

生成的会可能会 Overfit  太多的分支 , 有些可能是对异常例外的反映  在进行预测的时候准确率比较差  两种  预修剪 :  难点:选择一个域值比较困难  后修建 : 先生成完整的树,然后进行修剪  使用另外一个的一个测试集来决定哪个树最好 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 24 决定最终树大小的方法  使用部分数据:  使用全部数据:  使用一个统计测试 (., chisquare) 来估计保留或者修剪掉一个分支的影响  使用最小描述长度 (MDL) 原则 :  当树的 Coding最小的时候最佳。 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 25 对基本决策树的提高  加入对连续字段的支持  采用 A=V的形式  处理空值  用最常见的值代替  每个可能的值都给一个概率  属性构造  在现有属性上创建新的属性 ,主要是针对一些稀疏属性  从而降低 fragmentation, repetition, and replication 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 26 在大型数据库中进行分类  分类 —在统计和机器学习中有广泛的研究  伸缩性 : 对几百万记录和几百个属性进行训练的时候,能够达到一定的速度。  在数据挖掘中为什么使用决策树 ?  相对比较快的学习速度 (和其它学习方法比较来说 )  能够转换成容易理解的分类规则  能够使用 SQL语句查询数据库  分类的准确率也不差 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 27 Scalable Decision Tree Induction 数据挖掘中提出的方法  SLIQ (EDBT’96 — Mehta et al.)  SPRINT (VLDB’96 — J. Shafer et al.)  PUBLIC (VLDB’98 — Rastogi amp。 Shim)  RainForest (VLDB’98 — Gehrke, Ramakrishnan amp。 Ganti)  builds an AVClist (attribute, value, class label) 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 28 SLIQ算法介绍  总揽: 预排序、广度优先、种类字段快速分割、 MDL修剪方法  预排序: 减少对数值字段进行排序消耗的时间  属性列表( attribute list):  属性值  索引  类列表( class list):  类标签  指向树中的节点 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 29 Sliq分类算法 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 30 Sliq分类算法  进行节点的分割: 广度优先  对当前树中所有叶子节点分割的计算都是在同一遍中完成的。  引进的数据结构:类分布表  数值字段:类标签、频率  种类字段:属性值、类标签、频率  对数值字段进行分割计算: 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 31 Sliq分类算法 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 32 Sliq分类算法  对种类字段进行分割:  通过对数据的扫描生成类分布表  寻找分割集合  如果不同字段的值少于预定值,进行完全搜索  如果不同字段的值大于预定值,使用贪心算法 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 33 Sliq分类算法  树的修剪: 采用了 MDL策略  Cost(M,D)=cost(D|M)+cost(M)  整个算法包括两个部分:  编码方法  不同子树的比较方法 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 34 基于数据立方体的决策树  Integration of generalization with decisiontree induction (Kamber et al’97).  在最低概念层上进行分类  例如 , precise temperature, humidity, outlook, etc.  低的层次,分散的类别,过多的叶子节点  模型解释的问题 .  基于 Cube的多层分类  在多个层次上进行相关性分析 .  在多个层次上进行 Information Gain的计算 . 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 35 结果显示 (一 ) 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 36 结 果 显 示 (二 ) 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 37 Any Question? 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 38 Chapter 8. 聚类分析  什么是聚类分析 ?  聚类分析中的数据类型  主要聚类分析方法分类  划分方法( Partitioning Methods)  分层方法  基于密度的方法  基于表格的方法  基于模型( ModelBased) 的聚类方法  异常分析  总结 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 40 聚类的常规应用  模式识别  空间数据分析  在 GIS中,通过聚类发现特征空间来建立主题索引;  在空间数据挖掘中,检测并解释空间中的簇;  图象处理  经济学 (尤其是市场研究方面 )  WWW  文档分类  分析 WEB日志数据来发现相似的访问模式 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 41 应用聚类分析的例子  市场销售 :。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。