数据挖掘数据挖掘∶概念和技术(编辑修改稿)内容摘要:

距离的分割是更有“意义”的离散化方法,考虑 :  区间内密度或点的个数  区间内点的“紧密程度 价格( $ )等宽( 宽度 $10)等深( 深度 2) 基于距离7 [ 0 , 1 0 ] [ 7 , 2 0 ] [ 7 , 7 ]20 [ 1 1 , 2 0 ] [ 2 2 , 5 0 ] [ 2 0 , 2 2 ]22 [ 2 1 , 3 0 ] [ 5 1 , 5 3 ] [ 5 0 , 5 3 ]50 [ 3 1 , 4 0 ]51 [ 4 1 , 5 0 ]53 [ 5 1 , 6 0 ]2020116 数据挖掘:概念和技术 23 Chapter 8. 聚类分析  什么是聚类分析 ?  聚类分析中的数据类型  主要聚类分析方法分类  划分方法( Partitioning Methods)  分层方法  基于密度的方法  基于表格的方法  基于模型( ModelBased) 的聚类方法  异常分析  总结 2020116 数据挖掘:概念和技术 25 聚类的常规应用  模式识别  空间数据分析  在 GIS中,通过聚类发现特征空间来建立主题索引;  在空间数据挖掘中,检测并解释空间中的簇;  图象处理  经济学 (尤其是市场研究方面 )  WWW  文档分类  分析 WEB日志数据来发现相似的访问模式 2020116 数据挖掘:概念和技术 26 应用聚类分析的例子  市场销售 : 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;  土地使用 : 在一个陆地观察数据库中标识那些土地使用相似的地区;  保险 : 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;  城市规划 : 根据类型、价格、地理位置等来划分不同类型的住宅;  地震研究 : 根据地质断层的特点把已观察到的地震中心分成不同的类; 2020116 数据挖掘:概念和技术 27 什么是一个好的聚类方法 ?  一个好的聚类方法要能产生高质量的聚类结果 ——簇,这些簇要具备以下两个特点:  高的簇内相似性  低的簇间相似性  聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现;  聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式; 2020116 数据挖掘:概念和技术 28 Requirements of Clustering in Data Mining  可伸缩性  能够处理不同类型的属性  能发现任意形状的簇  在决定输入参数的时候,尽量不需要特定的领域知识;  能够处理噪声和异常  对输入数据对象的顺序不敏感  能处理高维数据  能产生一个好的、能满足用户指定约束的聚类结果  结果是可解释的、可理解的和可用的 2020116 数据挖掘:概念和技术 29 Chapter 8. Cluster Analysis  什么是聚类分析 ?  聚类分析中的数据类型  主要聚类分析方法分类  划分方法( Partitioning Methods)  分层方法  基于密度的方法  基于表格的方法  基于模型( ModelBased) 的聚类方法  异常分析  总结 2020116 数据挖掘:概念和技术 30 两种数据结构  数据矩阵  (two modes)  差异度矩阵  (one mode) npx. . .nfx. . .n1x. . .. . .. . .. . .. . .ipx. . .ifx. . .i1x. . .. . .. . .. . .. . .1px. . .1fx. . .11x0...)2,()1,(:::)2,3()...ndnd0dd ( 3 , 10d ( 2 , 1 )02020116 数据挖掘:概念和技术 31 评价聚类质量  差异度 /相似度矩阵 : 相似度通常用距离函数来表示;  有一个单独的质量评估函数来评判一个簇的好坏;  对不同类型的变量,距离函数的定义通常是不同的,这在下面有详细讨论;  根据实际的应用和数据的语义,在计算距离的时候,不同的变量有不同的权值相联系;  很。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。