数据挖掘5章概念描述:特征化与比较(编辑修改稿)内容摘要:

,w:[t nn111 ( X )c o n d it io n( X )c o n d it io ns s ( X )ta r g e t _ c l aX,nd_ w e i gh t ]:[dX)c on dit i on (s s ( X )t ar ge t _c l aX, t _w e i gh t ]:[tX)c on di t i on (s s ( X )t ar ge t _c l aX, 2020/10/5 38 例子 : 量化描述规则 (136页例 )  对于目标类 Europe的量化描述规则 (137页例 ) Lo ca ti o n/ i tem TV Co m puter Bo th_ i tem s Co unt t wt d wt Co unt t wt d wt Co unt t wt d wt Eur o pe 80 25% 40% 240 75% 30% 320 100% 32% N_ Am 120 1 7 .6 5 % 60% 560 8 2 .3 5 % 70% 680 100% 68% Bo th_ reg i o ns 200 20% 100% 800 80% 100% 1000 100% 100% Crosstab showing associated tweight, dweight values and total number (in thousands) of TVs and puters sold at AllElectronics in 1998 3 0 % ]:d7 5 % ,:[t)c o m p u te r ( i te m ( X )4 0 % ]:d2 5 % ,:[t)T V ( i te m ( X )E u r o p e ( X )X,2020/10/5 39 特征化和比较  什么是概念描述 ?  数据概化和基于汇总的特征化  分析特征化 : 分析属性之间的关联性  挖掘类比较 :获取不同类之间的不同处  在大型数据库中挖掘描述统计度量  讨论  总结 2020/10/5 40 挖掘数据散布特征  动机  更好的了解数据 : 集中趋势 , 差别 和 分布  数据散布特征  median, max, min, quantiles, outliers, variance, 等 . 2020/10/5 41 衡量中心趋势  平均值  带权平均  中位数 : 一个整体度量  如果是奇数,则为中间数,偶数则为中间两数的平均  用插值的方法进行估计  模  出现次数最多的值  Unimodal, bimodal, trimodal  Empirical formula:  niixnx11niiniiiwxwx11cf lfnLm e di anm e d i a n))(2/(1 )(3 m e di a nm e anm odem e an 2020/10/5 42 衡量离散趋势  四分位数 , 异常 和 盒图  四分位数 : Q1 (25th percentile), Q3 (75th percentile)  中间四分位区间 : IQR = Q3 – Q1  五数概括 : min, Q1, M, Q3, max  盒图 : ends of the box are the quartiles, median is marked, whiskers, and plot outlier individually  异常 : usually, a value higher/lower than x IQR  方差和标准差  Variance s2: (algebraic, scalable putation)  Standard deviation s is the square root of variance s2      ni ni iini i xnxnxxns 1 1 221 22 ])(1[11)(112020/10/5 43 盒图分析  五数概括 : Minimum, Q1, M, Q3, Maximum  盒图  数据用盒子的形式表现  盒子的两端分别是两个分位数, ., the height of the box is IRQ  中位数用一条线来表示。  延长线 : 从盒子延长到最大和最小值 2020/10/5 44 A Boxplot A boxplot 2020/10/5 45 数据分布的可视化:盒图分析 2020/10/5 46 在大型数据库中挖掘统计信息  方差  标准差 : 方差的平方根  衡量分散程度  当且仅当所有值一样的时候为 0。  方差和标准差都是代数的      22122 111)(11iini ixnxnxxns2020/10/5 47 直方图(频率直方图)  图形化表示类描述的基本统计信息  频率直方图 2020/10/5 48 分位数图 2020/10/5 49 分位数 分位数 () 图 2020/10/5 50 散布图 2020/10/5 51 Loess 曲线 2020/10/5 52 图形化的表示基本统计描述  直方图 :  盒图 :  分位数图 : each value xi is paired with fi indicating that approximately 100 fi % of data are  xi  分位数 分位数图 (qq) : graphs the quantiles of one univariant distribution against the corresponding quantiles of another  散布图 : each pair of values is a pair of coordinates and plotted as points in the plane  Loess (local regression) 曲线 : add a smooth curve to a scatter plot to provide better perception of the pattern of dependence 2020/10/5 53 特征化和比较  什么是概念描述 ?  数据概化和基于汇总的特征化  分析特征化 : 分析属性之间的关联性  挖掘类比较 :获取不同类之间的不同处  在大型数据库中挖掘描述统计度量  讨论  总结 2020/10/5 54 面向属性的归纳 vs. 示例学习方法  原理和基本假设的不同  机器学习:正负样本。  概念描述:只有正样本。  训练样本集的大小  机器学习:训练样本集小  概念描述:训练样本集大。  概化方法的不同  机器学习:按照元组概化  概念描述:按照属性概化 2020/10/5 55 特征化和比较  什么是概念描述 ?  数据概化和基于汇总的特征化  分析特征化 : 分析属性之间的关联性  挖掘类比较 :获取不同类之间的不同处  在大型数据库中挖掘描述统计度量  讨论  总结 2020/10/5 56 数据挖掘:概念和技术 56第 5章:挖掘频繁模式、关联和相关  基本概念和路线图  有效的和可伸缩的频繁项集挖掘方法  挖掘各种类型的关联规则  由关联挖掘到相关性分析  基于约束的关联挖掘  小结 2020/10/5 57 数据挖掘:概念和技术 57什么是关联挖掘 ?  关联规则挖掘:  在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。  应用:  购物篮分析 、 交叉销售、产品目录设计 、 赔本销售分析( lossleader analysis) 、 聚集、分类等。  举例:  规则形式: “ Body ead [support, confidence]‖.  buys(x, ―diapers‖)  buys(x, ―beers‖) [%, 60%]  major(x, ―CS‖) ^ takes(x, ―DB‖) grade(x, ―A‖) [1%, 75%] 2020/10/5 58 数据挖掘:概念和技术 58关联规则:基本概念  给定 : (1)交易数据库 (2)每笔交易是 : 一个项目列表 (消费者一次购买活动中购买的商品 )  查找 : 所有 描述一个项目集合与其他项目集合相关性的规则  ., 98% of people who purchase tires and auto accessories also get automotive services done  应用  *  护理用品 (商店应该怎样提高护理用品的销售。 )  家用电器  * (其他商品的库存有什么影响 ?)  在产品直销中使用 附加邮寄 2020/10/5 59 数据挖掘:概念和技术 59规则度量:支持度与可信度  查找所有的规则 X amp。 Y  Z 具有最小支持度和可信度  支持度 , s, 一次交易中包含{X 、 Y 、 Z}的 可能性  置信度 , c, 包含 {X 、 Y}的交易中也包含 Z的 条件概率 交易 ID 购买的商品2020 A ,B ,C1000 A ,C4000 A ,D5000 B ,E ,F设最小支持度为 50%, 最小可信度为 50%, 则可得到  A  C (50%, %)  C  A (50%, 100%) 买尿布的客户 二者都买的客户 买啤酒的客户 2020/10/5 60 数据挖掘:概念和技术 60关联规则挖掘:路线图  布尔 vs. 定量 关联 (基于规则中所处理数据的值类型 )  buys(x, ―SQLServer‖) ^ buys(x, ―DMBook‖) buys(x, ―DBMiner‖) [%, 60%]  age(x, ―30..39‖) ^ ine(x, ―42..48K‖) buys(x, ―PC‖) [1%, 75%]  单维 vs. 多维 关联 (基于规则中涉及的数据维 )(例子同上 )  单层 vs. 多层 分析 (基于规则集所涉及的抽象层 )  那个品种牌子的啤酒与那个牌子的尿布有关系 ?  各种扩展  相关性、因果分析 关联并不一定意味着相关或因果  最大模式和闭合项集 2020/10/5 61 数据挖掘:概念和技术 61第 6章:从大数据库中挖掘关联规则  关联规则挖掘       2020/10/5 62 数据挖掘:概念和技术 62关联规则挖掘 —一个例子 对于 A  C: support = support({A 、 C}) = 50% confidence = support({A 、 C})/support({A}) = % Apriori。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。