数据挖掘5章概念描述:特征化与比较(编辑修改稿)内容摘要:
,w:[t nn111 ( X )c o n d it io n( X )c o n d it io ns s ( X )ta r g e t _ c l aX,nd_ w e i gh t ]:[dX)c on dit i on (s s ( X )t ar ge t _c l aX, t _w e i gh t ]:[tX)c on di t i on (s s ( X )t ar ge t _c l aX, 2020/10/5 38 例子 : 量化描述规则 (136页例 ) 对于目标类 Europe的量化描述规则 (137页例 ) Lo ca ti o n/ i tem TV Co m puter Bo th_ i tem s Co unt t wt d wt Co unt t wt d wt Co unt t wt d wt Eur o pe 80 25% 40% 240 75% 30% 320 100% 32% N_ Am 120 1 7 .6 5 % 60% 560 8 2 .3 5 % 70% 680 100% 68% Bo th_ reg i o ns 200 20% 100% 800 80% 100% 1000 100% 100% Crosstab showing associated tweight, dweight values and total number (in thousands) of TVs and puters sold at AllElectronics in 1998 3 0 % ]:d7 5 % ,:[t)c o m p u te r ( i te m ( X )4 0 % ]:d2 5 % ,:[t)T V ( i te m ( X )E u r o p e ( X )X,2020/10/5 39 特征化和比较 什么是概念描述 ? 数据概化和基于汇总的特征化 分析特征化 : 分析属性之间的关联性 挖掘类比较 :获取不同类之间的不同处 在大型数据库中挖掘描述统计度量 讨论 总结 2020/10/5 40 挖掘数据散布特征 动机 更好的了解数据 : 集中趋势 , 差别 和 分布 数据散布特征 median, max, min, quantiles, outliers, variance, 等 . 2020/10/5 41 衡量中心趋势 平均值 带权平均 中位数 : 一个整体度量 如果是奇数,则为中间数,偶数则为中间两数的平均 用插值的方法进行估计 模 出现次数最多的值 Unimodal, bimodal, trimodal Empirical formula: niixnx11niiniiiwxwx11cf lfnLm e di anm e d i a n))(2/(1 )(3 m e di a nm e anm odem e an 2020/10/5 42 衡量离散趋势 四分位数 , 异常 和 盒图 四分位数 : Q1 (25th percentile), Q3 (75th percentile) 中间四分位区间 : IQR = Q3 – Q1 五数概括 : min, Q1, M, Q3, max 盒图 : ends of the box are the quartiles, median is marked, whiskers, and plot outlier individually 异常 : usually, a value higher/lower than x IQR 方差和标准差 Variance s2: (algebraic, scalable putation) Standard deviation s is the square root of variance s2 ni ni iini i xnxnxxns 1 1 221 22 ])(1[11)(112020/10/5 43 盒图分析 五数概括 : Minimum, Q1, M, Q3, Maximum 盒图 数据用盒子的形式表现 盒子的两端分别是两个分位数, ., the height of the box is IRQ 中位数用一条线来表示。 延长线 : 从盒子延长到最大和最小值 2020/10/5 44 A Boxplot A boxplot 2020/10/5 45 数据分布的可视化:盒图分析 2020/10/5 46 在大型数据库中挖掘统计信息 方差 标准差 : 方差的平方根 衡量分散程度 当且仅当所有值一样的时候为 0。 方差和标准差都是代数的 22122 111)(11iini ixnxnxxns2020/10/5 47 直方图(频率直方图) 图形化表示类描述的基本统计信息 频率直方图 2020/10/5 48 分位数图 2020/10/5 49 分位数 分位数 () 图 2020/10/5 50 散布图 2020/10/5 51 Loess 曲线 2020/10/5 52 图形化的表示基本统计描述 直方图 : 盒图 : 分位数图 : each value xi is paired with fi indicating that approximately 100 fi % of data are xi 分位数 分位数图 (qq) : graphs the quantiles of one univariant distribution against the corresponding quantiles of another 散布图 : each pair of values is a pair of coordinates and plotted as points in the plane Loess (local regression) 曲线 : add a smooth curve to a scatter plot to provide better perception of the pattern of dependence 2020/10/5 53 特征化和比较 什么是概念描述 ? 数据概化和基于汇总的特征化 分析特征化 : 分析属性之间的关联性 挖掘类比较 :获取不同类之间的不同处 在大型数据库中挖掘描述统计度量 讨论 总结 2020/10/5 54 面向属性的归纳 vs. 示例学习方法 原理和基本假设的不同 机器学习:正负样本。 概念描述:只有正样本。 训练样本集的大小 机器学习:训练样本集小 概念描述:训练样本集大。 概化方法的不同 机器学习:按照元组概化 概念描述:按照属性概化 2020/10/5 55 特征化和比较 什么是概念描述 ? 数据概化和基于汇总的特征化 分析特征化 : 分析属性之间的关联性 挖掘类比较 :获取不同类之间的不同处 在大型数据库中挖掘描述统计度量 讨论 总结 2020/10/5 56 数据挖掘:概念和技术 56第 5章:挖掘频繁模式、关联和相关 基本概念和路线图 有效的和可伸缩的频繁项集挖掘方法 挖掘各种类型的关联规则 由关联挖掘到相关性分析 基于约束的关联挖掘 小结 2020/10/5 57 数据挖掘:概念和技术 57什么是关联挖掘 ? 关联规则挖掘: 在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。 应用: 购物篮分析 、 交叉销售、产品目录设计 、 赔本销售分析( lossleader analysis) 、 聚集、分类等。 举例: 规则形式: “ Body ead [support, confidence]‖. buys(x, ―diapers‖) buys(x, ―beers‖) [%, 60%] major(x, ―CS‖) ^ takes(x, ―DB‖) grade(x, ―A‖) [1%, 75%] 2020/10/5 58 数据挖掘:概念和技术 58关联规则:基本概念 给定 : (1)交易数据库 (2)每笔交易是 : 一个项目列表 (消费者一次购买活动中购买的商品 ) 查找 : 所有 描述一个项目集合与其他项目集合相关性的规则 ., 98% of people who purchase tires and auto accessories also get automotive services done 应用 * 护理用品 (商店应该怎样提高护理用品的销售。 ) 家用电器 * (其他商品的库存有什么影响 ?) 在产品直销中使用 附加邮寄 2020/10/5 59 数据挖掘:概念和技术 59规则度量:支持度与可信度 查找所有的规则 X amp。 Y Z 具有最小支持度和可信度 支持度 , s, 一次交易中包含{X 、 Y 、 Z}的 可能性 置信度 , c, 包含 {X 、 Y}的交易中也包含 Z的 条件概率 交易 ID 购买的商品2020 A ,B ,C1000 A ,C4000 A ,D5000 B ,E ,F设最小支持度为 50%, 最小可信度为 50%, 则可得到 A C (50%, %) C A (50%, 100%) 买尿布的客户 二者都买的客户 买啤酒的客户 2020/10/5 60 数据挖掘:概念和技术 60关联规则挖掘:路线图 布尔 vs. 定量 关联 (基于规则中所处理数据的值类型 ) buys(x, ―SQLServer‖) ^ buys(x, ―DMBook‖) buys(x, ―DBMiner‖) [%, 60%] age(x, ―30..39‖) ^ ine(x, ―42..48K‖) buys(x, ―PC‖) [1%, 75%] 单维 vs. 多维 关联 (基于规则中涉及的数据维 )(例子同上 ) 单层 vs. 多层 分析 (基于规则集所涉及的抽象层 ) 那个品种牌子的啤酒与那个牌子的尿布有关系 ? 各种扩展 相关性、因果分析 关联并不一定意味着相关或因果 最大模式和闭合项集 2020/10/5 61 数据挖掘:概念和技术 61第 6章:从大数据库中挖掘关联规则 关联规则挖掘 2020/10/5 62 数据挖掘:概念和技术 62关联规则挖掘 —一个例子 对于 A C: support = support({A 、 C}) = 50% confidence = support({A 、 C})/support({A}) = % Apriori。数据挖掘5章概念描述:特征化与比较(编辑修改稿)
相关推荐
≥0 , s+≥0 54 式中, VP、 VD为规划目标值; ω 、λ 、 μ 为规划决策变量; s+、 s-为松弛变量; x0、 y0为被评价单元已知的输入输出指标向量; ε 为非阿基米德无穷小量,一般取 ε = 10- 6; n为决策单元数。 55 线性规划 Dε可以一次性判断第 j0个决策单元 D M Uj 0是 D E A 有效、弱 D E A 有效或非 D E A 有效。 设
条形图 饼形图 • 常见的描述连续变量的图形有 直方图 • 常见的描述两个离散变量之间关系的图形有 Web图 条形图 • 常见的描述两个连续变量之间关系的图形有 散点图 • 常见的描述一个离散变量和一个连续变量之间关系的图形是 条形图 通过图形可以表现多个变量之间的关系 Chapter 2 Clementine 简介 Chapter 2 Clementine 简介 • 目的: –初步了解
距离的分割是更有“意义”的离散化方法,考虑 : 区间内密度或点的个数 区间内点的“紧密程度 价格( $ )等宽( 宽度 $10)等深( 深度 2) 基于距离7 [ 0 , 1 0 ] [ 7 , 2 0 ] [ 7 , 7 ]20 [ 1 1 , 2 0 ] [ 2 2 , 5 0 ] [ 2 0 , 2 2 ]22 [ 2 1 , 3 0 ] [ 5 1 , 5 3 ] [ 5 0 ,
属性阈值控制 : typical 28, specified/default. 概化关系阈值控制 : 控制最终关系的大小 基本算法 InitialRel: 得到相关数据,形成初始关系表 PreGen: 通过统计不同属性的含有的不同值的个数决定是丢弃该属性还是对其进行汇总。 PrimeGen:根据上一步的计算结果,对属性概化到相应的层次,计算汇总值,得到主概化关系。
313 00 4334),( TttrVVuV到达目的地时冰山体积 uuT4 0 0249 6 0 0 福 州 大 学 44 1,6, 321 ccc14334l og)6(]),() [ l og(24),(313 0103010210tkkrVuuctVuVcucutVuq),)(log(
vvvvajijijiij若,为若为若,0,110000001100000001000011000000001001000000010001110A带符号有向图 G1=(V,E)的邻接矩阵 A V~顶点集 E~弧集 定性模型 vi vj + 某时段 vi 增加导致下时段 vj 增加 减少 带符号的有向图 G1 + + + + + + + v2