数据挖掘4章挖掘原语,语言和体系结构(编辑修改稿)内容摘要:
属性阈值控制 : typical 28, specified/default. 概化关系阈值控制 : 控制最终关系的大小 基本算法 InitialRel: 得到相关数据,形成初始关系表 PreGen: 通过统计不同属性的含有的不同值的个数决定是丢弃该属性还是对其进行汇总。 PrimeGen:根据上一步的计算结果,对属性概化到相应的层次,计算汇总值,得到主概化关系。 结果的表示 :概化关系、交叉表、 3D立方体 示例 DMQL: use Big_University_DB mine characteristics as “Science_Students” in relevance to name, gender, major, birth_place, birth_date, residence, phone, gpa from student where status in “graduate” 相应的 SQL: Select name, gender, major, birth_place, birth_date, residence, phone, gpa from student where status in {“Msc”, “MBA”, “PhD” } 类特征化:示例 N am e G en d er M ajo r B irt h P la ce B irt h _d ate R esid e n ce P h on e G P AJimW o od m an M C S V an cou ve r, B C ,C an ad a 81 2 76 35 1 1 M a in S t. ,R ich m on d68 7 45 9 8 3. 6 7S cot tL ach an ce M C S M on tr e al, Q u e,C an ad a28 7 7 5 34 5 1 st A v e. ,R ich m on d25 3 91 0 6 3. 7 0L au r a L ee… F…P h ys ics…Se a t t le , W A , U SA…25 8 7 0…1 2 5 A ust in A v e .,B ur na by…42 0 52 3 2…3. 8 3…R e m o v e d R e t a ine d Sc i,E ng ,B usC ou n tr y A ge ran ge C ity R em oved E xc l,V G , . .G e n d e r M a j o r B i r t h _ r e g i o n A g e _ r a n g e R e s i d e n c e G P A C o u n t M S c i e n c e C a n a d a 2 0 2 5 R i c h mo n d V e r y g o o d 1 6 F S c i e n c e F o r e i g n 2 5 3 0 B u r n a b y E x c e l l e n t 2 2 … … … … … … … B i r t h _ R e g i o nG e n d e rC a n a d a F o r e i g n To t a l M 1 6 1 4 3 0 F 1 0 2 2 3 2 T o t a l 2 6 3 6 6 2Prime Generalized Relation Initial Relation 概化结果的表示 概化关系 : 一个表格,其中有属性字段,后附汇总方法。 交叉表 : 二维交叉表 可视化方法 : Pie charts, bar charts, curves, cubes, and other visual forms. 量化特征规则 : (上表与 136页例 ) .%]47:[)(_%]53:[)(_ )( tf o r ei g nxr e g i o nb i r t htC a n a d axr e g i o nb i r t h m a l exg e n d e r 表达方式 概化关系 (133页例) 表达方式 —交叉表 (133页例) 使用 Cube技术进行实现 对给定的数据动态创建数据立方体: 便于有效的下钻操作 可能增加响应时间 解决方法:实现存储一些较高层次的统计信息。 使用预定义的数据立方体: 预先构建数据立方体 Cube计算的花费和额外的存储空间 特征化和比较 什么是概念描述 ? 数据概化和基于汇总的特征化 分析特征化 : 分析属性之间的关联性 挖掘类比较 :获取不同类之间的不同处 在大型数据库中挖掘描述统计度量 讨论 总结 属性相关性分析 why? 哪些维需要包括 ? 需要概化到什么层次 ? 减少属性;从而容易理解模型结果 What? 使用统计的方法进行数据预处理 过滤掉一些不相关或者相关性比较弱的字段 保留并对相关属性进行排序 相关性和维度、层次有关 分析特征化,分析比较 属性相关性分析 步骤: 数据收集 使用保守的 AOI进行预相关分析 相关性分析,删除不相关和弱相关属性 使用 AOI产生概念描述 相关性度量标准 相关性度量标准决定了如何对属性进行判断的标准 方法 信息增益 information gain (ID3) 增益比 gain ratio () Gini索引 gini index 不确定性 相关系数 Entropy 和 Information Gain 集合 S中类别 Ci的记录个数是 si 个 i = {1, …, m} 期望信息 属性 A的熵是 信息增益 ssss,...,s,ss imiim2121 lo g)I( )s,...,s(Is s...sE ( A ) mjjvjmjj 111E ( A ))s, . . . ,s,I(sG ai n( A ) m 21一个例子 (131页例 ) 任务 使用分析特征化来了解研究生的一般特征 属性名称 gender, major, birth_place, birth_date, phone, and gpa Gen(ai) = concept hierarchies on ai Ui = attribute analytical thresholds for ai Ti = attribute generalization thresholds for ai R = attribute relevance threshold 例子:分析特征化(续) 1. 数据收集 target class: graduate student contrasting class: undergraduate student Ui分析概化 属性删除 remove name and phone 属性概化 generalize major, birth_place, birth_date and gpa accumulate counts 候选关系 : gender, major, birth_country, age_range and gpa 例子:分析特征化 (2) g ende r m a jo r bi rth _ c o untr y a g e_ r a n g e g pa co unt M Scien ce Can ad a 2 1 25 Ver y _ g o o d 16 F Scien ce Fo reign 2 6 30 Excellen t 22 M Eng in eering Fo reign 2 6 30 Excellen t 18 F Scien ce Fo reign 2 6 30 Excellen t 25 M Scien ce Can ad a 2 1 25 Excellen t 21 F Eng in eering Ca n ad a 2 1 25 Excellen。数据挖掘4章挖掘原语,语言和体系结构(编辑修改稿)
相关推荐
,w:[t nn111 ( X )c o n d it io n( X )c o n d it io ns s ( X )ta r g e t _ c l aX,nd_ w e i gh t ]:[dX)c on dit i on (s s ( X )t ar ge t _c l aX, t _w e i gh t ]:[tX)c on di t i on (s s ( X )t
≥0 , s+≥0 54 式中, VP、 VD为规划目标值; ω 、λ 、 μ 为规划决策变量; s+、 s-为松弛变量; x0、 y0为被评价单元已知的输入输出指标向量; ε 为非阿基米德无穷小量,一般取 ε = 10- 6; n为决策单元数。 55 线性规划 Dε可以一次性判断第 j0个决策单元 D M Uj 0是 D E A 有效、弱 D E A 有效或非 D E A 有效。 设
条形图 饼形图 • 常见的描述连续变量的图形有 直方图 • 常见的描述两个离散变量之间关系的图形有 Web图 条形图 • 常见的描述两个连续变量之间关系的图形有 散点图 • 常见的描述一个离散变量和一个连续变量之间关系的图形是 条形图 通过图形可以表现多个变量之间的关系 Chapter 2 Clementine 简介 Chapter 2 Clementine 简介 • 目的: –初步了解
313 00 4334),( TttrVVuV到达目的地时冰山体积 uuT4 0 0249 6 0 0 福 州 大 学 44 1,6, 321 ccc14334l og)6(]),() [ l og(24),(313 0103010210tkkrVuuctVuVcucutVuq),)(log(
vvvvajijijiij若,为若为若,0,110000001100000001000011000000001001000000010001110A带符号有向图 G1=(V,E)的邻接矩阵 A V~顶点集 E~弧集 定性模型 vi vj + 某时段 vi 增加导致下时段 vj 增加 减少 带符号的有向图 G1 + + + + + + + v2
16. 23 三、 :( 1)由 0mn 得 2 2 2( ) ( ) ( ) 0a c a c b b a a b c a b ………… 2分 由余弦定理得 2 2 2 1c o s 2 2 2a b c a bC a b a b ………………………………………… 4分 0 πC π3C …………………………………………………………