数据挖掘4章挖掘原语,语言和体系结构(编辑修改稿)内容摘要:

 属性阈值控制 : typical 28, specified/default.  概化关系阈值控制 : 控制最终关系的大小 基本算法  InitialRel: 得到相关数据,形成初始关系表  PreGen: 通过统计不同属性的含有的不同值的个数决定是丢弃该属性还是对其进行汇总。  PrimeGen:根据上一步的计算结果,对属性概化到相应的层次,计算汇总值,得到主概化关系。  结果的表示 :概化关系、交叉表、 3D立方体 示例  DMQL: use Big_University_DB mine characteristics as “Science_Students” in relevance to name, gender, major, birth_place, birth_date, residence, phone, gpa from student where status in “graduate”  相应的 SQL: Select name, gender, major, birth_place, birth_date, residence, phone, gpa from student where status in {“Msc”, “MBA”, “PhD” } 类特征化:示例 N am e G en d er M ajo r B irt h P la ce B irt h _d ate R esid e n ce P h on e G P AJimW o od m an M C S V an cou ve r, B C ,C an ad a 81 2 76 35 1 1 M a in S t. ,R ich m on d68 7 45 9 8 3. 6 7S cot tL ach an ce M C S M on tr e al, Q u e,C an ad a28 7 7 5 34 5 1 st A v e. ,R ich m on d25 3 91 0 6 3. 7 0L au r a L ee… F…P h ys ics…Se a t t le , W A , U SA…25 8 7 0…1 2 5 A ust in A v e .,B ur na by…42 0 52 3 2…3. 8 3…R e m o v e d R e t a ine d Sc i,E ng ,B usC ou n tr y A ge ran ge C ity R em oved E xc l,V G , . .G e n d e r M a j o r B i r t h _ r e g i o n A g e _ r a n g e R e s i d e n c e G P A C o u n t M S c i e n c e C a n a d a 2 0 2 5 R i c h mo n d V e r y g o o d 1 6 F S c i e n c e F o r e i g n 2 5 3 0 B u r n a b y E x c e l l e n t 2 2 … … … … … … … B i r t h _ R e g i o nG e n d e rC a n a d a F o r e i g n To t a l M 1 6 1 4 3 0 F 1 0 2 2 3 2 T o t a l 2 6 3 6 6 2Prime Generalized Relation Initial Relation 概化结果的表示  概化关系 :  一个表格,其中有属性字段,后附汇总方法。  交叉表 :  二维交叉表  可视化方法 :  Pie charts, bar charts, curves, cubes, and other visual forms.  量化特征规则 : (上表与 136页例 ) .%]47:[)(_%]53:[)(_ )( tf o r ei g nxr e g i o nb i r t htC a n a d axr e g i o nb i r t h m a l exg e n d e r  表达方式 概化关系 (133页例) 表达方式 —交叉表 (133页例) 使用 Cube技术进行实现  对给定的数据动态创建数据立方体:  便于有效的下钻操作  可能增加响应时间  解决方法:实现存储一些较高层次的统计信息。  使用预定义的数据立方体:  预先构建数据立方体  Cube计算的花费和额外的存储空间 特征化和比较  什么是概念描述 ?  数据概化和基于汇总的特征化  分析特征化 : 分析属性之间的关联性  挖掘类比较 :获取不同类之间的不同处  在大型数据库中挖掘描述统计度量  讨论  总结 属性相关性分析  why?  哪些维需要包括 ?  需要概化到什么层次 ?  减少属性;从而容易理解模型结果  What?  使用统计的方法进行数据预处理  过滤掉一些不相关或者相关性比较弱的字段  保留并对相关属性进行排序  相关性和维度、层次有关  分析特征化,分析比较 属性相关性分析  步骤:  数据收集  使用保守的 AOI进行预相关分析  相关性分析,删除不相关和弱相关属性  使用 AOI产生概念描述 相关性度量标准  相关性度量标准决定了如何对属性进行判断的标准  方法  信息增益 information gain (ID3)  增益比 gain ratio ()  Gini索引 gini index  不确定性  相关系数 Entropy 和 Information Gain  集合 S中类别 Ci的记录个数是 si 个 i = {1, …, m}  期望信息  属性 A的熵是  信息增益 ssss,...,s,ss imiim2121 lo g)I( )s,...,s(Is s...sE ( A ) mjjvjmjj 111E ( A ))s, . . . ,s,I(sG ai n( A ) m  21一个例子 (131页例 )  任务  使用分析特征化来了解研究生的一般特征  属性名称 gender, major, birth_place, birth_date, phone, and gpa  Gen(ai) = concept hierarchies on ai  Ui = attribute analytical thresholds for ai  Ti = attribute generalization thresholds for ai  R = attribute relevance threshold 例子:分析特征化(续)  1. 数据收集  target class: graduate student  contrasting class: undergraduate student  Ui分析概化  属性删除  remove name and phone  属性概化  generalize major, birth_place, birth_date and gpa  accumulate counts  候选关系 : gender, major, birth_country, age_range and gpa 例子:分析特征化 (2) g ende r m a jo r bi rth _ c o untr y a g e_ r a n g e g pa co unt M Scien ce Can ad a 2 1 25 Ver y _ g o o d 16 F Scien ce Fo reign 2 6 30 Excellen t 22 M Eng in eering Fo reign 2 6 30 Excellen t 18 F Scien ce Fo reign 2 6 30 Excellen t 25 M Scien ce Can ad a 2 1 25 Excellen t 21 F Eng in eering Ca n ad a 2 1 25 Excellen。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。