数据挖掘分类和预测(编辑修改稿)内容摘要:

16日星期三 Data Mining: Concepts and Techniques 40 贝叶斯信念网络 Family History LungCancer PositiveXRay Smoker Emphysema Dyspnea LC ~LC (FH, S) (FH, ~S) (~FH, S) (~FH, ~S) 有向无环图 The conditional probability table for the variable LungCancer 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 41 • 一旦 FamilyHistory和 Smoker确定 ,LungCancer就确定和其他的无关 . P(LungCancer=―yes‖| FamilyHistory=―yes‖ Smoker=―yes‖)= P(LungCancer=―no‖| FamilyHistory=―no‖ Smoker=―no‖)= 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 42 训练贝叶斯网络 • 梯度 • 其中 s个训练样本 X1,…Xs,Wijk表示具有双亲 Ui=uik的变量 Yi=yij的 CPT项 .比如 Yi是LungCancer,yij是其值 “ yes‖,Ui列出 Yi的双亲 (FH,S),uik是其值 (―yes‖,‖yes‖) 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 43 • 梯度方向前进 , Wijk=Wijk+(l)*梯度 其中 l是学习率 ,l太小学习将进行得很慢 ,l太大可能出现在不适当的值之间摆动 .通常令l=1/t,t是循环的次数 • 将 Wijk归一化 . • 每次迭代中 ,修改 Wijk,并最终收敛到一个最优解 . 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 44 神经网络 (向后传播分类)带回馈的分类 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 45 计算方法 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 46 • 由前一层的输出作为输入 i,与对应的权 w相乘形成加权和 ,再加上偏置 • 对上面结果用一个非线性函数 f作用形成本层的输出 .将较大的值映射到 01之间  ijiijj OwI jIj eO  1 12020年 9月 16日星期三 Data Mining: Concepts and Techniques 47 算法步骤 Output nodes Input nodes Hidden nodes Output vector Input vector: xi wij   i jiijj OwI jIj eO  1 1))(1( jjjjj OTOOE r r ijijij OE r rlww )(jjj E r rl )( jkk kjjj wE r rOOE r r  )1(2020年 9月 16日星期三 Data Mining: Concepts and Techniques 48 计算实例 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 49 • 一个训练样本 X={1,0,1},输出为 1 • X1=1,x2=0,x3=1,w14=,w15=,w24=,w25=,w34=,w35=,w46=,w56=, • 偏置值 :节点 4:,节点 5:,节点 6: • 学习率设为 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 50 • 节点 4: 输入值 :w14*x1+w24*x2+w34*x3+节点 4的偏置 =1*+**= 输出值 :用公式 可得 • 同理 :节点 5输入值 ,输出值 • 节点 6: 输入值 :w46*o4+w56*o5+节点 6的偏置 =**+= 输出值 : jIj eO  1 12020年 9月 16日星期三 Data Mining: Concepts and Techniques 51 误差计算 • 节点 6: *()*()= • 节点 5: *()**()= • 同理节点 4误差为 : ))(1( jjjjj OTOOE r r jkk kjjj wE r rOOE r r  )1(2020年 9月 16日星期三 Data Mining: Concepts and Techniques 52 更新权值和偏置值 • W46: +()()()= • 其他 Wij同理 • 节点 6的偏置 : +()*()= • 其他偏置同理 ijijij OE r rlww )(jjj E r rl )( 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 53 终止条件 • 对所有样本作一次扫描称为一个周期 • 终止条件 :对前一周期所有 Wij的修改值都小于某个指定的阈值。 或超过预先指定的周期数 . • 防止训练过度 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 54 神经网络的解释 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 55 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 56 解释过程 • 对隐藏节点进行聚类 ,对于所有给定的输入 ,输出值分成几个类 . • 导出与输出节点 O的一系列规则 • 导出与输入节点 I的一系列规则 • 得到关于输入和输出的规则 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 57 灵敏度分析 • 用于评估一个给定的变量对网络输出的影响 .改变该变量的输入 ,其他变量固定 ,监测网络的输出 . • 得到的规则形如 :IF X 减少 5%, THEN Y 增加 8%的规则 . 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 58 基于关联规则的分类 其他分类方法 K最临近分类 基于案例的推理 遗传算法 粗糙集算法 模糊集算法 预测 线性回归和多元回归 非线性回归 其他回归模型 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 59 分类法的准确性 评估分类法的准确率 提高分类法的准确率 准确率足够判定分类法。 总结 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 60 第七章:分类和预测 什么是分类。 什么是预测 关于分类和预测的一些问题 使用决策树进行分类 贝叶斯分类 (向后传播分类)带回馈的分类 基于关联规则的分类 其他分类方法 预测 分类法的准确性 总结 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 61 主讲人 朱扬勇 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 62 一、数据挖掘概念 定义 数据挖掘 从大量数据中寻找其规律的技术, 是统计学、数据库技术和人工智能技术的综合。 •数据挖掘与统计学 •数据挖掘与人工智能 •数据挖掘与数据库技术 数据挖掘与 KDD 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 63 一、数据挖掘概念 原由 国民经济和社会的信息化 •社会信息化后,社会的运转是软件的运转 •社会信息化后,社会的历史是数据的历史 因此政府提出 “信息化”和“发展软件产业” 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 64 一、数据挖掘概念 原由 数据挖掘 数据库越来越大 有价值的知识 可怕的数据 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 65 一、数据挖掘概念 原由 数据爆炸,知识贫乏 苦恼 : 淹没在数据中。 不能制定合适的决策 ! 数据 知识 决策  模式  趋势  事实  关系  模型  关联规则  序列  目标市场  资金分配  贸易选择  在哪儿做广告  销售的地理位置  金融  经济  政府  POS.  人口统计  生命周期 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 66 一、数据挖掘概念 发展 • 1989 IJCAI会议: 数据库中的知识发现讨论专题 – Knowledge Discovery in Databases (G. PiatetskyShapiro and W. Frawley, 1991) • 19911994 KDD讨论专题 – Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. PiatetskyShapiro, P. Smyth, and R. Uthurusamy, 1996) • 19951998 KDD国际会议 (KDD’9598) – Journal of Data Mining and Knowledge Discovery (1997) • 1998 ACM SIGKDD, SIGKDD’19992020 会议 ,以及 SIGKDD Explorations • 数据挖掘方面更多的国际会议 – PAKDD, PKDD, SIAMData。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。