厦门大学数据挖掘数据准备(编辑修改稿)内容摘要:

Bin方法 . Bin方法也就是分箱方法,是通过利用相应被平滑数据点的 “ 邻居 ” (即周围的值 ),对一组排序数据进行平滑 .排序成的这些数据被分配到一些 “ 桶 ” 或箱中 .由于 Bin方法考察的是相邻的值, 因此它进行局部平滑 . 2020/9/15 21 下面给出了一些 Bin的方法技术 2020/9/15 22 2020/9/15 23 2020/9/15 24 . 通过聚类分析可以检测到异常数据,也就是孤立点 .聚类将相似或相邻近的数据聚合到一起形成了各个聚类集合 .直观地看,落在聚类集合之外的值就被认为是孤立点 .孤立点之值作为噪声处理,将其删除,试用 “ 聚类 ”中心值代替 .有关聚类分析的思想和方法将在第五章中详细讨论 . 2020/9/15 25 . 这也是一种识别孤立点的方法 .例如 :在实际应用中,使用信息理论度量可以帮助识别手写符号库中的异常模式 .度量值反映要判断的字符与已知的符号要相比的 “ 差异 ” 程度 .孤立点模式可能是提供有用的信息 (识别有用的数据异常 ),也可能是错误的信息 .将所识别出的孤立点输出到一个列表中,然后使用人工对这一列表中的孤立点进行检查,识别出真正的垃圾,这种人机结合的方法要比单单使用人工来搜索整个数据库快得多了 .在其后的数据挖掘中,这些垃圾模式将由数据库中清除掉 . 2020/9/15 26 可以通过回归关系,根据大量统计数据,找出变量之间在数量变化方面的统计规律,从而消除变量之间的随机关系,以达到拟合函数对数据平滑的目的 .例如可以借助线性回归 (linear regression),拟合一个变量与其他多个变量之间的关系,这样就可以用这一关系以一组变量值来帮助预测另一个变量 .通过回归分析可以消除随机因素,除去噪声 . 2020/9/15 27 样条方法是以适当控制通过一组给定的数据点的曲线 .B样条 (Basic splines)在样版权法的理论和应用研究中起着很基本的作用 .局部性质是 B样条曲线最重要的性质之一,在部分参数区域上的一点到多与 k+1个控制顶点有关,与其他的无关,因此改变这部分的控制顶点至多影响到这部分的曲线,其余不会受到影响 .它在每曲线段内部是无限次可微,并且随着次数 k的升高,曲线会越来越光滑 .通过用 B样条去拟合数据,可以经过调整增加曲线的光滑度去除噪声 . 2020/9/15 28 二、异常的分析 2020/9/15 29 2020/9/15 30 例如: 数据集为: S={S1,S2,S3,S4,S5,S6,S7} ={(2,4),(3,2),(1,1),(4,3),(1,6),(5,3),(4,2)} 欧氏距离 d=[(X1X2)2+(Y1Y2)2]1/2 取阈值距离为 d=3 2020/9/15 31 2020/9/15 32 根据所用程序的结果和所给的阈值, 可选择 S3和 S5作为异常点。 2020/9/15 33 2020/9/15 34 三、缺失数据 2020/9/15 35 2020/9/15 36 2020/9/。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。