第5章传统数据挖掘技术ؤ内容摘要:

章 计算机局域网集成 • k平均算法最为简单。 每个簇用该簇中对象的平均值来表示。 • ⑴首先将所有对象随机分配到 k个非空的簇中。 • ⑵计算每个簇的平均值,并用该平均值代表相应的簇。 • ⑶根据每个对象与各个簇中心的距离,分配给最近的簇。 • ⑷然后转第二步,重新计算每个簇的平均值。 这个过程不断重复直到满足某个准则函数才停止。 • k中心点算法 • 每个簇用接近聚类中心的一个对象来表示。 首先为每个簇选择一个代表对象,剩余的对象根据其与代表对象的距离分配给最近的一个簇。 然后反复用非代表对象代替代表对象,以提高聚类的质量。 第 2 章 计算机局域网集成 DBSCAN算法首先需要用户给定聚类对象的半径 ε邻域和ε邻域中最少要包含的对象数 MitPts。 然后算法检查某个对象 ε邻域中的对象数 , 如果对象数大于 MitPts, 该对象就是核心对象 , 就构建以该对象为核心的新簇。 然后反复寻找从这些核心对象出发在 ε邻域内的对象 ,这个寻找过程可能会合并一些簇 , 直到没有新的对象可以添加到任何簇中为止。 第 2 章 计算机局域网集成 OPTICS算法是对 DBSCAN算法的改进 , 因为在 DBSCAN算法中需要用户设定 ε邻域和 MitPts, 但是在实际应用中用户往往很难确定这些参数 , 而且这些参数设置的不同往往会导致聚类结果有很大差别。 在 OPTICS算法中认定对象应该以特定的顺序进行处理 , 这个顺序首先处理最小的 ε值密度可达的对象 , 这样可以首先完成高密度的聚类。 第 2 章 计算机局域网集成 DENCLUE算法的依据是某个数据点在邻域内的影响可以用一个数学函数来形式化地模拟 , 这个函数为影响函数。 所聚类数据空间的整体密度看成是所有数据点影响函数的总和。 在聚类时就根据全局密度函数的局部最大 , 即密度吸引点来确定。 第 2 章 计算机局域网集成 • STING算法将数据空间区域划分为矩形单元,并且对应于不同级别的分辨率,存在着不同级别的矩形单元,高层的每个单元被分为多个低一层的单元,每个网络单元的统计信息被预先计算和存储,供处理和查询使用。 第 2 章 计算机局域网集成 • 利用 STING算法可以自顶向下回答查询: • ⑴从层次中选定一层(含较少单元的层次)作为查询处理的开始。 • ⑵对当前层次的每个单元计算置信区间,用以反映该网格单元与给定查询的关联程度。 • ⑶当前层次处理完毕,转入下一层次,处理下一层次时只检查处理相关单元。 • ⑷重复以上过程,直到底层处理完毕。 如果查询要求满足,就返回相关单元的区域,否则检索和进一步处理相关单元中的数据,直到满足查询要求为止。 第 2 章 计算机局域网集成 • WaveCluster方法首先通过在数据空间上强加一个多维网格结构来汇总数据,每个网格单元汇总了一组映射到该单元中的点的信息,然后采用一种小波变换对原特征空间进行变换,汇总信息在进行小波变换时使用,接。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。