数据挖掘技术在移动通信网络告警管理中的研究与应用内容摘要:

�甅 ��算法缺点也较为明显:计算平方差时采用的是类中对象的均值, 定的,无法动态添加。 在 � 甅 �� 算法和 � 狹 ��� 算法之前,围绕中心点划分算法 �������� ��� ������ 彩荎中心算法之一。 �� 拇 � 砉 � 涛 !�� 浚菏紫龋 � 婊 � ≡馣 个中心点,然后,随机匹配对象对,以其中一个为中心点,另一个为候选点,计 � 狹 ��� 算法。 根据随机性抽 样理论,当样本抽取方式非常随机时,部分可以 取代整体。 ��� 惴 ǘ允 � 菁 � 槿《喔鲅 � 荆 � 缓蟮ザ赖脑擞肒. ���� 甈 � 数据挖掘技术在移动通信网络告警管理中的研究与应用 针对 ��� 惴 234。 蚄. ���� 惴 ǖ娜钡悖珻 ��� 算法【 � 】提出了新的采 样技术,它将之与 � 甅 ��� 算法结合起来,搜索过程中,每一个子过程都抽取 一个随机样本,不局限于单一样本。 因此, ���� 惴 ū菴 �� 和 � 甅 ��� 更有效。 凝聚的层次聚类算法与之正好相反,算法首先将所有对象封装成一个个单独 不能合并停止。 行调整和优化。 ��� 惴ㄒ � 肓肆礁 鲋匾 8拍睿壕劾嗵卣 ��� 途劾嗵卣魇 �� 两个参数决定。 ��算法的基本思想是:首先划分样本数据,然后分别进行局部聚类,处 理孤立点,对聚类完成的簇进行二次聚类,直至达到终止条件。 ��算法的代价函数中,距离的计算方法舍弃了质心方式,而是采用一组 点,利用多个对象取代一个对象,这样就很大程度上减少了由于质心选取不当带 来的偏差问题。 同样的,针对大数据集, ��算法也采用随机抽样,为提升效 率,加速簇的收敛速度,又对随机性进行了一定的限制,属于伪随机策略。 但是,随机抽样方式对枚举型数据处理能力比较差, ��算法同样如此。 于是,适用于枚举型数据聚类的自底向上聚类算法 ��应运而生。 该算法的代 价函数同样计算簇间相似度,但该相似度舍弃了节点间距离计算方法,而用不同 簇间共同邻居数取而代之。 算法不需要用户参与提供静态模型,能动态的进行聚类。 无论是 ���惴 ā���惴 ā���惴 ā�����算法还是其他层次 算法,都有一个共同的缺陷,在局部贪婪策略的基础上没有全局最优化目标函数, 无法保证最后的聚类结果为全局最优。 ����惴 ╗�】。 �����算法很 ������ ����� ��� � ����������算法 声和密度阈值设置失当,聚类质量将大为降低。 基于网格的聚类算法,将整个对象空间切割为多个单元。 基于网格的聚类算 法比较有代表性的有: ���算法、 � ������������� �������惴 ā����������� 例,前者超过后者,则为密集的,后者超过前者,则为稀疏的。 维度扩展性和规模伸缩性,但由于算法过于简单,聚类精确性无法得到保证。 该算法利用了数据处理中常用的小波变换。 对数据空间的形状没有任何要求。 基于模型的聚类算法有一大前提,数据必须符合潜在的概率分布。 该类 算法 事先建立一系列的数学模型,然后用给定数据与这些模型进行匹配,不断的优化 匹配结果,最终达到拟合度超过阈值停止。 神经网络算法以距离为度量,对每个聚类进行原型性描述,估算相似度后, 将对象分配到与之相似度最高的聚类中,而且,由于原型带有属性,可以对新对 象与原型属性进行相关性计算,提供预测依据。 神经网络聚类利用了生物学特性,在生物学中,不同生物的大脑功能是有较 大差距的,随着处理时间的延长、数据复杂度的增加,该聚类算法是否适合大型 数据库还有待进一步的研究。 ��告警时序聚类算法 �. ����� 数据挖掘技术在移动通信网络告警管理中的研究与应用 给定聚类数目 ��攵允 �菁 �韵骕做时间聚类,设计其代价函数为: , �。 琙,形 �∑∑∑����琙 �琗 � 类的可能性。 而且满足: 公式 ��中,模糊指数用 �代替,该值可以指定, ��意味着精确聚类,与 本实验中,只考虑数值属性,不考虑分类属性,所以,差异度 �兀, �, �只 �‰��� ’ 于一个组,肌 �具有以下性质: ∑嘞 �, 以阈值为半径的球体包含的粒子数除以球体体积为质心球的密集度,与以该粒子 为核心,以阈值为半径的球体与质心球体相交包含的粒子数除以相交 部分体积为 �.比较每个粒子的适应度与初始适应度的值,如果适应度更高,则更新,否 �.将找到的最优解作为 �. �����算法的初始输入值,再重复一次算法过 程,求解全局最优解,如果得到最优解,则算法结束,否则转到步骤 �。 ��实验结果 实验以中国移动湖南分公司 �龈婢 ��菁 �描述见表 ��,这三个数据集位于 表 ��数据集描述表 . �. 其中, �硎敬砦缶劾嗍 �浚琋表示总对象数。 将 �炙惴 ǚ直鸬 ��诵 ��次,分别对代价函数的最大值、最小值、平均值 表 ��聚类实验结果表 ��劾嘀副闑代表算法的性能,指标越小, 聚类的正确性就越高,从表 ��我 们可以看出,针对三个数据集而言, ��菿 �惴 ǖ腅值要小,证明其在正确性 方面有多提升。 的数据集。 ��本章小节 本章对聚类算法进行了理论研究,分析了影响聚类算法的质量和效率的因素, ��告警数据库预处理 一般的,原始告警数据存在以下几个问题: �.噪声告警:对于加权关联规则挖掘来说,只有规则和故障诊断才是有用的 信息,其他的数据全。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。