bp神经网络的异常点检测应用可行性研究_毕业论文(编辑修改稿)内容摘要:

聚类算法中, 异常点检测仅仅是聚类的副产品。 聚类算法发展方向是优化聚类过程,而不是提高对异常点检测的能力,异常点检测和聚类是两个相对立的过程,聚类是把属于统一类的数据点聚集在一起,归为一类,而异常点检测是把和大多数数据点相异的点挖掘出来。 Su 等人首先提出基于聚类的异常点检测算法,聚集的较小簇被认为是异常点,但这中方法忽略了小聚集簇和大聚集簇之间的距离,当一个小聚集簇和一个大聚集簇非常接近的时候,小聚集簇中的这些点更可能是大聚集簇的边界点而不是异常点。 模糊 k 均值聚类算法 (FCM)常用于异常点检测,该算法动态地分配权重给每一个数据点,权重表示该数据点和数据集中心之间的距离,通过各点的权重来判断异常点。 此类算法没有先验知识指导如何确定聚类中心,只能是随机选取,优化搜索空间较大,算法的复杂度较大。 Hongyi Zhang 等引为了提高模糊核聚类 算法的运行效率,提出了新的模糊核聚类算法,该算法用先验知识对参数初始化。 取代了用聚类中心初始化,改进了聚类的目标函数,降低了算法的时间复杂度,但该算法没有提到如何选取核函数,对于算法模糊性的控制不好撑握。 7 2 基于属性特征在异常点检测中的研究 传统算法大都是通过数据在空间地特性来判断检测异常点。 本文的方向是从特征出发研究。 传统算法从整个数据集合在空间中分布地特性出发研究,比如距离的从整个数据集空间距离进行研究,同样密度的按数据集空间密度研究,聚类也是 按数据集空间 特性。 而本文直接从已知部分数据维度的特征着 手,即是直接从每一组数据的特征来研究。 对于单属性特征的情况,根据数据重要性调整特征 (即维度)权值,并根据数据重要性调整。 假设数据特征表示在每个属性上面,独立没有组合属性表现特征地情况下,每一组数据属性对应权值数据乘积和,表示这个数据在这组数据中全局中所占的重要性。 例如检测是否是糖尿病人的数据库,三十岁以下这个年龄维度上病人较少,然而五十岁后这个维度病人比例就多了。 映射到维度为三十岁以下这个维度地病人比较少,映射到维度为十岁以上较多。 这样我们可以添加一个权值与年龄这一项数据乘积,这个乘积必须使权值与当前数据 乘积出来的数据成正比,表示年龄增长能够体现在这组数据中的重要性。 以便全局统筹决策较容易。 设 X 为一组数据集合,可使  WiXi* 趋向某个数值,表示这组数据某个总体特征。 异常或者非异常,可以通过趋向某个数值表示特征异常,另一个方向数值表示非异常。 有时候数据组合的重要性是体现在几个数据地组合里面,既可能体现在几个属性上面 ,比如说一组数组 (A, B, C),可能 AB 组合特征不显示异常,然而 ABC 组合就显示异常,这些组合是不定地。 所有在属性权值之上需 要一组对属性不同组合特征的权值调整。 图 样例图示 8 如图 ,某个异常点可能异常特征是属性 1,可能是属性 属性 2 地组合,对于同个数据库不同点具有组合不确定性。 由于特征地不可确定性,数值不确定,组合不确定。 我们可以采用神经网络自学习调整权值。 同时根据已知数据训练修改这些权值,使其具有识别某种组合特征的能力。 使其自学习特征,自动控制调整权值及权值组合。 人工神经网络作为一种新型信息处理系统,在信息处理方面,具有如下显著的特点: (1)输入 输出映射能力。 人工神经网络具有自学习能力,通过学习,能 够根据网络期望输出和网络实际输出之差来调整神经元间连接权值和阈值,直至使实际输出与期望输出之间的误差减小到满意的程度,这样就实现了输入到输出的映射。 人工神经网络的输入 输出映射能力对于预测有特别重要的意义。 ( 2)非线性特性。 人工神经网络具有很强的非线性,这种非线性分散在每个神经元,通过传递函数实现。 利用神经网络的非线性特性,可解决药学研究及实验数据处理过程中大量的非线性问题。 ( 3)高度并行性。 人工神经网络是由许多相同的简单处理单元并联组合而成,具有高度并行性特性,使其对特定任务的计算变得很快,对信息的处 理能力与效果惊人,因此提供了一种解决高层复杂问题的能力和方法。 ( 4)良好的容错性与联想记忆功能。 人工神经网络通过自身的网络结构能够实现对信息的记忆,而所记忆的信息是存储在神经元之间的权值中。 从单个权值中看不出所存储的信息内容,因而是分布式的存储方式,这使得网络具有良好的容错性,既能进行模式信息处理工作,又能进行模式识别工作。 因为这些特点,神经网络广泛应用在聚类分析、模式识别、信号处理、系统辨识、优化计算、预测控制等领域。 根据神经网络记忆分类地特性,本文设想通过这些特性学习出能够辨别异常点非异常点数据的 神经网络,主要研究其可行性。 9 3 BP 神经网络介绍 模型简介 人工神经网络理论是 80 年代中后期迅速发展起来的一项前沿研究领域,其应用已渗透到各个领域。 BP 神经网络模型是人工神经网络的重要模型之一,应用尤为广泛。 BP 算法主要包括两个过程,一是由学习样本、网络权值  从输入层→隐含层→输出层逐次算出各层节点的输出;二是反过来由计算输出与实际输出偏差构出的误差函数 E(  ),用梯度下降法调节网络权值,即 )(1 kkkE  () 使误差 )( 1kE 减小。 设输入层节点数为 n,隐含层节点数为 r,输出层节点数为 m,隐含层与输入层之间的权值矩阵为 )( jiwW ,隐含层节点阀值为 j ,输出层与隐含层之间权值矩阵为)( kjvV ,输出层节点阀值为 k ,并设有 N 个学习样本 )3,2,1)(,( NPYX pP  其中TpnppP xxxx ),( 21  为第 P 个学习样本的输入向量,Tpmppp yyyY ),( 21  为其实际输出向量。 其中 m,2,1,n2,1  ji ,下文中如不指明则相同。 计算各层节点输出 输入层节点,取其输出 pio 与输入 pix 相同,即 pipi xo  隐含层节点输入 pj ,输出 pjo 分别为: jni pijirj owne t  1 () 若令 1, 00  pjj ow  则有: 10  ni pijirj ow 1 , 1() 1pjp j p j n eto f n et e  。 输出层节点输入 pk ,输出 pko 分别为: 39。 1 krj pjkjpk ovne t   () 若令 39。 0 kkv  , 10po 则有: pkn e tpkpkrj pjkjpk en e tfoovn e t    11)(,0 () 修正权值 设   Np pmk pkpkp EEoyE 11221 ,)( 其中 pE 为第 p 个学习样本产生的输出误差, E 为总误差。 由误差函数调整权值有: pjpkkjpkjp ovEv   其中 )1()( pkpkpkpkpk oooy  pipjjipjip owEw   其中  mk kjpkpjpjpjvoo1)()1(   Np kjpkjvv1 11  Np jipji ww 1 () 其中 为学习速率,一般在 [0, 1]内取值。 权值修正为: kjkjkj vvv  () jijiji  () 12 13 4 异常检测中 BP 神经网络的设计 可微阈值单元 图 如图 可微阈值单元,图中为 sigmoid 单元,与感知器相似, sigmoid 单元先计算它的线性组合,然后应用一个阈值到此结果。 然而,对 sigmoid 单元,阈值输出是输入的连续函数。 更精确地讲, sigmoid 单元这样计算输出。 )(   xw ( ) 其中: yey  11)( ( )  经常被称为 sigmoid 函数或者也可以称为 logistic 函数。 注意它的输出范围为 0到 1,随输入单调递增。 因为这个函数把非常大的书值域映射到一个小范围的输出。 也叫挤压函数。 本算法就是想把所有整数据特征映射到一个小范围来处理判断。 单个 BP 网络结构设计 X1 X2 Xn W1 W2 Wn X0 = 1 W0 = Θ  f  ni WiXi 0 ne ten et  1 1)(14 采用 为神经感知器,隐层感知器根据实际数据库的属性确定,一般少于等于属性个数,输出层一个输出感知器。 图 BP结构 输入层为一组数据,全连接到隐层,隐层计算输出受挤压函数处理后的数值,输出层的输入为隐层输出。 最后输出 0 到 1 的 数值。 隐层输出层的神经元,每个的 0W 都初始化为 ,其他权值都初始化: (double) ((rand()/)*21);随机数种子为系统时间。 训练教师信号,按具体方案处理设定。 神经网络 学习过程的 基本步骤 ( 1)定义误差函数 r 为期望输出与实际输出之差的平方和:   j jmj yVr 2)(21 ( ) 其中 yj 是输出单元的期望输出, mjV 是实际的输出。 输入 隐层 输出层 15 ( 2)调节权值的公式为: 1 kjkjij VdW  ( ) 其中  为学习步长,取正参数, 1kjV 代表上一层 神经元的输出,而 kjd 有两种情况: 1) 如果 j 是输出层(第 m 层)的神经元,则 ))(1( jmjmjmjmj yVVVd  ( ) 2) 如果 j 不在输出层,而是隐含层的神经元,则   l kljlkjkjkj dWVVd 1)1( ( ) kjV 是 该神经元的输出,而求本层的 kjd 必须用到上一层的 1kld ,可见误差函数的求取是一个始于输出层的反向传播的递归过程。 ( 3)将学习模式不断输入到输入层,再根据输出层产生的误差不断修正神经元间连结的权值和神经元的阈值,直到学习模式全部输入或误差达到一定的值。 反向传播算法在网络规模较大时计算量很大,收敛较慢,而且存在局部最小的问题,根据这一问题,在具体操作时采用了加入动量项的方法: )()1( 1 tWVdtW ijkjkjij    ( )  称为动量因子,这样后一次的权值更新适当考虑上一次的权值更新,可以改善收敛特性。 16 17 5 实验研究 研究使用的数据库介绍 在尝试各种算法方案地研究中,使用的数据库名称: The Insurance Company Benchmark (COIL 2020).关于保险的数据,其中包括: ,训练数据, 5822组数据,每组 86 个属性,第 86 个为是否 异常的标志变量,总地为两类数据;TICEVAL2020,测试数据, 4000 组,每组为 85 个特征属性; ,与ticeval2020 对应组地结果。 训练方案一实验:把 bp 神经网络相似性代替距离算法相似度量 起初思路是采用两两相似性地训练,然后得出一个整体数据库属性特征的神经网络。 采用 WiYiXiabs  )( 表示 X 与 Y 两者相似性。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。