改进的模糊c均值法在负荷特性统计数据聚类中的应用毕业论文(编辑修改稿)内容摘要:
提供了有力的理论依据和分析工具 [19]。 聚类分析在负荷特性分析中的应用现状 聚类分析是一种新兴的多元统计方法,是当代分类学与多元分析的结合。 聚 类分析是将分类对象置于一个多维空间中,按照它们空间关系的亲疏程度进行分 类。 也就是说,对彼此不同属性的事物进行辨认 ,将具有相似属性的事物聚为一 类,使得同一类的事物具有高度的相似性 [8]。 聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。 它是一种重要的人类行为。 聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。 聚类分析的目标就是在相似的基础上收集数据来分类。 聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。 在不同的应用领域,很多聚类技术都得到了发展,这 些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。 从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。 传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。 采用 k均值、 k中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如 SPSS、 SAS 等。 从机器学习的角度讲,簇相当于隐藏模式。 聚类是搜索簇的无监督学习过程。 改进模糊 C均值法在静态负荷特性数据聚类中的研究 第 9 页 共 48 页 与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自 动确定标记,而分类学习的实例或数据对象有类别标记。 聚类是观察式学习,而不是示例式的学习 从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。 而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。 聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。 本文主要研究内容 负荷建模领域的研究目前大多仍以理论研究为主,尚未很好地推广到工程应用。 随着当前电网规模的日益增大,对于一个广域电力系统分析人员而言,如果该区域的所有负荷站点 均采用同一种负荷模型,该负荷模型必定是非常保守和粗糙的。 而如果将每个负荷站点均根据总体测辨法建立起相当精确的负荷模型,这将需要大量的设备和资金的投入,无论是从人力、财力和物力上考虑都是不可取的。 这一问题是近来负荷建模工作一直不断探讨的热点,目前正在逐步形成一类基于统计与基于量测相结合的负荷建模新方法。 在初步探讨了聚类分析技术在负荷建模中的应用现状的基础上,重点研究了 模糊 C均值法 的基本原理和实现过程,并将其用于统计负荷特性数据的分类,从而验证了聚类技术在负荷特性分类中应用的工程实用性,为统计综合法和总体测辨 法的融合提供了有效的途径。 改进模糊 C均值法在静态负荷特性数据聚类中的研究 第 10 页 共 48 页 第二章 聚类分析 聚类分析就是如何对样品(或变量)进行量化分类的问题。 通常聚类分析分为 Q 型聚类和 R型聚类。 Q型聚类是对样品进行分类处理, R型聚类是对变量进行分类处理。 聚类分析的基本概念 在实际研究中,既可以对样本个体进行聚类,也可以对研究变量进行聚类, 对样本个体进行的聚类通常称为 Q型聚类,对研究变量进行的聚类称为 R型聚类。 本文采用的是对样本个体进行聚类分析。 所谓样本,就是指待分类的对象全体。 每个样本都由一系列指标表示,这些指标形成样本矢 量,全体样本矢量构成的集 合称为样本矢量集,这里设样本矢量集合为 X={ mXXX , 21 },每一个对象 iX (i= ⋯m)都由一组 n个指标刻画: inii XXX , 21。 定义 ijd 为样本 iX 与 jX 的距离,常用的距离有: 1. 闵氏距离 如 qpk jkikij xxqd/11 )()( 当 q=l 时 , pk jkikij xxd 1)1(称为绝对值距离。 当 q=2 时,qpk jkikijxx /11)()2( 称为欧氏距离 当 q=时,jkikpkij xxd m a x1)(称为切比雪夫距离 2. 马氏距离 )()()( ,2 jljiij XXXXMd 其中 lX 为样本 iX 的 P个指标组成的向量,∑为协方差矩阵 3. 兰氏距离 pk jkikjkikij xxxxpLd 11)( ( 0ijx ) 在众多的距离中,用的较多的是欧氏距离和绝对值距离。 改进模糊 C均值法在静态负荷特性数据聚类中的研究 第 11 页 共 48 页 4. 距离选择的原则 一般说来,同一批数据采用不同的距离公式,会得到不同的分类结果。 产生不同结果的原因,主要是由于不同的距离公式的侧重点和实际意义都有不同。 因此我们在进行聚类分析时,应注意距离公式 的选择。 通常选择距离公式应注意遵循以下的基本原则: ( 1) 要考虑所选择的距离公式在实际应用中有明确的意义。 如欧氏距离就有非常明确的空间距离概念,马氏距离有消除量纲影响的作用。 ( 2) 要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。 如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。 ( 3) 要考虑研究对象的特点和计算量的大小。 样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分析。 实际中,聚类分析前不妨试探地多选择几个距离公式分别进行聚类,然后对聚类分析的 结果进行对比分析,以确定最合适的距离测度方法。 在量纲取定的条件下,两个样本越相似,它们之间的距离 d 就越小,反之亦 然,值得注意的是量纲的选取不同会改变某特征的判断依据性。 因此当样本的不 同特征值的量纲差别很大时,会对聚类结果造成很大的影响。 这就需要将各种特 征值进行标准化。 标准化的方法有很多种,他们可以保证比例的不变性或至少可 以试图使距离度量方法在各种特征下的贡献达到一个最佳的平衡 [8]。 聚类方法 聚类分析的方法有很多种,经典的聚类方法有谱系数聚类分析法,动态聚类分析法,由于 新的理论不断提出,现在又有了模糊聚类分析法和灰色聚类分析法。 这些方法各有优缺点,分别适用于不同的场合。 相比而言,谱系数聚类分析法和 动态聚类分析法在理论上相对比较成熟。 下面对这几种方法做出介绍: 1. 谱系数聚类分析法 这种方法又称为系统聚类分析法,设样本矢量集合为 },{ 21 mXXXX ,每个样本有 n个特征量表示, )(kiG 表示第 k次合并时的第 i类。 首先,视 m 个样本各自 成为一类,后计算类与类之间距离,选择距离最小的一对合并成一个新类,计算在新的类别划分下各类之间的距离,再将距离最近两类合并,直至所有样本 改进模糊 C均值法在静态负荷特性数据聚类中的研究 第 12 页 共 48 页 聚成一类为止。 将所有样本聚成一类结果是没有意义的,再根据一定的原则确定最终的种类个数。 算法的具体步骤如下: 1) 数据的标准化处理。 由原样本矢量集形成新的样本矢量集 },{ 39。 39。 239。 139。 mXXXX ,其中: jjijij txx 39。 式中: mi ijj xmt 11 ,即各列数据平均值; mi jijjtxm12)(1 即各列数据标准方差; i=1,2,⋯,m, j=1,2,⋯,n。 2) 初始分类。 令 K=0,每个样本自成一类,即 ),2,1}({ 39。 )0( miXG ii 3) 计算各类间的距离 ijD ,由此生成一个对称的距离矩阵 mmijk DD )()( ,其中m为类的个数 (初始时, m=N)。 4) 找出前一步求得的矩阵 )(kD 中最小元素,设它是 )(kiG 和 )(kjG 间的距离,将)(kiG 和 )(kjG 两类合并成一类,于是产生新的聚类 , )1(2)1(1 kk GG 令 K=K+1,N=N1; 5) 查聚类后的个数,如果类数 N大于 2,则转至 3),否则,停止。 谱系数聚类法除了要定义事物之间的亲疏程度指标,还要定义类与类之间亲 疏程度指标并且要导出求取类间亲疏指标值的递推公式。 类与类之间亲疏程度指 标不同,则求取类间亲疏指标值的递推公式也就不同。 这样就有很多种不同的谱 系数聚类法, 其中几种介绍如下: 1)重心距离法 从物理观点看,若一个类空间位置要用一个点表示,那就用重心来表示。 设类 pW 、 qW 重心分别为 pX 、 qX ,它们分别有 pn 、 qn 个,将 pW 和 qW 合 并为 lW ,则 lW 有 qpl nnn 个样本,易知 lW 的重心 )(1qqppqpl XnXnnnX 设另一类 kW 的重心为 kX 则它与 lW 的距离平方是 改进模糊 C均值法在静态负荷特性数据聚类中的研究 第 13 页 共 48 页 )](1[)]39。 (1[)()39。 (2qqPpqpkqqppqpklklkklXnXnnnXXnXnnnXXXXXD 2)平均距离法 两类 pW 和 qW 之间距离平方也可定义为这两类元素两两之间平均平方距离,即 qjpj Wx Wxijqppq dnnD 221 设 qpt WWW ,类平均距离递推公式为 222kqqp qkpqp pkl DnnnDnn nD 3)最短距离法 定义类 iG 和 jG 之间的距离为两类最近样品的距离,即为 ijGXGXij dD jjii ,m in 设类 pG 和 qG 合并成一个新类记为 rG ,则任一类 kG 与 rG 的距离为 ijGXGXkr dD rjki ,m in }m in,m inm in {, ijGxGxijGXGX dd qjkipjki },m in { kqkp DD 4)最长距离法 定义类 iG 和 jG 之间的距离为两 类最远样品的距离,即为 ijGXGXpq dD qjpi ,m a x 最长距离法与最短距离法的并类步骤完全一样,也是将各样品先自成一类,然后将距离最小的两类合并。 将类 pG 和 qG 合并成一个新类记为 rG , 改进模糊 C均值法在静态负荷特性数据聚类中的研究 第 14 页 共 48 页 则任一类 kG 与 rG 的距离为 ijGXGXkr dD rjki ,m a x }m a x,m a xm a x {, ijGxGxijGXGX dd qjkipjki },m a x { kqkp DD 再找距离最小两类并类,直至所有的样品全归为一类为止。 可以看出最长距离法与最短距离法只有两点不同:一是类与类之间的距离定义不同;另一是计算新类与其他类的距离所用的公式不同。 2.动态聚类分析法 动态聚类的原理是先对分类事物做一个初始的粗糙的分类,然后再根 据某种原则对初始分类进行修改,直至准则函数取得极值或者是分类被认 为比较合理为止。 其基本步骤为: 1)建立初始聚类中心,进行初始聚类。 2)计算模式和类的距离,调整模式的类别。 3)计算各聚类的参数,删除合并或分裂一些聚类。 4)从初始聚类 开始,运用迭代算法动态地改变模式的类别和聚类中心 使准则函数取得极值或设定的参数达到设计要求时停止。 在众多的动态聚类分析方法中, c 均值聚类算法是最常用的一种,这里 简要介绍一下,假设样本特征矢量集为 },{ 21 mXXXX ,事先取定类的数目为 C类,并确定 C个初始聚类中心,按最小距离原则将各样本分配到 C类中某一类,之后不断计算类心和调整各样本的类别,最终使各样本到其判属类别中心的距离平方之和最小。 C均值聚类分析法是以确定的类数及选定的初始聚 类中心为前提,使各样本到其所判属类别中心距离平方之和最小的最佳聚类,受这一前提的影响,其结果很容易陷入局部最优。 3. 灰色聚类分析法。改进的模糊c均值法在负荷特性统计数据聚类中的应用毕业论文(编辑修改稿)
相关推荐
No 教学安排 Studyarrangement varchar No No 课表安排 Coursearrangement varchar No No (2) 名称:学生成绩表 表名称标识: ScoreTable 表 2 学习成绩表 名称 字段名称 类型 主键 非空 课程名称 Lecturename varchar Yes Yes 课程编号 CourseID Date(6) Yes Yes 学分
化。 依托丰富的矿产资源,建成了平桂飞碟有限公司、福利风帆冶炼公司、钟山金易冶炼公司等一批有色金属加工企业。 以富翔、大成等农业企业为龙头,大力引进项目、资金和技术,进行水果、畜禽的深加工,建成了具有地方特色的食品工业基地。 以桂东电子科技有限公司为龙头,大力发展以中高压化成电子铝箔为代表的电子原材料、电子元器件产品,建成了新兴的电子工业基地。 作为现代农业示范区,积极面向粤港澳市场
单机 — 无穷大暂态稳定仿真分析 电力系统稳定性问题是指电力系统运行中受到扰动后能否保持发电机间同步运行的问题,根据扰动大小所确定的稳态问题的性质,把它分为静态稳定和暂态稳定。 所谓电力系统静态稳定性,一般是指电力系统在运行中受到微小扰动后,独立地恢复到它原来的运行状态的能力。 电力系统的暂态稳定是指电力系 统在某个运行情况下突然受到大的干扰后
制动、防护等安全装置齐全可靠,确保状况良好。 1严格坚持定期保养制度,做好操作前、操作中和操作后设备的清洁润滑、紧固、调整和防腐工作。 严禁机械设备超负荷使用,带病运转和在作业运转中进行维修。 1大型和专用机械的操作人员必须经过培训 并经考核取得合格证后持证上岗,严格按规程操作,杜绝违章作业。 (四) 、施工用电安全技术措施 施工用主要电力线路架空安设,从主线路至用电设备间使用电力电缆
初压之后进行碾压,并应达到标准要求的压实度。 对于某些 SHRP 沥青混合料,应在其不稳定温度区( 93~115℃)以上压实。 轮胎压路机的轮胎充气压力不得小于 ,相邻碾压带应重叠 1/3~ 1/2的碾压轮宽度。 双驱双振压路机的振动频率宜为 35~ 50HZ,振幅宜为 ~ ,均应根据混合料类型、碾压温度和摊铺层厚度选用。 振动压路机的相邻碾压带应重叠15cm 左右。 停车时应 先停止振动
第 18 页 共 52 页 名称 瑞士泰利莱 SKSD 型 性能 施工原理:用液压马达高速 驱动下金刚石锯片切割混凝土、石材、砌块,最终实现一个较完整的静力切割面。 优点:属静力水平或垂直切割,高效、低噪音、安全、切割面平整、利于分离作业,可连续作业。 适用范围:对混凝土等构筑物实行整体分离。 噪音等级: LPA 107dB 最大切割深度: 400mm 拟用部位、项目 翼缘板切割 本工程拟用台数