基于多元统计的天津市各区县经济状况评价毕业论文(编辑修改稿)内容摘要:

表示主成分影响力大小的指标,如果特征值 1,说明该主成分的解释力度甚至不如直接引入原变量平均解释力度大。 所以一般可用特征值 1作为纳入标准。 (3). 综合判断: 实际情况表明,如果利用累积贡献率确定主成分数往往较多,然而用特征值确定又往往较少,则很多时候应当把两者结合起来,来综合确定合适的数量。 主成分的性质 性质 1 主成分的协方差矩阵是对角阵 [1]。 性质 2 主成分的总方差等于原始变量的总方差 [1]。 性质 3 主成分 与原始变量 的相关系数为 ( , ) √ √ (. 1) ,称 ( , )为主成分载荷量 [1]。 性质 4 ∑ 2( , ) , ( , ,…, ) 1 (. 2) 主成分分析步骤 1. 原始数据标准化处理。 2. 求解相关系数矩阵。 3. 计算特征值和单位特征向量。 4. 求解主成分的方差贡献率与累积方差贡献率。 5. 求解主成分。 因子分析 因子分析的基本概念 因子分析是一种利用显在变量测评潜在变量,用具体指标测评抽象因子的分析方法,最早是心理学家 Chales Spearman 于 1904 年提出的,其基本思想是用实测的多个指标,用少数几个的潜在指标(因子)线性组合表示 [9]。 因子分析的基本思想 因子分析是依据变量的相关性的大小,进行分组,同组内的变量相关性高,不同组内的变量相关性低 [10]。 每个组分别代表一个结构,称为公共因子。 原始变量涉及两个方面的信息,即无法直接观测的公共因子的线性函数和与公共因子无关的特殊因子。 因子分析可以处理样本和变量。 研究变量之间的相关关系的为 R型因子分析,研究样品之间的相关关系的为 Q 型因子分析。 因子分析的统计原理 {𝑥1 𝑎11𝐹1 +𝑎12𝐹2 +⋯+ 𝑎1𝑚𝐹𝑚𝑥2 𝑎21𝐹1 +𝑎22𝐹2 +⋯+𝑎2𝑚𝐹𝑚⋮𝑥 𝑎 1𝐹1 +𝑎 2𝐹2 + ⋯+ 𝑎 𝑚𝐹𝑚 (. 1) 其中 x1,x2,…,xp是 p 个原始变量,是μ =0,Σ = 1 的标准化变量, F1,F2,…Fm是m个因子变量, m小于 p,表示为矩阵形式为: AF +aε (. 2) 因子载荷矩阵的求解方法 因子载荷矩阵的求解方法主要有主成分法、最小二乘法、主轴因子法、极大似然法。 不同方法的侧重点不同,分析的结果也可能不完全相同。 因子旋转 由原始变量的相关矩阵的特征值和特征向量直接计算出的因子载荷矩阵的各主因子不能突出一定的变量 [11]。 为了进一步突出各因子代表的具体变量,有必要进行因子旋转。 因子旋转后,变量在某一个特定的公因子上载荷较大,而在其他的公因子上的载荷较小,从而对公因子进行解释。 有正交旋转与斜交旋转两种因子旋转方法。 因子分析步骤 1. 将原始数据标准化 2. 确定待分析的原始变量是否适合因子分析 3. 构造因子变量 4. 利用旋转使因子变量更具有可解释性 5. 计算因子变量得分。 计算因子得分和的模型为: Fj 𝛽𝑗1 1 +⋯+𝛽𝑗 𝑗 , ,…,𝑚 (. 3) 聚类分析 聚类分析的基本思想 聚类分析的基本思想是找出能够度量样本或指标之间的相似程度的一些统计量,把这些统计量作为划分类型的依据,将一些相似程度较大的样本或指标聚合成一类,将另外一些彼此之间的相似程度较大的样本又聚合成一类;根据分类对象的不同,聚类分析可以分为对样本的聚类与对变量的聚类两种 [12]。 聚类分析的注意事项 聚类分析的目的是确定样本中数据的特点,因此应 注意所选择变量是否已经能够反应所要聚类的样本的主要特点;在聚类分析时应注意所选择变量是否存在数量级上的区别。 如果一个样本包含不同数量的变量,那么应先对变量进行标准化处理,然后再进行聚类;变量间的关系度量模型和样本间相类似,只不过是一个用矩阵的行进行计算,而另一个用矩阵的列来计算 [13]。 聚类分析方法 (1).二阶聚类 二阶聚类( TwoStep Cluster)(也称为两步聚类)为一个探索性的分析工具,是为揭示自然的分类或分组而设计的,是数据集内部的而不是外观上的分类;是一种新型的分层聚类算法( Hierarchical Algorithms) ,当前主要应用到数据挖掘( Data Mining)与多元数据统计的交叉领域(模式分类)中 [14]。 二阶聚类有如下特点: 1. 分类变量与连续变量均可以参与二阶聚类分析; 2. 这个过程可以自动确定分类数; 3. 还可以高效率地分析大数据集; 4. 用户还可以自己定制用于运算的内存容量。 二阶聚类的分析步骤 1. 预测类 2. 正式聚类 (2).K均值聚类 1. 基本概念 K均值聚类,也称快速聚类,是由用户指定类数的大样本资料的逐步聚类分析;它先对数据进行初始的分类,然后逐步调整,得到最终的分类数;分类变量与连续变量都可以参与两步聚类分析 [14]。 2. 统计原理 如果选择了 n 个数值型变量来参与聚类分析,最后要求聚类数为 k。 可以由系统首先选择 k 个观测量,也可以是用户指定,作为聚类的目标, n 个变量组成了 n 维空间。 每个观测量在 n 维空间中为一个点。 k 个事先选定的观测量是 k 个聚类中心,也称为初始类中心。 依照距离这几个类中心的距离最小的原则将观测量分配到各类中心所在的类中去;形成第一次迭代的 k 类[15]。 根据组成每一类的观测量来计算每 个变量的均值,每一类中的 n 个均值在 n 维空间当中又形成了 k 个点,这就是第二次迭代的类中心。 依照这种方法迭代下去,直到达到指定的迭代次数或者达到中止迭代的判据要求时,迭代就中止了,聚类过程也结束了 [16]。 3. 分析步骤 1.指定聚类数目 k; 2.确定 k 个初始类中心; 3.依据距离最近原则来进行分类; 4.重新确定 k 个类中心; 5.进行迭代计算。 (3).系统聚类 1.基本概念 系统聚类是效果最好而且经常使用的方法之一,国内外均对它进行了深入的研究,它在聚类过程中是按一定的层次进行的。 具体分成两种,分别是 Q 型聚类与 R型聚类, Q 型聚类是对样本(个案)进行分类,它将有共同特点的个案聚集在一起,来对不同类的样本进行分析; R 型聚类则是对变量进行的聚类,使具有共同特征的变量聚在一起,以对不同类的变量进行分析 [14]。 1. 统计原理 系统聚类是依据个案或变量之间的亲疏程度,把最相似的对象聚集在一起。 依据系 统聚类过程的不同,又可分为凝聚法与分解法两种。 凝聚法的原理是把参与聚类的每个个案或变量视为一类,依据两类之间的距离或相似性,来逐步合并直到合并成一个大类为止;分解法的原理是把所有个案或变量均视为一类,然后依据距离与相似性逐层分解,一直到参与聚类的每个个案或变量均自成一类为止。 衡量样本数据和小类、小类和小类之间的亲疏程度的度量方法主要有:最短距离法、类间平均链锁法、最长距离法、类内平均链锁法、重心法、中间距离法、离差平方和法 [14]。 回归分析 确定性关系和非确定性关系 变量与变量之间的关系是分为确定性关系与非确定性关系,函数表达确定性关系。 研究变量之间的非确定性关系,构造变量间的经验公式的数理统计方法叫做回归分析。 回归分析基本概念 回归分析指的是通过提供变量间的数学表达式用来定量描述变量之间相关关系的数学过程,这一个数学表达式通常称作经验公式 [17]。 不仅可以用概率统计知识,对这个经验公式的有效性来进行判定,而且还可以用这个经验公式,依据自变量的取值来预测因变量的取值。 如果是多个因素来作为自变量的时候,还可以利用因素分析,找出哪些个自变量对因变量的影响为显著的,哪些为不显著的。 1. 线性回归分析的基本概念 线性回归是假设因变量和自变量之间是线性关系,利用一定的线性回归模型进行拟合因变量与自变量的数据,并且通过确定模型参数来获取回归方程。 根据自变量的数量,线性回归可以有不同的划分。 当自变量只有一个时,叫做一元线性回归,当自变量有多个时,叫做多元线性回归。 2. 线 性回归分析的统计原理 一元回归方程和多元回归方程如下: E(y) β0 + 𝛽1𝑥 (. 1) E(y) β0 +𝛽1𝑥1+ 𝛽2𝑥2 +⋯+𝛽 𝑥 (. 2) 一元线性与多元线性回归分析的核心任务是估计其中的参数。 曲线估计的基本概念 曲线估计也叫做曲线拟合或曲线回归,是研究两变量间的非线性关系的一种方法,选定的一种用方程表达的曲线,来使得实际数据和理论数据间的差异尽可能的小。 如果曲线选择得好,那么可以来揭示因变量和自变量的内在关系,并且对因变量的预测有一定的意义 [14]。 在曲线估计中,需要解决的两个问题:一是选用哪一种理 论模型,也就是用哪种方程来拟合观测值;二则是当模型确定后,如何来选择合适的参数,以使得理论数据与实际数据的差异最小。 曲线估计的统计原理 在曲线估计中,有很多数学模型,选用哪种形式的回归方程才能最好地表示出来一种曲线的关系往往不是个简单的问题,可以用数学方程来表示的各种曲线的数目基本是没有限量的。 在可能的方程间,以吻合度而论,也许还存在着许多的吻合得同样好的曲线方程。 因此,在对曲线的形式的选择上,对于采取什么形式需要有一定理论,这些理论是被问题本质所决定的。 分析步骤 (1)在还不能明确究竟哪一种模型更接近样本数据时,可以在上述多种可选择的模型中来选择几种模型; (2)SPSS 会自动完成模型参数的估计,并且输出回归方程的显著性检验的 F 值与概率 p 值、决定系 𝑅2等统计量; (3)以判定系数为主要依据来选择其中的最优模型,并且进行预测分析等。 第四章 区域经济评价指标体系 评价指标体系的建立原则 通过对天津市“十三五”经济发展面临的新常态分析,发现天津市各区县经济发展面临着功能定位清晰、各区县协调力度有待加强,生产要素具有相对优势,资源约束压力大,产业结构不断优化,但结构调整任务较重,科技创新持续活跃,创新驱动的潜力尚未完全释放;经济增长支撑强劲,但经济发展下行压力大等的新形势;面对新形势,天津市各区县要全面认识新常态,保持战略定力,切实增强转变经济发展方式的自觉性,努力推动天津市各区县实现更高水平、更高质量、可持续发展 [18]。 对地区经济进行评价,目的在于能客观的反映地区的综合经济实力,体现一个地区的整体经济发展水平 [1]。 指标体系的构建应该秉承以下原则: 1. 全面性。 指标体系应该全面反映天津市的每个区县的经济状况,涵盖社会经济生活的每个方面,切实深入人民生活,从幸福感等精神方面指标到国民生产总值等经济方面进行研究,充分 体现各个区县的综合经济实力和经济发展规律。 2. 前瞻性。 指标不应仅限于过去和当下的发展,还应该选取一些有前瞻性的适度超前的参数,这有利于深入落实可持续发展战略,对于政策制定有十分重要的意义。 3. 代表性。 在选取指标满足全面性的同时,更应注重代表性。 毕竟反映地区综合经济实力的指标非常繁多,它们代表的含义也就难免有所重复。 因此,在相关性强的指标中,只选择影响力大的能充分反映信息的指标。 4. 科学性。 克服随意性,避免主观意愿的干扰,选择的指标应该适合进行定量计算,并容易获取。 5. 正确性。 数据最好来自国家权威的统计网站比如中国统 计年鉴和公布的书籍和资料,以满足权威性。 6. 特色性。 设计的规划指标体系应该反映天津市作为直辖市和我国北方第一个自贸区的政策优势,同时体现天津市作为吞 吐量世界第四的综合性港口 的交通优势,并结合天津市本身的良好的自然生态环境等诸多特色 [19]。 选取的指标应该进行标准化和无量纲化。 区域经济评价指标体系的建立 依据区域经济指标体系的建立原则,根据 20xx年天津市统计年鉴和统计公报,从地区基本情况、人民生活情况、工农业发展情况、经济发展趋势和社会发展情况等方面选择了反映各区县综合经济实力 [1]的 18项指标,来构建评价指标体系。 1. 基础设施:普通中学校数、小学校数、卫生机构数、卫生机构床位数 2. 财政金融:中资金融机构本外币存款余额、中资金融机构本外币贷款余额 3. 基本情况:常住人口、城镇非私营单位从业人员 4. 人民生活:社会消费品零售总额 5. 经济发展水平:区县生产总值、区级一般公共预算收入、区级一般公共预算支出 6. 经济发展趋势:区县生产总值增速、规模以上工业企业资产总值、规模以上工业企业工业总产值 7. 对外经济:实际直接利用外资、外贸进出口总额 第五章 天津市各区县经济发展分析 本文根据 20xx年天津市统计年鉴,从地区基本情况、工农业发展状况、人民生活情况、社会发展情况和经济发展趋势等方面选取了反映各区县综合经济实力[1]的 18。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。