spss回归分析应用(编辑修改稿)内容摘要:

例 1 根据例 1 的数据,贷款余额 x1=100 、累计应收贷款 x2= 贷款项目个数 x3=15 和固定资产投额 x4=60 ,试给出 不良贷款的 . 解:由 STATISTICA 输出的不良贷款的置信区间和预测区 间如表 126和表 127所示 . 表 6 不良贷款的置信区间 表 7 不良贷款的预测区间 近似区间预测 )2ˆ,2ˆ( 00 yy sysy  当 n 较大时,且 时,则 jj xx 0ysZ2 从而 ,由于 ,得 2 Zys2则 的近似预测区间为 对例 , 则  ys从而不良贷款 的近似预测区间为 ( , ) 虚拟自变量的回归 一、含有一个虚拟自变量的回归 二、用虚拟自变量回归解决方差分析问题 一、含有一个虚拟自变量的回归 如果一个定性的自变量只划分为两个类别,并分别用 0 和 1 表示,这种定性变量称为虚拟自变量 . 回归模型中使用虚拟自变量时,称为虚拟自变量的回归 .当一个定性的自变量划分为 k (2)个类别时,则可转化为 k 个虚拟自变量,但只能引进 k1 个虚拟自变量 . 例 1 为研究考试成绩与性别之间的关系,从某大学商学院随机 抽取男女学生各 8名,得到他们的市场营销学课程的考试成绩列于表 128. 试建立考试成绩与性别的线性回归方程 . 解:学生性别是一个定性变量,分别用 0 和 1 表示男性和女性,即 由 Excel 给出的结果如表 129所示 . 10x, 男性 ,女性 表 8 16名学生的市场营销学课程考试成绩 考试成绩 y 性别 x75 男 096 女 168 男 051 男 078 女 181 女 172 男 069 男 088 女 193 男 062 男 076 女 145 男 075 女 165 女 1用 Excel进行虚拟自变量的回归分析的步骤 表 9 Excel 给出的回归分析结果 例 2 为研究工资水平与工作年限和性别之间的关系,在某行业随机抽取 10名职工,所得数据如下 . 表 10 10名职工的工资水平、工作年限和性别的数据 月工资收入 工作年限 性别2900 2 男3000 6 女4800 8 男1800 3 女2900 2 男4900 7 男4200 9 女4800 8 女4400 4 男4500 6 男 y 1x 2x表 11 月工资收入 (y)与工作年限 (x1)的回归结果 续 首先,考虑只有数值型自变量 (工作年限 )的一元回归 . 由 Excel 给出的回归结果如表 1211 所示 . 回归方程显著, R2= . 再引进虚拟自变量 (性别 ),即 01x, 男性 ,女性 得包含虚拟自变量的数据表 12如下 . 表 12 10名职工的工资水平 、 工作年限和性别的数据 续 9 1 9 ,8 5 9 22  RR21 6 9 3 2 6 26 1 6 8 74 9 5 3 0ˆ xxy 11)(ˆxxy 根据表 1212的数据,由 Excel 给出的回归结果如表 1213所 示 . 回归方程和回归系数都显著,且 表明应该引入虚拟自变量 (性别 ). 根据表 13,回归方程为 16 1 6 8 74 9 5 3 0ˆ xy 于是对男性职工 , 回归方程为 而对女性职工 ,回归方程为 )1( 2 x)0( 2 x表 13 月工资收入 (y)与工作年限 、 性别 的回归结果 )( 1x )( 2x二、用虚拟自变量回归解决方差分析问题 其他行业航空公司其他行业旅游业其他行业零售业01,01,01321 xxx 例 3 通过方差分析,认为四个行业的平均投诉次数有显著差异 . 行业是一个定性变量,也可以用虚拟自变量回归分析方法研究这一问题 . 这里的定性变量行业划分为 4个水平,从而应引进 3个虚拟 自变量,即 所得数据表 14如下 表 14 不同行业的投诉次数与虚拟变量的数据 续 原假设和备择假设为 43210 :  H43211 ,: H不全相等 0: 3210  H3211 ,: H至少有一个不等于 0 这相当于 由 Excel 给出的回归结果如表 1215所示 . 表 15 Excel的回归结果 课堂练习 设 , 其中 相互独立 , 且 试求 a和 b的最小二乘估计 . 33221122ebayebayeay321 , eee,3,2,1,)(,0)( 2  ieV a reE ii  统计学上的定义和计算公式 非线性回归分析 定义:研究在非线性相关条件下,自变量对因变量的数量变化关系,称为非线性回归分析。 在实际问题中,变量之间的相关关系往往不是线性的,而是非线性的,因而不能用线性回归方程来描述它们之间的相关关系,而要采用适当的非线性回归分析。 非线性回归问题大多数可以化为线性回归问题来求解,也就是通过对非线性回归模型进行适当的变量变换,使其化为线性模型来求解。 一般步骤为:  根据经验或者绘制散点图,选择适当的非线性回归方程;  通过变量置换,把非线性回归方程化为线性回归;  用线性回归分析中采用的方法来确定各回归系数的值;  对各系数进行显著性检验。 计算公式如下。 在本节中介绍几种常见的非线性回归模型,并分别给出其线性化方法及图形。  研究问题 研究民用汽车总量与国内生产总值的关系。 数据如表 73所示。 (资料来源: 《 中国统计年鉴 2020》 ,中国统计出版社, 2020年) SPSS中实现过程  实现步骤 图 79 “Simple Scatterplot”对话框 图 710 散点图 图 711 “Curve Estimation”对话框(一) 结果和讨论 ( 1)第一部分输出相关统计量和参数的值,如下表所示。 ( 2)第二部分输出的是观察值和 Cubic,Power两种曲线预测值的对比图,如图 712所示。 统计学上的定义和计算公式 曲 线 估 计 定义:在一元回归分析中,一般首先绘制自变量和因变量间的散点图,然后通过数据在散点图中的分布特点选择所要进行回归分析的类型,是使用线性回归分析还是某种非线性的回归分析。 然而,在实际问题中,用户往往不能确定究竟该选择何种函数模型更接近样本数据,这时可以采用曲线估计的方法,其步骤如下:  首先根据实际问题本身特点,同时选择几种模型;  然后 SPSS自动完成模型的参数估计,并显示 R F检验值、相伴概率值等统计量;  最后,选择具有 R2统计量值最大的模型作为此问题的回归模型,并作一些预测。  研究问题 试用 SPSS对国内生产总值和社会消费品零售总额之间的关系进行曲线回归分析。 数据如表 74所示。 (资料来源: 《 中国统计年鉴2020》 ,中国统计出版社, 2020年) SPSS中实现过程 表 74 1978~ 2020年社会消费品零售总额 年 份 国内生产总值(亿元) 社会消费品零售总额(亿元) 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2020 2020 2020 2020 2020 2020 2020  实现步骤 图 713 “Curve Estimation”对话框(二) 图 714 “Curve Estimation: Save”对话框(一) ( 1) SPSS输出结果文件中的第一部分如下表所示。 结果和讨论 ( 2)输出的结果文件中第二部分如图 715所示。 ( 3)由于进行曲线估计时所选的曲线模型种类较多,所以使得输出的观察值与在各种函数模型条件下预测值的对比图比较复杂,不易分辨出究竟 Linear, Quadratic, Cubic及Power这 4种曲线究竟哪种的对样本观察值的拟合优度更符合实际。 图 716 对比图 2 ( 4)重新回到图 713所示对话框,在“ Model”框内只选中 “ Quadratic”和 “ Cubic”这两种拟合优度更高的曲线模型进行估计。 得出它们与观察值的对比图,如图 717所示。 图 717 对比图 3 ( 5)如果在图 713所示对话框中选中了“ Display ANOVA table”项,作回归方程显著性检验,将输出相应的方差分析表,以Cubic模型为例(如下表所示),其结果是:回归方程显著有意义,并且 x,x2,x3三个自变量的系数显著不为零。 ( 6)由于在图 713所示对话框中选了“ Save”项,且在图 714所示的 “ Save Variables”框中选择了 “ Predicted values”,“ Residuals”和 “ Prediction intervals”3个选项,因此在 SPSS数据编辑窗口中就增了fit_1, err_1, lcl_1, ucl_1等 44个变量的值,如图 718所示。 图 718 曲线估计分析结果保存 统计学上的定义和计算公式 时间序列的曲线估计 定义:时间序列的曲线估计是分析社会和经济现象中经常用到的一种曲线估计。 通常把时间设为自变量 x,代表具体的经济或社会现象的变量设为因变量 y,研究变量 x与 y之间关系的方法就是时间序列曲线估计。 其具体步骤与一般的曲线估计基本类似。 计算公式: SPSS中时间序列的曲线估计模型与上一节所介绍相同。  研究问题 试用 SPSS对 1978~ 2020年间社会消费品零售总额之间的关系进行曲线回归分析。 数据如表 75所示。 (资料来源: 《 中国统计年鉴2020》 ,中国统计出版社, 2020年) SPSS中实现过程 表 75 1978~ 2020年社会消费品零售总额 序 号 年 份 社会消费品零售总额(亿元) 1 1978 2 1979 3 1980 4 1981 5 1982 6 1983 7 1984 8 1985 9 1986 10 1987 11 1988 12 1989 13 1990 14 1991 15 1992 16 1993 17 1994 18 1995 19 1996 20 1997 21 1998 22 1999 23 2020 24 2020 25 2020 26 2020 27 2020 28 2020 29 2020  实现步骤 图 719 “Curve Estimation”对话框(三) 图 720 “Curve Estimation: Save”对话框(二) ( 1)第一部分输出相关统计量和参数的值如下表所示。 结果和讨论 ( 2)第二部分输出的是观察值 Linear,Cubic, Power和 Exponential 4种曲线预测值的对比图,如图 721所示。 ( 3)由于在图 719所示 “ Curv。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。