sas的相关与回归多元回归正式(编辑修改稿)内容摘要:

的过程结束,所得方程即为‚最优‛回归方程。 • 向前引入法有一个明显的缺点,就是由于各自变量可能存在着相互关系,因此后续变量的选入可能会使前面已选入的自变量变得不重要。 这样最后得到的‚最优‛回归方程可包含一些对 Y影响不大的自变量。 回归变量的选择与逐步回归 • 向后剔除法与向前引入法正好相反,首先将全部 m个自变量引入回归方程,然后逐个剔除对因变量 Y作用不显著的自变量。 具体地说,从回归式 m个自变量中选择一个对 Y贡献最小的自变量,比如,将它从回归方程中剔除;然后重新计算 Y与剩下的 m1个自变量回归方程,再剔除一个贡献最小的自变量,比如,依次下去,直到得到‚最优‛回归方程为止。 向后剔除法中终止条件与向前引入法类似。 • 向后剔除法的缺点在于,前面剔除的变量有可能因以后变量的剔除,变为相对重要的变量,这样最后得到的‚最优‛回归方程中有可能漏掉相对重要的变量。 回归变量的选择与逐步回归 • 逐步回归法是上述两个方法的综合。 向前引入中被选入的变量,将一直保留在方程中。 向后剔除法中被剔除的变量,将一直排除在外。 这两种方程在某些情况下会得到不合理的结果。 于是,可以考虑到,被选入的的变量,当它的作用在新变量引入后变得微不足道时,可以将它删除;被剔除的变量,当它的作用在新变量引入情况下变得重要时,也可将它重新选入回归方程。 这样一种以向前引入法为主,变量可进可出的筛选变量方法,称为逐步回归法。 回归变量的选择与逐步回归 • 它的主要思路是在考虑的全部自变量中按其对的作用大小,显著程度大小或者说贡献大小,由大到小地逐个引入回归方程,而对那些对作用不显著的变量可能始终不被引人回归方程。 另外,己被引人回归方程的变量在引入新变量后也可能失去重要性,而需要从回归方程中剔除出去。 引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步,每一步都要进行检验,以保证在引人新变量前回归方程中只含有对影响显著的变量,而不显著的变量已被剔除。 • 首先给出引入变量的显著性水平和剔除变量的显著性水平,然后筛选变量。 回归变量的选择与逐步回归 回归变量的选择与逐步回归 • 逐步回归分析的实施过程是每一步都要对已引入回归方程的变量计算其偏回归平方和(即贡献),然后选一个偏回归平方和最小的变量,在预先给定的水平下进行显著性检验,如果显著则该变量不必从回归方程中剔除,这时方程中其它的几个变量也都不需要剔除(因为其它的几个变量的偏回归平方和都大于最小的一个更不需要剔除)。 相反,如果不显著,则该变量要剔除,然后按偏回归平方和由小到大地依次对方程中其它变量进行检验。 将对影响不显著的变量全部剔除,保留的都是显著的。 接着再对未引人回归方程中的变量分别计算其偏回归平方和,并选其中偏回归平方和最大的一个变量,同样在给定水平下作显著性检验,如果显著则将该变量引入回归方程,这一过程一直继续下去,直到在回归方程中的变量都不能剔除而又无新变量可以引入时为止,这时逐步回归过程结束。 例题-多重线性回归 • 27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值,试建立血糖与其它几项指标关系的多元线性回归方程。 例题-变量筛选 • 对上一个例题的解释变量进行变量筛选。 本章小节 • 相关分析和回归分析是研究现象之间相关关系的两种基本方法。 相关是解决客观事物或现象相互关系密切程度的问题,而回归则是用函数的形式表示出因果关系。 有相关不一定因果关系;反之,有因果关系的,一定有相关。 • 所谓相关分析,就是用一个指标来表明现象间相互依存关系的密切程度。 按相关程度划分可分为完全相关、不完全相关、和不相关;按相关方向划分可分为正相关和负相关;按相关的形式划分可分为线形相关和非线形相关;按变量多少划分可分为单相关、复相关和偏相关。 所谓相关分析,就是分析测定变量间相互依存关系的密切程度的统计方法。 一般可以借助相关系数、相关表与相关图来进行相关分析。 本章小节 • SAS系统中进行直线相关分析的过程步是 CORR过程。 CORR过程存在于 SAS的 base模块,可以计算 Pearson积矩相关系数、 Spearman秩相关系数、 Kendall‘s tau b统计量、 Hoeffding’s独立性分析统计量 D以及 Pearson, Spearman,以及 Kendall偏相关系数。 • REG是用于一般目的回归分析的过程。 本章详细对 REG过程语句和基本格式进行了说明,并以实例演示如何利用 SAS程序进行相关分析。 本章小节 • 直线回归分析的任务在于找出两个变量有依存关系的直线方程,以确定一条最接近于各实测点的直线,使各实测点与该线的纵向距离的平方和为最小。 这个方程称为直线回归方程,据此方程描绘的直线就是回归直线。 相关关系能说明现象间有无关系,但它不能说明一个现象发生一定量的变化时,另一个变量将会发生多大量的变化。 也就是说,它不能说明两个变量之间的一般数量关系值。 回归分析,是指在相关分析的基础上,把变量之间的具体变动关系模型化,求出关系方程式,就是找出一个能够反映变量间变化关系的函数关系式,并据此进行估计和推算。 SAS 过程步 (procedure step) 蒋红卫 Email: SAS应用 复习 数据步 ( data step) 相关内容 主要功能 生成 SAS数据集的方法 SAS数据集的要素 基本语句 临时数据集和永久数据集的区别 (Temporary data set / Permanent data set ) 例 1: •DATA CLASS1。 INPUT NAME $ 18 AGE 10 SEX $ 12 HEIGHT 1417 WEIGHT 1923 BUST 2528。 CARDS。 Lumin 3 B caihang 3 B limin 4 G liyou 4 B liuyin 4 B liuyang 5 G huye 5 G chengbin 6 G yangbin 6 B liuhong 6 B yanjin 7 G zhangge 7 G。 RUN。 授课内容: 授课学时: 8个学时(理论 4学时,实习 4学时) 目的: SAS过程步的通用语句和三个常用的过程步 的格式和功能 , 并能够根据要求编写相应程序。 means过程 , univariate过程和 freq过程 来计算常见的基本统计量。 难点: 1.“过程 ” 与 “ 语句 ” 的区别 format过程的区别 本次课主要内容 • 过程步的通用语句 proc var by format freq (Class Id Output Title) • 三个过程步 过程 过程 过程 概念 过程步 (procedure step)是以关键字PROC开始的一个或多个语句 , 它的任务是分析和处理数据集中的数据。 过程步的格式 PROC 过程名 [过程选择项 ]; 语句 [/语句选择项 ]; 语句 [/语句选择项 ]; 语句; …… RUN。 PROC PRINT DATA=CLASS。 VAR NAME AGE。 BY SEX。 RUN。 在 PROC步里,有一些最基本的信息要告诉 SAS系统 选择的 过程 是什么。 (proc) 要分析的数据集是什么。 (data) ( 永久数据集 , 临时数据集 , 当前数据集和非 SAS数据集 ) 要处理的变量是什么。 (variable) 是否要分组进行处理分析。 (grouping)  第一句是 proc 语句。 表明要进行一项数据分析。 proc 后面是 SAS系统定义的过程名,然后是 SAS 数据集名,然后是过程选择项。 (指明过程 )  第二句开始是系统指定的必选 SAS 语句以及语句选择项。 (指明分析变量)  然后是与该过程名配合使用的一些其它SAS 语句。 (分组及其它)  最后一句是结束语句。 例 2: • PROC PRINT DATA=CLASS。 VAR NAME AGE。 BY SEX。 RUN。 过程名( Procedure program ) SAS 过程步是用来完成某个实际任务的 SAS 程序。 这种程序和 SAS 数据步程序不同,它仅需要 告诉计算机做什么 ,而不需要象 SAS 数据步那样告诉计算机怎么做。 这是因为 SAS系统的过程库里已经存储了各种现成的用来完成不同任务的程序,并且 SAS系统给每一个程序定义了一个相应的名字,称为过程名。 过程名通常不超过 8个字符,代表一种数据分析或实用过程的名字。 例如, ttest, anova, reg, corr, tabulate,plot, print 等,它们分别是 t检验,方差分析,回归分析,相关分析,制表,绘图和输出打印的过程名。 过程步名 功能 SORT 将指定的数据集按指定的变量排序 PRINT 将数据集中的数据列表输出 UNIVARIATE 对指定的数值变量进行统计描述 MEANS 对指定的数值变量进行统计描述 FREQ 对指定的计数变量进行统计描述 TTEST 对指定的变量做 t 检验 ANNOVA 对指定的变量做方差分析 NOPAR1WAY 对指定的变量做非参 检验 REG 对指定的变量做回归分析 CORR 对指定的变量做相关分析 GLM 对指定的变量做方差、协方差分析 LOGISTIC 对指定的变量做 logistic回归分析 PHREG 对指定的变量做 COX回归分析 三、用于 SAS过程步中的通用语句 能够在 SAS过程步中使用的语句。 而非各个过程步的专用语句。 PROC语句:表示过程步的开始及调用某一要使用的过程 VAR语句:定义被分析的变量 BY语句:按指定的变量值来分组处理数据集 CLASS语句:在分析中定义分类变量 SUM语句: 对指定的变量求和,当然该变量必须是数值型变量。 格式: sum SAS变量名; PROC 语句 格式: PROC SAS过程名 [选择项 ]; 功能:调用 SAS过程并完成该过程处理数据的任务。 PROC语句选择项: 1. 关键字 ( keyword) 指定反应本过程特征 的关键。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。