sas系统和数据分析判别分析(编辑修改稿)内容摘要:
密度估计的输出 SAS数据集。 testout=数据集名 —— 生成一个输出 SAS数据集。 包含来自 testdata指定数据集的所有数据,后验概率和每个观测被分 入 的类。 当 canonical选项指定时,该数据集还包括典型变量得分的新变量。 testoutd=数据集名 —— 生成一个包含 testdata 指定数据集的所有数据和对每一观测的组 密度估计的输出 SAS数据集。 2. 有关判别分析的类型和规则选项 method= normal | npar—— 确定导出分类准则的方法,默认值为 method= normal。 当指定 method= normal时,基于类内服从多元正态分布,并导出线性或二次判别函数;当ed6e74e0641c5cc279a1942ed79030e9 商务数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 12 of 70 指定 method=npar时,采用非参数方法。 pool= no| test | yes—— 确定平方距离的度量,是以合并协方差阵还是组内协方差阵为基础,默认值为 pool= yes。 当 pool= yes 时,采用合并协方差阵得出线性判别函数;当pool= no 时,采用单个组内协方差阵得出二次判别函数;当 method= normal时, pool=test要求对组内协方差阵的齐性的似然比检验进行 Bartlett修正,当不加选择项 short时,线性判别函数会直接给出,而二次型判别函数需通过建立输出数据集方式获得。 slpool= p—— 指定齐性检验的显著水平。 只 有 当 pool=test 指定时才选择 slpool=选项。 如果 pool=test 而 slpool=未指定,显著水平为。 threshold= p—— 指定分类中可以接受的最小后验概率 p值。 缺省值 p=0。 如果某观察样品归属于某组的最大后验概率值小于这个 p 值,那么这个观察样品归入 OTHER(已知组外的组)组。 anova 和 manova 选项 —— 分别要求输出对各类的单个变量与多个变量的均数、均值向量之间进行一元或多元方差分析的结果,其作用就是检验判别函数的判别效果。 listerr 和 crosslisterr 选项 —— listerr 表示要求仅仅输出由后验概率产生错误分类的那些样品点的有关信息, crosslisterr 表示要求以交叉表的形式输出实际类别与分类结果之间一致和不一致的有关信息。 3. 有关非参数法的选项 k=数值 —— 为 k最近邻规则指定一个 k值。 观察 x分入一个组基于从 x的 k个最近邻得到的信息。 r=数值 —— 为核密度估计指定一个半径 r 值。 kernel=biw/epa/nor/tri/uni—— 为估计组密度指定一个核密度,缺省值为 uni。 metric=diagonal/full/identity—— 为平方距离的计算指定量度。 缺省值为 full。 4. 其他主要语句 var 语句 —— 指定用于进行判别分析的变量子集,建立起关于此变量子集的判别函数式。 priors 语句 —— 指定先验概率,它有 3种指定方法, ① priors equal,表示各类先验概率相等,缺省值; ② priors proportional, 表示各类先验概率等于各类样本频率; ③ priors a=p1 b=p2 c=p3, 其中 a、 b 和 c 是分类标志, p p2 和 p3 是先验概率, p1+p2+p3=1。 五、 Candisc 典型判别分析过程 candisc 过程完成典型判别分析,计算平方 Mahalanobis 距离并做单变量与多变量的单向方差分析并且计算类均值间基于合并类内协方差阵的平方距离( Mahalanobis 距离)。 该过程产生包括典型系数和典型变量得分的输出数据集。 典型判别分析是与主成 分 分析和典型相关有关的降维方法。 给定两组或更多组带有几个定量变量的观察,典型判别分析得出与组有最大可能多重相关的变量的线性组合。 最大的多重相关叫做第一典型相关。 线性组合的系数称为典型系数或典型权重。 线性组合定义的变量称为第一典型变量或典型成 分。 第二典型相关由与第一典型变量无关的线性组合得到,该组合应与组有最大可能多重相关。 抽取典型变量的过程可以重复直到典型变量的个数等于原始变量的个数或类的个数减一。 candisc 得出的典型变 量,如同主成分概括全变差一样来概括类ed6e74e0641c5cc279a1942ed79030e9 商务数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 13 of 70 间变差。 典型判别分析相当于执行了以下步骤: 变换变量使合并的类内协方差阵为单位阵; 计算变换后的变量的类均值; 对均值做主成 分 分析,以每一类中的观察个数为权重; 特征值等于每一个主成 分 方向上的类间偏差与类内偏差之比; 把主成 分 变量反变换到原始变量的空间,获得典型变量。 典型变量间不相关,但典型系数并不正交。 因此,典型变量并不代表原始变量空间中的正交方向。 对每一个典型相关, candisc 检验总体中该相关及更小的典型相关为零的假设。 采用 F 近似值比一般的 2 近似值能给出更好的小样本结果。 每一类内变量应该具有近似的多元正态分布,为了概率水平有效,方差阵应该是共同的。 第一典型相关大于等于组与任何一个原始变量间的多重相关。 该过程产生一个包含每一典型变量得分的输出数据集。 可以利用 print 过程列出这些值,还可以用 plot 过程作出典型变量对的散点图以助于直观地解释组的不同。 另一个输出数据集包含由 factor 过程利用旋转算法得到的典型系数。 candisc 过程一般由下列语句控制: proc candisc 选项列表 ; class 变量; by 变量表; freq 变量; var 变量表; weight 变量; run; 1. proc candisc 语句 选项列表 中的选项按性质可以分成以下 4 类: ( 1) 数据集选项 data=数据集名 —— 指定欲进行分析的数据集。 默认时,采用最新生成的数据集。 out=数据集名 —— 生成一个包含原始数据和典型变量得分的 SAS 数据集。 outstat=数据集名 —— 生成一个包含各种统计量的输出 SAS 数据集。 ( 2) 典型变量选 项 ncan= n —— 指定将被计算的典型变量的个数。 n 的值必须小于或等于变量的个数。 如果指定 ncan= 0,过程打印典型相关而不是典型系数、结构或均值。 如果 ncan为负值,典型分析将被抑制。 prefix=前缀名 —— 为命名典型变量指定前缀。 ( 3) 奇异性选项 singular = p—— 指定判别全样本相关阵和合并类内协方差阵奇异的标准,这里 0< p 1。 默认值为 singular =108。 ed6e74e0641c5cc279a1942ed79030e9 商务数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 14 of 70 ( 4) 打印选项 按打印的内容可以分成以下 5 类: ① 控制相关阵打印的选项: bcorr—— 类间相关。 pcorr—— 合并类内相关(基于合并类内协方差的偏相关)。 tcorr—— 全样本相关。 wcorr—— 每一类水平的类内相关。 ② 控制协方差阵打印的选项: bcov—— 类间协方差。 pcov—— 合并类内协方差。 tcov—— 全样本协方差。 wcov—— 每一类水平的类内协方差。 ③ 控制 sscp 矩阵打印的选项: bsscp—— 类间 sscp 阵。 psscp—— 合并类内修正 sscp 阵。 tsscp—— 全样本修正 sscp 阵。 wsscp—— 每一类水平的类内修正 sscp 阵。 ④ 其他选项: anova—— 检验总体中每一变量类均值相等的假设的单变量统计量。 distance—— 类均值间的平方 Mahalanobis 距离。 simple—— 全样本和类内的简单描述性统计量。 stdmean—— 全样本和合并的类内标准化类均值。 all—— 产生以上所有打印选项。 ⑤ 抑制打印的选项: noprint—— 不打印。 short—— 只打印典型相关表和多元检验统计数字。 2. 一般语句 class 语句 —— class 变量的值定义分析的组。 类水平由 classs 变量的值确定。 class变量可以是数值型或字符 型。 var语句 —— var语句指定分析中包括的定量变量。 如果省略 var语句,分析将包括未在其他语句中列出的全部定量变量。 其他语句的说明我们在这里省略了。 六、 实例分析 例 Fisher 于 1936 年发表的鸢尾花( Iris)数据被广泛地作为判别分析的例子。 数据是对 3 种鸢尾花:刚毛鸢尾花( setosa 第 1 组)、变色鸢尾花( versicolor 第 2 组)和佛吉尼亚鸢尾花( virginica 第 3 组)各抽取一个容量为 50的样本,测量其花萼长( sepallen) x花萼宽( sepalwid) x2 、花瓣长( petallen) x花瓣宽( petalwid) x4,单位为 mm,分组标记为S,数据见表。 表 150 个样品的鸢尾花数据 ed6e74e0641c5cc279a1942ed79030e9 商务数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 15 of 70 X1 X2 X3 X4 S X1 X2 X3 X4 S X1 X2 X3 X4 S X1 X2 X3 X4 S 50 33 14 02 1 64 28 56 22 3 65 28 46 15 2 67 31 56 24 3 63 28 51 15 3 46 34 14 03 1 69 31 51 23 3 62 22 45 15 2 59 32 48 18 2 46 36 10 02 1 61 30 46 14 2 60 27 51 16 2 65 30 52 20 3 56 25 39 11 2 65 30 55 18 3 58 27 51 19 3 68 32 59 23 3 51 33 17 05 1 57 28 45 13 2 62 34 54 23 3 77 38 67 22 3 63 33 47 16 2 67 33 57 25 3 76 30 66 21 3 49 25 45 17 3 55 35 13 02 1 67 30 52 23 3 70 32 47 14 2 64 32 45 15 2 61 28 40 13 2 48 31 16 02 1 59 30 51 18 3 55 24 38 11 2 63 25 50 19 3 64 32 53 23 3 52 34 14 02 1 49 36 14 01 1 54 30 45 15 2 79 38 64 20 3 44 32 13 02 1 67 33 57 21 3 50 35 16 06 1 58 26 40 12 2 44 30 13 02 1 77 28 67 20 3 63 27 49 18 3 47 32 16 02 1 55 26 44 12 2 50 23 33 10 2 72 32 60 18 3 48 30 14 03 1 51 38 16 02 1 61 30 49 18 3 48 34 19 02 1 50 30 16 02 1 50 32 12 02 1 61 26 56 14 3 64 28 56 21 3 43 30 11 01 1 58 40 12 02 1 51 38 19 04 1 67 31 44 14 2 62 28 48 18 3 49 30 14 02 1 51 35 14 02 1 56 30 45 15 2 58 27 41 10 2 50 34 16 04 1 46 32 14 02 1 60 29 45 15 2 57 26 35 10 2 57 44 15 04 1 50 36 14 02 1 77 30 61 23。sas系统和数据分析判别分析(编辑修改稿)
相关推荐
式 ()两边取期望 E ,根据平稳时间序列均值为常数的性质,有 tEx ,且因为 t 为零均值的白噪声,有 0,0,0,0 21 qtttt EEEE ,所以: )( 2211 qtqtttt EEx () 如果把非中心化的 )(qMA 序列减去上式 ()中的 ,则转化为中心化 )(qMA 序列。 特别地
() 也就是 , ut 遵循以 0为均值 , (0+1u2t1 )为方差的正态分布。 tu )(,0 2 110 tuN 由于 ()中 ut 的方差依赖于前期的平方扰动项,我们称它为 ARCH(1)过程: 通常用极大似然估计得到参数 0, 1, 2, , k, 0, 1的有效估计。 容易加以推广 , ARCH (p)过程可以写为: () 这时方差方程中的
S语句代替 INFILE语句。 所对应的一般程序结构如下: Data 所要创建的数据集名。 图 调用 VIEWTABLE 窗口浏览数据集 cc381fe59fe483e9d188433804805395 SAS 系统和数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 7 of 14 Infile „读取的外部文件名 ’ FIRSTOBS=开始读入的行 OBS=结束行
单后,选择 REPORT WRITING(编写报表)。 7. 选择 LISTING(列表显示) 在 Report Writing Menu 菜单中选择第一个 LISTING 子菜单。 如 图 所示,在SAS/ASSIST: List a Data Set 对话界面让用户做以下几方面的选择: 给出生成报表的那个 SAS数据集的名字。 单击 Active data set按钮,在
A的语句比分母为 A*B的语句求出的百分数要大。 我们已经知道,在 TABLE 语句中分类变量都要事先在 CLASS 语句中定义过,但是有一个特殊的分类变量叫 ALL,也称全类变量。 全类变量 ALL 可以直接用在 TABLE 语句中,它仅有一个值,表示所有的子集和及总和,这是一个非常有用的类,常放在表格的最后一行和最后一列计算总和的统计量。 例如下面的语句:
的过程结束,所得方程即为‚最优‛回归方程。 • 向前引入法有一个明显的缺点,就是由于各自变量可能存在着相互关系,因此后续变量的选入可能会使前面已选入的自变量变得不重要。 这样最后得到的‚最优‛回归方程可包含一些对 Y影响不大的自变量。 回归变量的选择与逐步回归 • 向后剔除法与向前引入法正好相反,首先将全部 m个自变量引入回归方程,然后逐个剔除对因变量 Y作用不显著的自变量。 具体地说,从回归式