sas系统和数据分析主成分分析(编辑修改稿)内容摘要:
商务数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 10 of 30 3. 结果分析 表 (a)包括基本统计数,即每一变量的平均数、标准差。 表 中输出结果( b)为简单相关系数矩阵。 表 ( c)为输出相关矩阵的特征值。 表 输出结果( d)为特征向量。 我们从相关矩阵出发进行主成分分析。 从表 中输出结果 (c)可以看出,在最后一列累计贡献率中,前两个主成分的累计贡献率已达 %,前三个主成分的累计贡献率达 %,最终为 100%。 因此 , 可以考虑只取前面两个或三个主成分 ,它们能够很好地概括这组数据。 其中第一主 成分 分量的特征值为 ,其方差为 ,贡献率为 ,请注意七个主 成分 分量的特征值之和为 7。 由 表 中输出结果( d)中的 7 个特征值和特征向量,我们可以写出由标准化变量所表达的第一主成分为: PRIN1= murder + rape + robbery + + burglary + + 其中, murder 等为标准化变量,即 murder=( MURDER- ) /。 各标准化指标 murder 等前的系数,与该主成分所对应的特征值之平方根的乘积是该主成分与该指标之间的相关系数,如 PRIN1与 MURDER 相关系数为 =。 第一主成分单独地说明整个原始数据标准变异的 %。 同样我们可以写出第二主 成分 为: PRIN2=- - +- +1burglary+ + auto 第二主 成分 为抢、盗罪( robbery, burglary, larceny 和 auto系数为正)与杀、淫罪( muder,rape 和 assault 系数为负)的对比。 第一、第二主 成分 结合,可说明标准总变异的 %。 第三十六课 由于第一主成分对所有变量都有近似相等的载荷,因此可认为第一主成分是对所有犯罪率的总度量。 第二主成分在变量 auto 和 larceny 上有高的正载荷,而在变量 murder 和 assault 上有高的负载STATE PRIN1 PRIN2 MURDER RAPE ROBBERY ASSAULT BURGLARY LARCENY AUTO MISSISSIPPI SoutH CAROLINA ALABAMA LOUISIANA NORTH CAROLINA „„ DELAWARE CONNECTICUT HAWAII RHODE ISLAND MASSACHUSETTS 0bbca224c509b9c88ed2d108f0e53c72 商务数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 11 of 30 荷;在 burglary 上存在小的正载荷,而在rape 上存在小的负载荷。 可以认为 , 这个主成分是用于度量暴力犯罪在犯罪性质上占的比重。 第三主成分很难给出明显的解释。 在依 PRIN1 排序的结果表 中,排在前面的 PRIN1 值较小的州犯罪率较低,即北达科他 NORTH DAKOTA( PRIN1= )州犯罪率最低, PRIN1值较大的州,犯罪率较高,即内华达NEVADA( PRIN1= )州犯罪率最高。 在依 PRIN2 排序的结果表 中,排在前面的 PRIN2 值较小州的暴力犯罪性质比重较大,即密西比比 MISSISSIPPI( PRIN2= )州的暴力犯罪性质比重最大, PRIN2 值较大州的暴力犯罪性质比重较小,即 马 萨诸塞MASSACHUSETTS( PRIN2= )州的暴力犯罪性质比重最小。 因子分析 因子分析( Factor Analysis)是主成分分析的推广,它也是从研究相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。 具体地说,就是要找出某个问题中 可直接测量的、具有一定相关性的诸指标,如何受少数几个在专业中有意义,又不可直接测量到,且相对独立的因子支配的规律,从而可用诸指标的测定来间接确定诸因子的状态。 0bbca224c509b9c88ed2d108f0e53c72 商务数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 12 of 30 八、 何为因子分析 因子分析的目的是用有限个不可观察的潜在变量来解释原变量间的相关性或协方差关系。 在这里我们把不可观察的潜在变量称为公共因子( mon factor)。 在研究样品时,每个样品需要检测很多指标,假设测得 p 个指标,但是这 p 个指标可能受到 m (m p )个共同因素的影响,再加上其他对这些指标有影响的因素。 写成数学的形式就是: pmpmpppmmmmefafafaXefafafaXefafafaX2211222221212112121111 () 利用矩阵记号有: 111 pmmPp efAX () 各个指标变量都受到 if 的影响,因此 if 称为公共因子, A 称为因子载荷矩阵, ie 是单变量 iX 所特有的因子,称为 iX 的特殊因子( unique factor)。 设 1f , 2f ,„, mf 分别是均值为 0,方差为 1的随机变量,即 mIfD )( ;特殊因子 1e , 2e ,„,pe分别是均值为 0,方差为 21d , 22d ,„, 2pd的随机变量,即 DdddeDp ),d ia g ()( 22221 ;各特殊因子之间及特殊因子与公共因子之间都是相互独立的,即 jieeC ovji ,0),(及0),( feCov。 错误 !未定义书签。 是第 j 个变量在第 i 个公共因子上的负荷,从投影的角度看,jia就是jX在坐标轴 if 上的投影。 主成分分析的目标是降维,而因子分析的目标是找出公共因素及特有的因素,即公共因子与特殊因子。 在主成分分析中,残差通常是彼此相关的。 在公因子分析中,特殊因子起到残差的作用,但被定义为彼此不相关且和公因子也不相关。 而且每个公因子假定至少对两个变量有贡献,否则它将是一个特殊因子。 在开始提取公因子时,为了简便还假定公因子彼此不相关且具有单位方差。 在这种情况下,向量 X 的协方差矩阵Σ可以表示为: DAAeAfDXD )()( () 这里 D=diag( 22221 , pddd ), diag表示对角矩阵。 如果假定已将 错误 !未定义书签。 标准化,也就是说 错误 !未定义书签。 的每一个分量 iX 的均值都为 0,方差都是 1,即 1)( iXD ,那么: 0bbca224c509b9c88ed2d108f0e53c72 商务数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 13 of 30 mj iijiimimiiidaXV arefafafaX1222211)(1 () 记 mj iji ah 122 ,则有: pidh ii ,2,1,1 22 () 错误 !未定义书签。 反映了公共因子 f对 iX 的影响,称为公共因子 f 对 iX 的“贡献”。 2ih实际反映了变量 iX 对公共因子 f 的依赖程度。 另一方面,还可以考虑指定的一个公共因子 jf 对各个变量 iX 的影响。 实际上, jf 对各个变量 iX 的影响可由 A 中第 j 列的元素来描述,那么: pi ijj ag 1 22 () 称为公共因子 jf 对 X 的“贡献”。 显然 2jg 越大, jf 对 X 的影响就越大, 2jg 成为衡量因子重要性的一个尺度。 实际上: ijjimk jkikji afeC ovffC ovafXC ov ),(),(),( 1 () 那么,矩阵 A 的统计意义就非常清楚: 错误 !未定义书签。 是 iX 和 jf 的相关系数 错误 !未定义书签。 是 iX 对公共因子 f 的依赖程度 错误 !未定义书签。 是公共因子 jf 对 X 的各个分量总的影响 下面我们来看怎样求解因子载荷矩阵 A。 九、 因子载荷矩阵的求解 如果已知 X 协方差矩阵 和 D ,可以很容易地求出 A。 根据式 ()有: AAD () 记 D* ,则 * 是非负定矩阵。 若记矩阵 * 的 p 个特征值 1 ≥ 2 ≥„≥ m 1m = „ = p = 0,且 m个非零特征值所对应的特征向量分别为 1 , 2 ,„, m ,则 * 的谱0bbca224c509b9c88ed2d108f0e53c72 商务数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Page 14 of 30 分解式为: mmmm mmm ,, 22112211 222111* () 只要令: mmA , 2211 () 就可以求出因子载荷矩阵 A。 但在实际问题中,我们并不知道 、 D ,即不知道 * ,已知的只是 n 个样品,每个样品测得 p 个指标,共有 np 个数据,样品数据见表。 为了建立公因子模型,首先要估计因子载荷 错误 !未定义书签。 和特殊因子方差 2id。 常用的参数估计方法有以下三种:主成分法、主因子解法和极大似然法。 1. 主成分法 主成分法求因子载荷矩阵 A 的具体求法如下:首先从资料矩阵出发求出样品的协方差矩阵,记之为 ˆ ,其特征值为 021 p ,相应的单位正交特征向量为 p , 21 ,当最后 mp 个特征值较小时,则对 ˆ 进行谱分解 可以近似为: Dmmm 222111ˆ () 其中, 1 ≥ 2 ≥„≥ m 0 是协方差矩阵 ˆ 相应的前 m 个较大特征值。 先取111 a ,然后看 11ˆ aa 是否接近对角阵。 如果接近对角阵,说明公共因子只要取一个就行了,所有指标主要受到这一个公 共因子的影响;如果 11ˆ aa 不是近似对角阵,就取222 a ,然后看 2211ˆ aaaa 是否接近对角阵,如果接近对角阵,就取两个公共因子;否则,再取 333 a ,„,直到满足“要求”为止。 这里的“要求”要视具体情况而定,一般而言,就像主成分分析一样,直接取前 q 个特征值和特征向量,使得它们的特征值之和占全部特征值之和的 85 % 以 上 即 可。 此 时 , 特 殊 因 子 方 差piad qt tiiii ,2,1,ˆ 1 22 。 2. 主因子解法 主因子解法是主成分法的一种修正,它是从资料矩阵出发求出样品的相关矩阵 R ,设DAAR ,则 AADR 。 如果我们已知特殊因子方差的初始估计 2*)ˆ( id ,也就是已0bbca224c509b9c88ed2d108f0e53c72 商务数据分析。sas系统和数据分析主成分分析(编辑修改稿)
相关推荐
print data=testd4。 Run。 在 OUTPUT 窗口中显示的运行结果 如 图 所示。 图 用列指针控制读入外部文件后的 SAS 数据集 c7505695adb36f18f7e25cf5d2462a90 SAS 系统和数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Created by Page 7 of 18 变量表 (输入格式表 )是一种分组格式表
之后不起作用, lstknm的长度为 6,所以显示的值分别为’深发展’和’大秦铁’。 Obs lstknm 1 深发展 2 大秦铁 上段程序的正确写法: data a。 lstknm=’深发展’。 data b。 lstknm=’大秦铁路’。 data c。 length lstknm $12。 /*length语句放在 set语句之前 */ set a b。 proc print。
PHYS1 PHYS2 PHYS3 WEIGHT WAIST PULSE Correlations Between the Exercises and Their Canonical Variables EXER1 EXER2 EXER3 CHINS SITUPS JUMPS Correlations Between the Physiological Measurements and the
Data class4。 Set class2。 0e3194151c8f36e3d5fa7075bfdf439d SAS 系统和数据分析 电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Created by Page 5 of 12 if total lt 450 then delete。 Proc print data=class4。 Run。 程序三: Data class4。
那么 SAS 系统自动地创建一些 SAS 数据集,并命名为 DATA DATA„这些数据集被存在 WORK 库中。 五、 SAS 数据集的索引 SAS 数据集可以用一个或几个被称为关键字变量的变量来索引。 SAS 索引根据用它们的值组成索引的关键字的个数多少而分为 : 简单索引 复合索引 1. 简单索引 简单索引是用一个关键变量的值来对观测定位指针。 这个关键变量可以是数值变量或字符变量
电子商务系列 上海财经大学经济信息管理系 IS/SHUFE Created by Page 4 of 7 %宏名字(参数值)。 例如,我们定义了一个简单通用的宏程序 INVOKE,它有两个参数宏变量 proame 和dsname,用以传递给宏程序所需的过程名和数据集名。 在调用这个宏程序时要将具体的 参数宏变量值给出,其值分别为 Print 和。 程序如下: %MACRO INVOKE(