多元统计分析判别分析讲义(编辑修改稿)内容摘要:

以判别它应属于哪一个总体。 2.判别函数的导出 ( 1)找到判别式 不妨设已经建立了判别式: 1 1 2 2 ppy c x c x c x   ,则可以得到变换后的两组的重心。 第一组样品的重心: (1) (1)1pkkky c x 第二组样品的重心: (2) (2)1pkkky c x 组间变差:     2( 1 ) ( 2 )12, , , pQ Q c c c y y   ① 这里给出的是一维 Fisher 判别函数。 在有些问题中,仅用一个线性判别函数不能很好地区分各个类(组)别,可以利用前若干个特征所对应的单位正交特征向量构造 ()mm p 个判别函数,并称为多维判别。 第 页 9 组内变差:      12 22( 1 ) ( 1 ) ( 2 ) ( 2 )12 11, , ,nnp i iiiF F c c c y y y y     可以构造指标 QI F 12, , , pc c c的选取原则就是使得 I 极大化 ①。 11 1 1 1 2 1 12 2 1 2 2 2 211ppp p p p p pc s s s dc s s s dc s s s d                                    其中, (1) (2)k k kd x x,        12( 1 ) ( 1 ) ( 1 ) ( 1 ) ( 2 ) ( 2 ) ( 2 ) ( 2 )11nnk l ik k il l ik k il liis x x x x x x x x     。 ( 2)设置判别准则 有了 判别函数之后,要得到判别准则还要确定临界值(分界点) 0y ,在两总体先验概率相等的假设下,一般常取 0y 为 (1)y 与 (2)y 的加权平均值,即 (1) (2)120 12n y n yy nn  判别准则: 当 (1) (2)yy 时,若 0yy ,则判定 1XG ;若 0yy ,则判定 2XG 当 (1) (2)yy 时,若 0yy ,则判定 2XG ;若 0yy ,则判定 1XG 3. 计算步骤 其基本步骤归纳如下: STEP01: 建立判别式; STEP02: 计算临界值 0y ,设置判别准则; STEP03: 检验判别效果 不妨设两个总体服从正态分布且具有相同的协差阵。 构造原假设和备择假设: (1 ) ( 2 )0 1 2:H Ex Ex  , 1 1 2:H  构造检验统计量:     012 2 121221 ,12 ~Hn n pF T F p n n pn n p       成 立 其中      2 ( 1 ) ( 2 ) 1 ( 1 ) ( 2 )1 2 1 212 1 2 1 22 n n n nT n n X X S X Xn n n n      ij ppSs ,        ( 1 ) ( 1 ) ( 1 ) ( 1 ) ( 2 ) ( 2 ) ( 2 ) ( 2 )11nnij a i i a j j a i i a j jaas x x x x x x x x     ,  ( ) ( ) ( )1 ,i i ipX x x  得出结论:当 0H 被拒绝时,认为判别有效;否则,认为判别无效。 3.应用举例 ① 利用微积分中求极值的必要条件可求出使 I 达到最大的12, , , pc c c ,详细过程见教材 P117。 1G 2G 0y (2)y (1)y 2G 1G 0y (1)y (2)y 第 页 10 例 :教材 P121。 三、 多总体的 Fisher 判别 其讨论同前,注意和两总体判别之间的关系。 第 页 11 167。 4 贝叶斯( Bayes)判别法 统计学中现在有两个主要的学派:频率学派与贝叶斯学派,贝叶斯学派是在与频率学派的争论中逐步发展起来的。 争论的问题主要有:未知参数是否可以看作随机变量。 事件的概率是否一定要有频率解释。 概率是否可以用经验来确定。 一、 贝叶斯 统计概述 为了说明二者的异同,简单介绍三种信息。 1.总体信息 即总体分布或总体所属分布族给我们的信息,譬如,“总体是正态分布”这一句话就给我们带来很多信息:它的密度函数是 —— 条钟形曲线;它的 — 切阶矩都存在;有关正态变量的一些事件的概率可以计算;有正态分布可以导 出卡方分布、 t 分布和 F 分布等重要分布;还有许多成熟的点估计、区间估计和假设检验方法可供我们选用。 总体信息是很重要的信息,为了获取此种信息往往耗资巨大。 美国军界为了获得某种新的电子元器件的寿命分布,常常购买成千上万个此种元器件,做大量寿命实验、获得大量数据后才能确认其寿命分布是什么。 我国为确认国产轴承寿命分布服从两参数威布尔分布前后也花了五年时间,处理几干个数据后才定下的。 又如保险费的确定与人的寿命分布密切相关,在保险业中,人的寿命分布被称为寿命表,中国人的寿命表人不同于外国人的寿命表,男人的寿命表不同于女 人的寿命表,北方人的寿命表不同于南方人的寿命表,当代人的寿命表与若干年前人的寿命表也是不同的,而要确定这些寿命表是一项耗资费时的工作,至今我国还缺乏此类寿命决。 确定我国各类人群的寿命表是我国统计工作者的重要任务。 2.样本信息 即从总体抽取的样本给我们提供的信息。 这是最“新鲜”的信息,并巳愈多愈好。 人们希望通过对样本的加工和处理对总体的某些特征作比较为精确的统计推断,没有样本就没有统计学可言。 基于上述两种信息进行的统计推断被称为经典统计学,它的基本观点是把数据 (样本 )看成是来自具有一定概率分布的总体,所研 究的对象是这个总体,而不局限于数据本身。 据现有资料看,这方面最早的工作是高斯 (Gauss, 1777— 1855)和勒让德 (Legendre, 1752— 1833)的误差分析、正态分布和最小二乘法。 从十九世纪末期到二十世纪上半叶,经皮尔逊 (Pearson, 1857— 1936)、费歇尔 (Fisher, 1890— 1962)奈曼(Keyman)的等人杰出的工作创立了经典统汁学。 如今统计学教材几乎全是叙述经典统汁学的理论与方法。 二十世纪下半叶,经典统计学在工业、农业、医学、经济、管理、军事等领域里获得了广泛的应用。 这些领域中又不断提出新的统计问题,这又促进了经典统计学的发展,随着经典统计学的持续发展与广泛应用、它本身的缺陷也逐渐暴露出来,主要集中在:小样本问题研究上、区间估计的解释上、似然原理的认识上。 除上述两种信息外,在我们周围还存在第三种信息 —— 先验信息,它也可用于统计推断。 3.先验信息 即在抽样之前有关统计问题的一些信息,一般说来,先验信息主要来源于经验和历史资料。 先验信息在日常生活和工作中也经常可见,不少人在自觉地或不自觉地使用它。 看下面二个例子。 例 1. 英国统计学家 Savage(1961)曾考察如下二个 统计实验: A.一位常饮牛奶加茶的妇女声称,她能辨别先倒进杯子里的是茶还是牛奶。 对此做了十次试验.她都正确地说出了。 B.一位音乐家声称,他能从一页乐谱辨别出是海顿 (Haydn)还是莫扎持 (Mozart)的作品。 在这十次试验中,他都能正确辨别。 第 页 12 在这两个统计试验中,假如认为被实验者是在猜测,每次成功概率为 ,那么十次都猜中的概率为102   ,这是 — 个很小的概率,是几乎不可能发生的,所以“每次成功概率为 ”的假设应被拒绝。 被实验者每次成功概率要比。 这就不是猜测,而是他们的经验在帮了他们的忙。 可见经验 (先验信息的一种 )在推断中不可忽视,应加以利用。 例 2 “免检产品”是怎样决定的 ?某厂的产品每天都要抽检几件,获得不合格品率  的估计。 经过一段时间后就积累大量的资料,根据这些历史资料(先验信息的一种)对过去产品的不合格率可构造一个分布: ( ) 0 ,1, 2 , ,iiP i nn   这个对先验信息进行加工获得的分布称为先验分布。 这个先验分布是综合了该厂过去产品的质量情况。 如果这个分布的概率绝 大部分集中在 0 附近,那该产品可认为足“信得过产品”。 假如以后的多次抽检结果与历史资料提供的先验分布是一致的。 使用单位就可以对它作出“免检产品”的决定,或者每月抽检一、二次就足够丁,这就省去了大量的人力与物力。 可见历史资料在统计推断中应加以利用。 基于上述三种信息 (总体信息、样本信息和先验信息 )进行的统计推断被称为贝叶斯统计学,它与经典统计学的主要差别在于是否利用先验信息。 在使用样本信息上也是有差异的。 贝叶斯学派重视已出现的样本观察值,而对尚未发生的样本观察 值不予考虑,贝叶斯学派很重视先验信息的收集、挖掘和加工,使它数量化,形成先验分市,参加到统计推断中来,以提高统计推断的质虽。 忽视先验信息的利用,有时是一种浪费,有时还会导致不合理的结论。 贝叶斯统计起源于英国学者贝叶斯( Bayes,1702一 1761)死后发表的一篇论文“论有关机遇问题的求解”。 在此论文中他提出著名的贝叶斯公式和一种归纳推理方法。 随后拉普拉斯等人用贝叶斯提出的方法导出些有意义的结果。 之后虽有一些研究和应用,但由于其理论尚不完整,应用中又出现 — 些问题,致使贝叶斯方法长期未被普遍接受。 真到二次大 战后,瓦尔德提出统计决策函数论后又引起很多人对贝叶斯方法研究的兴趣。 因为在这个理论中贝叶斯解被认为是一种最优决策函数。 在 Savage(1954)、 Jeffreys(1961)、Good(1950)、 Lindley(1961)、 Box(1973)、 Tiao(1973)、 Berger(1985)等贝叶斯学者的努力下,对贝叶斯方法在观点、方法和理论上不断的完善。 另外在这段时期贝叶斯统计在工业、经济、管理等领域内获得一批无可非议的成功应用。 贝叶斯统计的研究论文和著作愈来愈多,国际会议也经常举行。 如今贝叶斯统计已趋成 熟,贝叶斯学派巳发展成为一个有影响的统计学派,开始打破了经典统汁学一统天下的局面。 贝叶斯学派的最基本的观点是:任一个未知量  都可看作一个随机变量,应用一个概率分布去描述对 的未知状况。 这个概率分布是在抽样前就有的关于  的先验信息的概率陈述。 这个概率分布被称为先验分布。 有时还简称为先验 (Prior)。 因为任一未知量都有不确定性,而在表述不确定性程度时,概 率与概率分心是最好的语言。 例 3 学生估计一新教师的年龄。 依据学生们的生活经历,在看了新教师的照片后立即会有反应:“新教师的年龄在 20岁到 40岁之间,极有可能在 30岁左右。 ”一位统计学家与学生们交谈,明确这句话中“左右”可理解为 3 岁,“极有可能”可理解为 90%的把握。 于是学生们对新教师年龄 (未知量 )的认识 (先验信息 )可综合为图所示的概率分布,这也是学生们对未知量 (新教师年龄 )的概率表述。 这里有二 个问题需要进 — 步讨论。 第一,按图所示的概率分布我们可谈论未知量  位于某个区间的概5% 5% 90% 20  25 35 30 40 第 页 13 率。 譬如,  位于 37到 43 岁间的概率为 、即 (37 43)    可这个概率陈述在经典统计中是不允许的,因为经典统计认为  是常量,它要么在 37岁列 43岁之间 (概率为 1),要么在这个区间之外 (上述事件概率为 0),不应有。 然而 ,实际这种说法经常存在。 第二,图中的概率 ,而是学生们根据自己的生活经历的积累对该事件发生可能性所给出的信念,这样给出的概率在贝叶斯统计中是允许的,并称为它为主观概率。 它与古典概率和用频率确定的概率有相同的含义,只要它符合概率的三条公理即可。 这 — 点频率学派是难以接受的,他们认为经典统计学是用大量重复试验的频率来确定概率、是“客观的”,因此符合科学的要求,而认为贝叶斯统计是“主观的”,因比 (至多 )只对个人作决策有用。 这是当前对贝叶斯统计的主要批评。 贝叶斯学派认为引入主观概率 及由此确定的先验分布至少把概率与统计的研究与应用范围扩大到不能大量重复的随机现象中来。 其次,主观概率的确定不是随意的,而是要求当事人对所考察的事件有较透彻的了解和丰富的经验,甚至是这一行的专家,在这个基础上确定的主观概率就能符合实际。 把这样一些有用的先验信息引入统计推断中来只会有好处,当然误用主观概率与先验分布的可能性是存在的。 最后,贝叶斯学派也经常揭露频率学派的“客观性”,总体分布的选择对答案所产生的影响远比先验分布选择所产生的影响重大的多,而前者恰好也经常是主观的。 另外评价一个统计方法好坏的标准上的选择 ,主观性也是很大的,都朝着对自己有利的方向选择。 G。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。