(人教A版)选修2-3数学 第3章《统计案例》章末整合课件内容摘要:

1、1 回归分析 回归分析是对具有相关关系的两个变量进行统计分析 的一种常用方法,其步骤是先画出散点图,并对样本点进行相关性检验,在此基础上选择适合的函数模型去拟合样本数据,从而建立较好的回归方程,并且用该方程对变量值进行分析;有时回归 模型可能会有多种选择 ( 如非线性回归模型 ) ,此时可通过残差分析或利用相关指数 而得到最佳模型 一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了 10 次试验,测得的数据如下: 零件数 x / 个 10 20 30 40 50 60 70 80 90 100 加工时 间 y / 分 62 68 75 81 89 95 102 108 1 15 2、 122 (1) y 与 x 是否具有线性相关关系。 (2) 如果 y 与 x 具有线性相关关系,求回归直线方程 (3) 根据求出的回归直线方程,预测加工 200 个零件所用的时间为多少。 【思路启迪】 画出散点图,判断 y 与 x 的线性相关关系,应用公式求有关数据,求回归直线方程 【解】 (1) 作出如下散点图: 显然,图中的数据点大致分布在一条直线附近,因此 y 与x 具有线性相关关系 (2) 列出下表: i 1 2 3 4 5 6 7 8 9 10 20 30 40 50 60 70 80 90 100 68 75 81 89 95 102 108 1 15 122 1 360 2 2 3、50 3 240 4 450 5 700 7 140 8 640 10 350 12 200 x 55 , y i 11038 500 , i 11087 777 , i 11055 950 , 设 所求的回归直线方程为 y bx a, 则有 bi 11010 xyi 11010 x255 950 10 55 00 10 552 a y bx 55 因此,所求的回归直线方程为 y x (3) 当 x 20 0 时, y 的估计值为 y 200 189. 因此,加工 200 个零件所用的时间约为 189 分钟 该类题属于线性回归问题,解答本类题目的关键首先应先通过散点图来分析两变量间的关系是否相 4、关,然后再利用求回归方程的公式求解回归方程,在此基础上,借助回归方程对实际问题进行分析 某城区为研究城镇居民家庭月人均生活费支出和月人均收入的相关关系,随机抽取 10 户进行调查,其结果如下: 编号 月人均收入 x / 元 月人均生活费 y / 元 1 300 255 2 390 324 3 420 335 4 520 3605 570 4506 700 5207 760 5808 800 6009 850 63010 1 080 750试预测月人均收入为 1 100 元和月人均收入为 1 200 元的两个家庭的月人均生活费,并进行残差分析 【思路启迪】 【解】 根据表中的数据画出散点图,如图 5、所示由图可知,月人均生活费与月人均收入之间具有线性相关关系 通过计算可知 x 639 , y 由公式计算得 b , a y bx 故 y 对 x 的线性回归方程为 y x 作残差图如图所示,由图可知,残差点比较 均匀地落在水平的带状区域中,说明选用的模型比较合适 计算相关指数得 说明城镇居民的月人均生活费的差异有 是由月人均收入引起的 由以上分析可知,我们可以利用回归方程 y x 预测月人均生活费 将 x 1 100 代入回归方程得 y 将 x 1 200 代入回归方程得 y 故预测月人均收入分别为 1 100 元和 1 200 元的两个家庭的月人均 生活费分别为 和 利用残差分析研究两个变量 6、间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据然后通过图形来分析残差特性,用残差 e1 , e2 , ,en 来判断原始数据中是否存在可疑数据,用 2 独立性检验 独立性检验是对两个分类变量间是否存在相关 关系的一种案例分析方法常用等高条形图来直观反映两个分类变量之间差异的大小;利用假设检验求随机变量 为了解铅中毒病人是否有尿棕色素增加现象,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下,问铅中毒病人和对照组的尿棕色素阳性数有无差别。 组别 阳性数 阴性数 合计 铅中毒病人 29 7 36 对照组 9 28 37 合计 38 35 73 【 思 7、路启迪 】 可借助两变量的频率和等高条形图进行判断 【解】 由上述列联表可知,在铅中毒病人中尿棕色素为阳性的占 ,而对照组仅占 说明他们之间有较大差别 根据列联表作出等高条形图由图可知,铅中毒病人中与对照组相比较,尿棕色素为阳性差异明显,因此铅中毒病人与尿棕色素为阳性存在关联关系 由两个分类变量之间频率大小差异可说明这两个变量 之间是有关联关系的而利用等高条形图能形象直观地反映它们之间差异的关系,进而推断它们 之间是否具有关联关系 调查某医院某段时间内婴儿出生的时间与性别的关系,得到如下数据试问能以多大把握认为婴儿的性别与出生时间有关系 . 性别 出生时间 晚上 白天 合计 男婴 24 31 8、55 女婴 8 26 34 合计 32 57 89 【 思路启迪 】 利用已知条件来判断两个变量是否具有关系,可以先假设两个变量之间没有关系,再计算 参考临界值,从而判断两个变量有关的可信程度 【解】 由公式 K2n 2 a b c d a c b d 计算得 9 24 26 8 31 255 34 32 57 由于 所以只有 90%的把握说明婴儿出生的时间与性别有关,故婴儿的出生的时间与性别是相互独立的 ( 也可以说没有充分的证据显示婴儿的性别与其出生时间有关 ) 因为由观测数据计算得到的 以 “ 两个分类变量没有关系 ” 的假设成立,即两个事件是相互独立的 1 已知变量 x 与 y 正相关 9、,且由观测数据算得样本平均数 x 3 , y 则由该观测数据算得的线性回归方程可能是 ( ) A. y 0.4 x B. y 2 x C. y 2 x D. y 0 .3 x 解析: 依题意知,相应的回归直线的斜率应为正,排除 C 、D. 且直线必过点 (3,,代入 A 、 B 得 A 正确 答案: A 2 某人研究中学生的性别与成绩、视力、智商、阅读量这 4 个变量的关系,随机抽查了 52 名中学生,得到统计数据如表 1 至表 4 ,则与性别有关联的可能性最大的变量是 ( ) 表 1 成绩 性别 不及格 及格 总计 男 6 14 20 女 10 22 32 总计 16 36 52 表 2 视 10、力 性别 好 差 总计 男 4 16 20 女 12 20 32 总计 16 36 52 表 3 智商 性别 偏高 正常 总计 男 8 12 20 女 8 24 32 总计 16 36 52 表 4 阅读量 性别 丰富 不丰富 总计 男 14 6 20 女 2 30 32 总计 16 36 52 A. 成绩 B 视力 C 智商 D 阅读量 解析: 因为 2 6 22 14 10 216 36 32 2052 8216 36 32 20, 2 4 20 16 12 216 36 32 2052 1 12216 36 32 20, 2 8 24 12 8 216 36 32 2052 96216 11、36 32 20, K 24 52 14 30 6 2 216 36 32 2052 408 216 36 32 20,则 K 24 K 22 K 23 K 21 ,所以阅读量与性别有关联的可能性最大 答案: D 3 根据如下样本数据 x 3 4 5 6 7 8 y 得到的回归方程为 y a ,则 ( ) A a 0 , b 0 B a 0 , b 0 D a 0 ,选 B. 答案: B 4 某高校共有学生 15 000 人,其中男生 10 500 人,女生4 500 人为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集 300 位学生每周平均体育运动时间的样本数据 ( 单位: 12、小时 ) (1) 应收集多少位女生的样本数据。 (2) 根据这 3 00 个样本数据,得到学生每周平均体育运动时间的频率分布直方图 ( 如图所示 ) ,其中样本数据的分组区间为:0,2 , (2,4 , (4,6 , (6,8 , (8,10 , (10,12 估计该校学生每周平均体育运动时间超过 4 小时的概率; (3) 在样本数据中,有 60 位女生的每周平均体育运动时间超过 4 小时,请完成每周平均体育运动时间与性别列联表,并判断是否有 95% 的把握认为 “ 该校学生的每周平均体育运动时间与性别有关 ” 解: (1)300 4 50015 000 90 ,所以应收集 90 位女生的样本数据 (2) 由频率分布直方图得 1 2 ( ) 所以该校学生每周平均体育运动时间超过 4 小时的概率的估计值为 附: K2n 2 a b c d。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。