南方医科大学统计学总结内容摘要:

图 根据分位数图( 图)或概率图( PP图)是否在一条直线上, 粗略地 判断资料是否服从正态分布 计算法 :用两个指标分别对偏度和峰度进行评定:当 u g1和 u g2均小于 时,可认为服从正态分布 二、正态分布的应用 22 (一)估计医学参考值范围 (二)质量控制 (三)正态分布是许多统计方法的理论基础 第二节医学参考值范围 参考值范围 ( range of reference value) /正常值范围( range of normal value) : 同质 观察单位某项测定指标按一定标准确定的波动范围  参考值范围估计的一般原则与步骤 : 确定研究总体,保证研究对象的同质性 确定样本容量,通常 100 确定单侧或双侧。 确定适当百分范围。 常取 80%, 90%, 95%, 99%,选择依据 : 样本容量:较大 —— 宽;较小 —— 窄 两类群体重叠情况:重叠较小 —— 宽 ; 重叠较大 —— 窄 选定适当统计方法:正态分布 法 /百分位 数法 一、基本概念 (一)正常人的概念:排除了影响所研究指标的疾病和有关因素的同质人群 (二)单、双侧界值问题:根据专业知识判断 双侧界值问题:过高、过低都异常:血中红白细胞计数、体温等 单侧界值问题:过高异常:血清转氨酶、体内有害物质等;过低异常:肺活量等 (三)参考范围的意义:参考值是指绝大多数正常人的某指标值都在一定的范围内,这个数绝大多数习惯上包括正常人的 90%, 95%, 99% 等,其中最长用的是 95%。 如果某指 标参考值百分界限采用95%,则在参考值范围之外的正常人尚有 5%。 对于双侧界值,在下侧和上侧界值之外各有 %;对于单侧界值,在下侧或上侧界值之外各有 5%。 二、计算方法 (一)正态分布法 适用资料:服从或近似服从正态分布 双 侧( 1- α )参考值范围: 单侧( 1- α )参考值范围: *将标准正态分布概率密度曲线下的双侧尾部面积之和记作α,所以α表示的是没有包含在参考值范围内的正常个体的概率 /假阳性错误的概率。 23 (二)百分位数法 适用资料:偏态分布(包括正偏态分布 /对数正态分布) 双 侧( 1- α )参考值范围 : P100α /2~P100100α /2 单侧( 1- α )参考值范围: P100α 或 P100100α 直接计算法 当 nX%为带有小数位时: Px=X[trunc (nX%)+1]trunc:取整数 当 nX%为整数时: Px=1/2(X(nX%)+X(nX%+1)) 频数表法 第三节与正态分布有关的统计量分布 一、 t 分布 : 一种连续型分布 ,设随机变量 X1与随机变量 X2互相独立, X1服从标准正态分布 N( 0, 1),X2服从自由度为ν的χ 2 分布,则随机变量 t= X1/√ X2/ν服从自由度为ν的 t 分布 (一) t分布曲线  分布特征: t分布曲线是单峰的 ; 关于 t = 0 对称  t 分布与正态分布的关系 →标准正态分布 24 当 自由度 ν 较小时, t分布与标准正态分布相差较大,并且 t 分布曲线的尾部面积大于标准正态分布曲线的尾部面积 当自由度 ν→∞ 时, t分布逼近于标准正态分布。 *自由度ν =(原始数据) 样本总量 样本个数(对于一个样本:自由度ν =样本量 1) (二) t界值表 双侧界值 : 给定自由度 v, t 分布曲线的双侧尾部面积为α时对应的 t 值,记为 , 并称其为 t的双侧界值 单侧界值:一侧尾部面积为α时对应的 t值  特点: 给定曲线下面积对应的界值与自由度有关 同样的尾部面积, t分布的界值要大于标准正态 分布的界值 (三) t统计量 二、 χ 2分布 : 一种连续型分布 ,设有 v 个相互独立的标准正态变量 u i (i = 1,2, ,ν )的平方和称为χ 2变量,其分布即为 自由度为 v的 χ 2分布 (一 ) χ 2分布曲线  χ 2分布 的特点 当自由度 v≤ 2 时, χ 2 曲线呈“ L”型; 随着 v 的增加, χ 2 曲线逐渐趋于对称; 当自由度 v →∞时, χ 2曲线逼近于正态曲线。 (二) χ 2分布 的性质 25 (三) χ 2界值表 :当自由度ν =1 时,χ 2分布的界值为标准正态分布界值的平方。 如 χ , 1( )=() (四)χ 2统计量 一、 F 分布 : 一种连续型分布 ,设随机变量 X, Y 分别服从 χ 2分布,即 X~ χ 2ν 1, Y~ χ 2ν 2,且 X 与Y 独立,则统计量 F=(X/ν 1)/( Y/ν 2)服从自由度为 ν ν 2的 F分布,记作: F=(X/ν 1)/( Y/ν 2)~Fν 1, ν 2 (一) F分布曲线 (二) F界值表 单侧界值表(附表 3):有α =、 (表示单 尾面积 ).进行方差分析时查阅的表,也可作双侧。 也可作双侧界值表用,此时α =、 (表示双尾面积 ) 双侧界值表(附表 4):有α =(表示双尾面积 ).进行两独立样本的方差齐性检验时查阅的表。 也可作单侧界值表用,此时(附表 3):有α =(表示单尾面积 ) (三) F统计量 第五讲 (第七章) 参数估计 :用样本指标(统计量)估计总体指标(参数) 统计推断:用样本统计量推论总体参数特征。 主要解决两个问题:参数估计;假设检验 26 第一节 样本均数的标准误 (度量样本均数的抽样误差) 一、均数的抽样误差与标准误 标准误:统计量(样本均数、样本率)的标准差 样本均数的标准误:样本均数的标准差,说明样本均数抽样误差的统计指标 总体均数的标准误: 样本均数的标准误(估计总体均数的标准误): 二、样本均数的分布 (一)来自于正态分布的样本均数的分布 :各样本均数 服从一个正态分布,即 (二)来自于非正态分布的 样本均数的分布 :当 n足够大时,如 n≥ 60, *中心极限定理:无论 X 服从何种分布,只要它具有总体均数μ和方差ς 2, 当 n足够大时,如 n≥ 60,的分布近似正态分布 三、总体均数的估计 (一)点估计 :用样本均数直接地估计总体均数,即:。 由于 没有考虑到抽样误差 ,只适合大样本资料的统计推断 27。 (二)区间估计 :利用样本信息给出一个区间,并同时给出重复试验时该区间包含总体均数的概率  表示方法: 1−α 、 100(1−α )%  常用的有 99%, 95%, 90%; 相应的α 为 , , ς未知时 (一般统一用这个公式): 根据 t分布 根据 α 、ν,从 t 分布表中找出 ,再根据 代入 、 算出 总体均数 μ的 双侧 1α置信 区间 为: 推导 过程。 ς已知时,或ς未知但 n 足够大时 :根据标准正态分布 28 (三)可信区间的涵义  95%可信区间的含义: 从总体中作随机抽样,如: 100 次,得 100 个可信区间,平均有 95个可信区间包括总体均数μ (估计正确 ),只有 5个可信区间不包括总体均数μ (估计不正确 )。 实际中,只作一次抽样,只得到一个可信区间,作为未知总体均数的可能范围的估计,理论上 有 95%的可能是正确的,而 5%的可能发生错误。  可信区间的两个要素: 准 确度 :可信区间包含μ的可信度 1α的的大小,可信度越高,估计结果越准确(可信区间越宽,准确度越高) 精密度:反应区间的长度,区间的长度越窄,估计的精密度越好,反之越差。 *准确度与精密度两者互相矛盾。 在可信度固定的前提下,要提高精密度的唯一方法是扩大样本量 n 29  可信区间应注意的问题: 在进行区间估计是,总体均数μ是一个固定参数,而样本计算出的可信区间是变化的,即每次抽样所算得的区间是不同的。 因此,不能说总体均数μ以 1α的可信度落在可信区间中,而是可信区间以 1α的可信度包含总体均数μ 在可信区间未计算出来之前,可以说区间 以 95%的可能性包含了总体均数μ;但可信区间一经计算出来,它要么包含μ,要么不包含μ,不存在 95%的概率问题。 然而,对于一个实际问题,人们有理由相信以计算的可信区间包含了μ,否则失去了统计推断的意义 第二节率的标准误 一、率的抽样误差与标准误 二、样本率的分布 三、总体率的估计 第三节两均数之间的可信区间 一、两样本均数之差的分布及标准误 30 二、两总体均数之差的估计 (一)点估计 (二)区间估计 两总体方差未知: 两均数之差的标准误: 两总体方差已知,或 n n2均较大时 : 两均数之差的标准误: *例题的解答立足于 n n2均较大的前提 下 ,用第二种方法 第四节两个率之差的可信区间 一、两率之差的标准误与分布 二、两总体率之差的估计 第五节小样本率的可信区间 第六讲 随机变量有连续型和离散型之分,相应的概率分布就可分为连续型分布和离散型分布。 连续型分布 : 正态分布、 t分布 、 F分布、卡方分布 ; 离散型分布,即二项分布、 Poisson 分布 ★二项分布 —— 描述的是阳性个体数的分布 31  概念:指在只会产生两种可能结果如“阳性”或“阴性”之一的 n 次 独立重复试验 (常常称为 n重 Bernoulli 试验)中,当每次试验的 “阳性”概率 保持不变时,出现“阳性”的次数 X=0, 1,2,…, n的一种概率分布。 若从阳性率(死亡率、感染率等)为π的总体中随机抽取大小为 n的样本,则出现阳性数为 X的概率分布即呈二项分布,记为 X~ B ( n , π ).  两个参数:总体率:π、样本含量: n  公式:  适用条件: 1. 每次试验只会发生两种对立的可能结果之一,即分别发生两种结果的概率之和恒等于 1; 2. 每次试验产生某种结果(如 “ 阳性 ” )的概率π固定不变; 3. 重复试验是相互独立的,即任何一 次试验结果的出现不会影响  性质 1. 阳性结果发生数 X的均数与标准差 总体均数为μ = nπ 总体方差为 总体标准差为 样本率( p=X/n)的均数与标准差 总体均数为 总体方差为 总体标准差为 (即样本率的标准差,也称率的标准误,可用来描述样本率的抽样误差,率的标准差越小,则抽样误差就越小) 在一般情形下,总体率π往往并不知道。 此时若用样本资料计算样本率 p=X/n 作为π的估计值,则 p 的估计为 :  图形: 对于二项分布而言,当π =,分布是对称的 :32 当π≠ 时,分布是 偏态的 ,但随着 n的增大,分布趋于对称。 当 n→∞时只要π不太靠近 0 或 1,二项分布则接近 正态分布 :  总体率的 估计 一、点估计: π 的点估计是 p 二、 区间估计 查表法: 对于 n ≤ 50 的小样本资料 ,直接查附表 6 百分率的 95%或 99%可信区间表,即可得到其总体率的可信区间。 PS: 附表 6只列出 的部分。 当 时,可先按“阴性”数 nX 查得总体阴性率 1α 的可信区间 QL~ QU,再用下面的公式转换成所需的阳性率的可信区间 : PL=1QU, PU=1QL 33 正态近似法 : 根据 数理统计学的中心极限定理(无论 X服从何种分布,只要它具有总体均数μ和方差ς 2,当 n 足够大时,比如 n≥ 60, 的分布近似正态分布 ) 可得,当 n 较大、 π不接近 0也不接近 1(若太接近,分布就太偏了,以至于即使样本量足够大,也无法使分布趋近于正态分布,此时二项分布近似 Poisson分布) 时 : 二项分布 B (n,π )近似正态分布 : 相应的样本率 p的分布也近似正态分布 : 为此, 当 n 较大、 p和 1p均不太小,如 np和 n(1p)均大于 5时 ,可利用样本率 p 的分布近 似正态分布来估计总体率的可信区间。  注意: 研究非遗传性疾病的家族集聚性 非遗传性疾病的家族集聚性 : 系指该种疾病的发生在家族成员间是否有传染性。 如果没有传染性,即该种疾病无家族集聚性,家族成员患病应是独立的。 此时以家族为样本,在 n个成员中,出现 X个成员患病的概率分布呈二项分布;否则,便不服从二项分布。 34 群检验 在工作中有时会遇到需对收集的一大批标本进行实验室检验,以了解其阳性率的问题。 但要在实验室对所有标本一一作阳性认定往往需要大量的人力和物力,也不切实际,使用所谓的群检验技术即可解决这一问题。 群检验的具体做法:将 N个标本 分成 n群,每群 m个标本,即 N=mn。 每个群都送试验室检验是否为阳性群。 对于某群,一旦检验出阳性标本就停止此群中剩余标本的检验,该群即为阳性群。 显然,。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。