数据分布的特征和度量(编辑修改稿)内容摘要:
[ 例 4 14] 对上述例子,有第 8 位同学的身高为 8m ,则其中间位置在第 4 位和第 5 位同学之间,他们身高 的中位数为)()( mM e 。 对组距数列求中位数,先要对各组的频数进行向上累计或向下累计,然后按下面公式进行计算(公式证明可由图 4 2 直观说明): eM25 下限公式 eeeeMMMMedfSfLM 12 ( 4 16 ) 上限公式 eeeeMMMMedfSfUM 12 ( 4 17 ) 上述公式中,1eMS表示频数向上累计到中位数组前面一组的累计数,1eMS表示频数向下累计到中位数组后面一组的累计数,eMd表示中位数组的组距。 [4 1 5] 对表 4 6 所示的农民年人均纯收入计算中位数。 表 4 6 中,农民累计共 500 户,其中间位置在第 2 50 户。 从向上累计和向下累计的数据可看出中位数在 5000 5500 这一组,对其求中位数: 下限公式 20015525005000 eM(元) 上限公式 20014525005500 eM(元) 26 三、 其它分位数 由于中位数是处于一组数列的中间位置的标志值,能将数列全部标志值分为频数相等的两个部分,所以中位数亦可称为二分位数(21M)。 类似地,还可以定义出四分位数、八分位数、十分位数和百分位数等。 (一)四分位数 四分位数是在二分位数的基础上,将数据再对半分,分别记为1Q、2Q和3Q,1Q称为下四分位数,2Q就是中位数,3Q称为上四分位数。 在数列各标志值按大小顺序排列的情况下,三个四分位数的位次分别为: 1Q的位次41n 2Q的位次214)1(2 nn 3Q的位次4)1(3 n 27 [ 例 4 16] 对 [ 例 4 1 3] 中 7 位同学身高的数据求四分位数。 该数列共有 7 位同学,7n,根据上述公式,1Q的位次为第2 位同学,相应的下四分位的身高为 m ;2Q的位次即中位数为第 4 位同学,中位数的身高为 0m ;3Q的位次为第 6 位同学,相应的上四分位的身高为。 如果)1( n不是 4 的倍数,则应当根据四分位数的位置,按比例分摊四分位数相邻的两个标志值的权数,距离越近权数越大,反之则越小,然后求其加权平均数。 [ 例 4 1 7 ] 当给定某总体单位数5 0 0n时,确定: 1Q的位次 2Q的位次 3Q的位次 7 545 0 13 28 则三个四分位数分别为: 1 2 61 2 51 xxQ 2 5 12 5 02 xxQ 3 7 63 7 53 xxQ 对分组数列求四分位数,其原理与求中位数相类似,其计算公式(下限公式)如下: 1111114dfSfLQ eMdfSfLQ 2222122 33331343dfSfLQ 上式中,1iQS(3,2,1i)分别为相应的四分位组在向上累计时到前面一组的累计频数,iQd分别为相应的四分位数所在组的组距。 在四分位数的基础上,可相应地把数列对半分,求出八分位数、十六分位数等。 29 (二)十分位数 十分位数是将数列的数据按大小顺序排列后等分为十个部分的九个数据,分别记为921 , DDD 。 九个十分位数的位次分别为: 1D的位次101n ( 4 24 ) 2D的位次10)1(2 n ( 4 25 ) 9D的位次10)1(9 n ( 4 26 ) 参照求四分位数的方法,求出相应的十分位数的数值。 在十分位数的基础上,可相应地求出二十分位数„„百分位数等,其计算原理是互通的。 在统计实践中,经常要用到四分位数。 同时应指出,分位数分得越细,所需要资料的项数(单位数)也越多,对于有限资料运用较高位次的分位数做统计分析,实际意义并不大。 30 四、各种平均数的比较 (一)数值平均数与位置平均数的比较 首先,数值平均数和位置平均数都是表明总体数据的集中 趋势和一般特征,都是属于抽象化的代表值,但它们的代表性 意义有所不同。 数值平均数由总体中全部变量值参与计算,反 映了所有数值的代表性水平,但它易受极端数值的影响,如果 其中有若干极大或极小数值,就把它的平均数拉高或拉低了, 与一般的趋势产生了若干背离。 而位置平均数是由数据在数列 中的位置来决定的,极端数值的出现并不影响位置平均数总体 的代表性,可能更能够说明该数列的一般水平和趋势。 对两类 平均数的应用,应该根据统计研究目的和数据的特征,分别采 用适合的方法加以分析。 其次,两者所依据的统计资料属性不同,各种数值平均数 对数据的量化尺度要求只能应用定距数据和定比数据,而位置 平均数则不同,它们还适用于各种定序尺度的数据,众数甚至 还适用于各种定类数据。 31 (二)算术平均数与众数、中位数的关系 数据的集中趋势表明数据更多的围绕趋势值(平均数)上 下波动分布。 离趋势值越近的数据越多,其趋势值的代表性 意义就越大。 最明显地表明数据集中趋势的分布是钟型分布 (在大样本情况下为正态分布)。 算术平均数、众数和中位 数在不同钟型分布情况下的数量关系,据英国著名统计学家 皮尔逊的研究,钟型分布只存在适度或轻微偏斜的情况下, 中位数一般介于众数和平均数之间;并且中位数与算术平均 数的距离,大约只是中位数与众数距离之一半。 算术平均数、众数与中位数在钟型分布时的关系图 32 33 在钟型分布为对称型时,0MMx e ;当钟型分布为左偏(负偏)时,0MMx e ;当钟型分布为右偏(正偏)时,xMM e 0。 据皮尔逊研究: ee MxMM 20 ( 4 27 ) 得:xMM e 230 。数据分布的特征和度量(编辑修改稿)
相关推荐
方法及步骤 ( 1)使能 LFP功能,设备处于可测试模式; ( 2)按下 E1LP按钮,设备的 E1接口处于自环回模式; ( 3)按下 PATT按钮,设备向 E1接口发送伪随机序列并实时比较。 现象 E1接口接收的码流与发送的伪随机序列一致的时候,TSTOK指示灯点亮;如果不一致, TSTOK灯将不会被点亮。 结论 TSTOK指示灯点亮,设备自检通过。 TSTOK指示灯点不亮,设备自检失败。
[support = 2%, confidence = 72%] 酸奶占 奶制品 25% 我们称第一个规则是第二个规则的祖先 参考规则的祖先,如果他的支持度与我们“预期”的支持度近似的话,我们就说这条规则是冗余的。 2020/9/15 数据挖掘:概念和技术 33 数据挖掘查询的逐步精化 为什么要逐步精化 挖掘操作的代价可能高或低,结果可能过细致或粗糙 在速度和质量之间折衷
y or accuracy ( also known as rule reliability , rule strength, rule quality, certainty factor, discriminating weight )等 . 有用性 (utility) 如: support (association),s(A=B)=n(A nd B)/n(all), noise
.n nn a 敛性 , 证得 返回 后页 前页 例 6 l i m ( 1 ) .1nnna aa 求 极 限解 ( 1 ) | | 1 ,a li m 0 ,nn a 因 为所以由极限四则 运算法则 , 得 liml i m 0 .1 1 l i mnnnnnnnaaaa( 2 ) 1 ,a 11l i m l i m .221nnnnaa
l i m 1 ,1nnn 根据比较原则的极限 1n 1sin n形式以及调和级数 发散 , 得到级数 也发 散 . 例 5 证明级数 1 )1(1n nn是发散的 . 证 ,11)1( 1 nnn ,111 n n发散而级数.)1( 11 n nn发散级数推论 若 1nnu 收敛 ( 发散 ) 且 则 1nnv 收敛 ( 发散
对于单调函数 , 归结原则的条件就要简单得多 . 例 3 )(l i m),()(00 xfxUxf xx 则上单调,在设 存在的充要条件是存在一个数列 返回 后页 前页 ,)(}{ 0,0 xxxUx nn .)(l i m 存在使 nn xf证 必要性可直接由归结原则得出 , 下面证明充分 ,)(}{ 039。 ,0 xxxUx nn 设