应用r软件对数据进行整理与显示(编辑修改稿)内容摘要:

直方图下的面积之和等于 1? 某电脑公司销售量分布的直方图 190 200 180 160 170 频 数 (天 ) 25 20 15 10 5 30 220 230 240 例 4 对公司雇员数据,做出工资数据直方图。 • hist(Edata$SALARY) • hist(Edata$SALARY,labels = T) H i s t o g r a m o f E d a t a $ S A L A R YE d a ta $ S A L A R YFrequency20200 40000 60000 80000 100000 140000050100150200H i s t o g r a m o f E d a t a $ S A L A R YE d a ta $ S A L A R YFrequency20200 40000 60000 80000 100000 14000005010015020033230107332622104521 0 1分组数据 —直方图 (直方图与条形图的区别 ) 1. 条形图是用条形的长度 (横置时 )表示各类别频数的多少 , 其宽度 (表示类别 )则是固定的 2. 直方图是用面积表示各组频数的多少 , 矩形的高度表示每一组的频数或百分比 , 宽度则表示各组的组距 , 其高度与宽度均有意义 3. 直方图的各矩形通常是连续排列 , 条形图则是分开排列 4. 条形图主要用于展示分类数据 , 直方图则主要用于展示数值型数据 分组数据 —折线图 (frequency polygon) 1. 折线图也称频数多边形图 2. 是在直方图的基础上 , 把直方图顶部的中点 (组中值 )用直线连接起来 , 再把原来的直方图抹掉 3. 折线图的两个终点要与横轴相交 , 具体的做法是 – 第一个矩形的顶部中点通过竖边中点 ( 即该组频数一半的位置 ) 连接到横轴 , 最后一个矩形顶部中点与其竖边中点连接到横轴 – 折线图下所围成的面积与直方图的面积相等 , 二者所表示的频数分布是一致的 分组数据的图示 (折线图的绘制 ) 折线图与直方图 下的面积相等。 140 150 210 某电脑公司销售量分布的折线图 190 200 180 160 170 220 230 240 频 数 (天 ) 25 20 15 10 5 30 未分组数据 —茎叶图 (stemandleaf display) 1. 用于显示未分组的原始数据的分布 2. 由 “ 茎 ” 和 “ 叶 ” 两部分构成 , 其图形是由数字组成的 3. 以该组数据的高位数值作树茎 , 低位数字作树叶 4. 树叶上只保留一位数字 5. 对于 n(20 n 300)个数据 , 茎叶图最大行数不超过 • L = [ 10 lg(n) ] • 6. 茎叶图类似于横置的直方图 , 但又有区别  直方图可观察一组数据的分布状况 , 但没有给出具体的数值  茎叶图既能给出数据的分布状况 , 又能给出每一个原始数值 , 保留了原始数据的信息 未分组数据 —茎叶图 (例题分析 ) 未分组数据 —茎叶图 (扩展的茎叶图 ) 未分组数据 —箱线图 (box plot) 1. 用于显示未分组的原始数据的分布 2. 箱线图由一组数据的 5个特征值绘制而成 , 它由一个箱子和两条线段组成 3. 其绘制方法是: – 首先找出一组数据的 5个特征值 , 即 最大值 、 最小值 、 中位数 Me 和两个 四分位数 (下四分位数 QL和上四分位数 QU) – 连接两个四分 ( 位 ) 数画出箱子 , 再将两个极值点与箱子相连接 未分组数据 —单批数据箱线图 (箱线图的构成 ) 中位数 4 6 8 10 12 Q U Q L X 最大值 X 最小值 简单箱线图 未分组数据 —单批数据箱线图 (例题分析 ) 最小值 141 最大值 237 中位数 182 下四分位数 上四分位数 197 140 150 160 170 180 190 200 210 220 230 240 某电脑公司销售量数据的箱线图 分布的形状与箱线图 对称分布 Q L 中位数 Q U 左偏分布 Q L 中位数 Q U 右偏分布 Q L 中位数 Q U 不同分布的箱线图 例 5 对公司雇员数据,做出工资数据箱线图。 • boxplot(Edata$SALARY, data = Edata, col = lightgray)。 20200400006000080000120200未分组数据 —多批数据箱线图 (例题分析 ) 【 例 】 从某大学经济管理专业二年级学生中随机抽取 11人 , 对 8门主要课程的考试成绩进行调查, 所得结果如表。 试绘制各科考试成绩的批比较箱线图, 并分析各科考试成绩的分布特征 11名学生各科的考试成绩数据 课程名称 学生编号 1 2 3 4 5 6 7 8 9 10 11 英语 经济数学 西方经济学 市场营销学 财务管理 基础会计学 统计学 计算机应用基础 76 65 93 74 68 70 55 85 90 95 81 87 75 73 91 78 97 51 76 85 70 92 68 81 71 74 88 69 84 65 73 95 70 78 66 90 73 78 84 70 93 63 79 80 60 87 81 67 86 91 83 77 76 90 70 82 83 82 92 84 81 70 69 72 78 75 78 91 88 66 94 80 85 71 86 74 68 79 62 81 81 55 78 70 75 68 71 77 未分组数据 —多批数据箱线图 (例题分析 ) 8门课程考试成绩的箱线图 M i n M a x2 5 % 7 5 %M e d i a n v a l u e455565758595105英语经济数学西方经济学 市场营销学财务管理基础会计学统计学计算机应用基础11名学生 8门课程考试成绩的箱线图 MinMax 25%75% Median value 45 55 65 75 85 95 105 学生 1 学生 2 学生 3 学生 4 学生 5 学生 6 学生 7 学生 8 学生 9 学生 10 学生 11 未分组数据 —多批数据箱线图 (例题分析 ) 例 6 对某公司雇员数据,分析性别与工作类型、 性别与是否少数民族的特征,作出交叉频数分布表。 • ftable(Edata[c(39。 GENDER39。 ,39。 JOBCAT39。 )]) JOBCAT 经理 保管员 服务员 GENDER f 10 0 206 m 74 27 157 • ftable(Edata[c(39。 GENDER39。 ,39。 MINORITY39。 )]) MINORITY Yes No GENDER f 40 176 m 64 194 例 7 对某公司雇员数据,分析不同性别、工作类型、少数民族的收入差异, 作出多批数据箱线图。 • boxplot(Edata$SALARY~Edata$GENDER, data = Edata, col = lightgray)。 • boxplot(Edata$SALARY~Edata$JOBCAT, data = Edata, col = lightgray)。 • boxplot(Edata$SALARY~Edata$MINORITY, data = Edata, col = lightgray)。 f m20200400006000080000120200Y e s No20200400006000080000120200例 8 对某公司雇员数据,分析不同性别、工作类型之间的收入差异, 作出多批数据箱线图。 • boxplot(split(Edata$SALARY,list(Edata$JOBCAT,Edata$GENDER)),col = lightgray)。 • boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$JOBCAT)),col = lightgray)。 • 不同性别在不同工作类型上的当前工资比较。 与工资增长率不同,性别差异在工资水平上的差异十分明显,男性的工资水平无论在 Clerical还是Manager上都比女性的平均工资水平高。 • split package:base R Documentation Divide into Groups • Description: 39。 split39。 divides the data in the vector 39。 x39。 into the groups defined by 39。 f39。 . The assignment forms replace values corresponding to such a division. Unsplit reverses the effect of 39。 split39。 . • Usage: split(x, f, drop = FALSE, ...) split(x, f, drop = FALSE, ...) value unsplit(value, f, drop = FALSE) • Arguments: x: vector or data frame containing values to be divided into groups. • f: a factor in the sense that 39。 (f)39。 defines the grouping, or a list of such factors in which case their interaction is used for the grouping. drop: logical indicating if levels that do not occur should be dropped (if 39。 f39。 is a 39。 factor39。 or a list). value: a list of vectors or data frames patible with a splitting of 39。 x39。 . Recycling applies if the lengths do not match. ...: further potential arguments passed to methods. • Details: 39。 split39。 and 39。 split39。 are generic functions with default and 39。 39。 methods. 39。 f39。 is recycled as necessary and if the length of 39。 x39。 is not a multiple of the length of 39。 f39。 a warning is printed. 39。 unsplit39。 works only with lists of vectors. The data frame method can also be used to split a matrix into a list of mat。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。