用样本的数字特征估计总体的数字特征优质PPT.ppt
《用样本的数字特征估计总体的数字特征优质PPT.ppt》由会员分享,可在线阅读,更多相关《用样本的数字特征估计总体的数字特征优质PPT.ppt(30页珍藏版)》请在冰豆网上搜索。
是位置型数,反映处于中间部位的是位置型数,反映处于中间部位的数据信息数据信息1、求下列各组数据的、求下列各组数据的众数众数
(1)、1,2,3,3,3,5,5,8,8,8,9,9众数是:
3和8
(2)、1,2,3,3,3,5,5,8,8,9,9众数是:
32、求下列各组数据的、求下列各组数据的中位数中位数
(1)、1,2,3,3,3,4,6,8,8,8,9,9
(2)1,2,3,3,3,4,8,8,8,9,9中位数是:
5中位数是:
43、在一次中学生田径运动会上,参加男子跳高的、在一次中学生田径运动会上,参加男子跳高的17名名运动员的成绩如下表所示:
运动员的成绩如下表所示:
成成绩(米米)150160165170175180185190人数人数23234111分别求这些运动员成绩的众数,中位数与平均数分别求这些运动员成绩的众数,中位数与平均数。
解:
在解:
在17个数据中,个数据中,1.75出现了出现了4次,出现的次数最多,次,出现的次数最多,即这组数据的众数是即这组数据的众数是1.75上面表里的上面表里的17个数据可看成是按从小到大的顺序排列个数据可看成是按从小到大的顺序排列的,其中第的,其中第9个数据个数据1.70是最中间的一个数据,即这组数是最中间的一个数据,即这组数据的中位数是据的中位数是1.70;
答:
17名运动员成绩的众数、中位数、平均数依次是名运动员成绩的众数、中位数、平均数依次是1.75(米)、(米)、1.70(米)、(米)、1.69(米)。
(米)。
这组数据的平均数是这组数据的平均数是二、众数、中位数、平均数与频率众数、中位数、平均数与频率分布直方图的关系分布直方图的关系频率频率组距组距0.10.20.30.40.5O0.511.522.533.544.5月平均用水量(t)众数在样本数据的频率分布直方图中,众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。
就是最高矩形的中点的横坐标。
如何在频率分布直方图中估计众数如何在频率分布直方图中估计众数可将众数看作直方图中面积最大长方形的可将众数看作直方图中面积最大长方形的“中心中心”0.52.521.5143.534.5频率频率组距组距0.040.080.150.220.250.140.060.040.02前四个小矩形的前四个小矩形的面积和面积和=0.49后四个小矩形的后四个小矩形的面积和面积和=0.262.02如何在频率分布直方图中估计中位数如何在频率分布直方图中估计中位数分组分组0,0.5)0.5,1)1,1.5)1.5,2)2,2.5)2.5,3)3,3.5)3.5,4)4,4.5合计合计频率频率0.040.080.150.220.250.140.060.040.021在样本中中位数的左右各有在样本中中位数的左右各有50%的样本数,的样本数,条形面积各为条形面积各为0.5,所以反映在直方图中位数所以反映在直方图中位数左右的面积相等左右的面积相等.,中位数中位数)可将中位数看作整个直方图面积的可将中位数看作整个直方图面积的“中心中心”思考讨论以下问题:
思考讨论以下问题:
1、2.02这个中位数的估计值,与样本的中这个中位数的估计值,与样本的中位数值位数值2.0不一样,你能解释其中原因吗?
不一样,你能解释其中原因吗?
2.02这个中位数的估计值这个中位数的估计值,与样本的与样本的中位数值中位数值2.0不一样,这是因为样本数据的不一样,这是因为样本数据的频率分布直方图,只是直观地表明分布的频率分布直方图,只是直观地表明分布的形状,但是形状,但是从直方图本身得不出原始的数从直方图本身得不出原始的数据内容,直方图已经损失一些样本信息。
据内容,直方图已经损失一些样本信息。
所以由频率分布直方图得到的中位数估计所以由频率分布直方图得到的中位数估计值往往与样本的实际中位数值不一致值往往与样本的实际中位数值不一致.如何在频率分布直方图中估计平均数如何在频率分布直方图中估计平均数=2.02=2.02平均数的估计值等于频率分平均数的估计值等于频率分布直方图中每个小矩形的面布直方图中每个小矩形的面积乘以小矩形底边中点的横积乘以小矩形底边中点的横坐标之和。
坐标之和。
可将平均数看作整个直方图面积的可将平均数看作整个直方图面积的“重心重心”思考讨论以下问题:
2、样本中位数不受少数极端值的影响,这样本中位数不受少数极端值的影响,这在某些情况下是一个优点,但它对极端值在某些情况下是一个优点,但它对极端值的不敏感有时也会成为缺点。
你能举例说的不敏感有时也会成为缺点。
你能举例说明吗?
明吗?
优点:
对极端数据不敏感的方法能够答:
对极端数据不敏感的方法能够有效地预防错误数据的影响。
有效地预防错误数据的影响。
对极端值不敏感有利的例子对极端值不敏感有利的例子:
例如当样本数据质例如当样本数据质量比较差,即存在一些错误数据(如数据录入错量比较差,即存在一些错误数据(如数据录入错误、测量错误等)时,用抗极端数据强的中位数误、测量错误等)时,用抗极端数据强的中位数表示数据的中心值更准确。
表示数据的中心值更准确。
缺点:
(缺点:
(1)出现错误的数据也不知道;
)出现错误的数据也不知道;
(2)对极端值不敏感有弊的例子:
对极端值不敏感有弊的例子:
某人具某人具有初级计算机专业技术水平,想找一份收有初级计算机专业技术水平,想找一份收入好的工作。
这时如果采用各个公司计算入好的工作。
这时如果采用各个公司计算机专业技术人员收入的中位数作为选择工机专业技术人员收入的中位数作为选择工作的参考指标就会冒这样的风险:
作的参考指标就会冒这样的风险:
很可能所选择公司的初级计算机专业技术水平很可能所选择公司的初级计算机专业技术水平人员的收入很低,其原因是中位数对极小的数人员的收入很低,其原因是中位数对极小的数据不敏感。
据不敏感。
这里更好的方法是同时用平均工资这里更好的方法是同时用平均工资和中位数作为参考指标,选择平均工资较高且和中位数作为参考指标,选择平均工资较高且中位数较大的公司就业中位数较大的公司就业.例例1、下表是七位评委给某参赛选手的打分,总分为、下表是七位评委给某参赛选手的打分,总分为10分,分,你认为如何计算这位选手的最后得分才较为合理?
你认为如何计算这位选手的最后得分才较为合理?
评委1号2号3号4号5号6号7号打分9.69.39.39.69.99.39.4提问:
提问:
1、电视里评委是怎样给选手打分的?
、电视里评委是怎样给选手打分的?
2、为什么这么做?
直接取中位数和众数的值不好么?
、为什么这么做?
三、众数、中位数、平均数的简单应用众数、中位数、平均数的简单应用特征数特征数众数众数中位数中位数平均数平均数去掉一个最高分和去掉一个最高分和最低分后的平均分最低分后的平均分去掉两个最高分去掉两个最高分和最低分后的平和最低分后的平均分均分特征值特征值9394949942944例例2某工厂人员及工资构成如下:
某工厂人员及工资构成如下:
人员人员经理经理管理人员管理人员高级技工高级技工工人工人学徒学徒合计合计周工资周工资2200250220200100人数人数16510123合计合计22001500110020001006900
(1)指出这个问题中周工资的众数、中位数、平均数)指出这个问题中周工资的众数、中位数、平均数
(2)这个问题中,工资的平均数能客观地反映该厂的工资水)这个问题中,工资的平均数能客观地反映该厂的工资水平吗?
为什么?
平吗?
分析分析:
众数为:
众数为200,中位数为,中位数为220,平均数为,平均数为300。
因平均数为因平均数为300,由表格中所列出的数据可见,只有,由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平。
均数不能客观真实地反映该工厂的工资水平。
课堂练习:
1、假设你是一名交通部门的工作人员。
你打算向市长报告国、假设你是一名交通部门的工作人员。
你打算向市长报告国家对本市家对本市26条公路项目投资的平均资金数额,其中一条新公条公路项目投资的平均资金数额,其中一条新公路的建设投资为路的建设投资为2200万元人民币,另外万元人民币,另外25个项目的投资在个项目的投资在20万与万与100万中位数是万中位数是25万,平均数是万,平均数是100万,众数是万,众数是20万元。
万元。
你会选择哪一种数字特征来表示每一个项目的国家投资?
你你会选择哪一种数字特征来表示每一个项目的国家投资?
你选择这种数字特征的缺点是什么?
选择这种数字特征的缺点是什么?
选择平均数更好:
因为,此时的众数选择平均数更好:
因为,此时的众数20万比中位数万比中位数25万还小,万还小,所以众数代表的是局部的数。
中位数代表的虽然是大多数公路所以众数代表的是局部的数。
中位数代表的虽然是大多数公路投资的数额,但由于其不受极端值的影响,不能代表全体,因投资的数额,但由于其不受极端值的影响,不能代表全体,因而此时成了它的缺点。
选择平均数较好,能比较好的代表整体而此时成了它的缺点。
选择平均数较好,能比较好的代表整体水平,但缺点是仍不能显示出具体的数字特征水平,但缺点是仍不能显示出具体的数字特征
(二)情境一情境一;
甲.乙两名射击队员,在进行的十次射击中成绩分别是:
甲:
10;
9;
8;
9.5;
7.5乙:
8,5;
8.5;
9.5试问二人谁发挥的水平较稳定?
分析:
甲的平均成绩是9环.乙的平均成绩也是9环.一一.实例引入实例引入情境二情境二:
某某农场种植了甲、乙两种玉米苗,从中各抽取农场种植了甲、乙两种玉米苗,从中各抽取了了1010株,分别测得它们的株高如下:
株,分别测得它们的株高如下:
(单位单位cm)cm)甲:
甲:
31323537333032313029乙:
乙:
53165413661613111662问问:
哪种玉米苗长得高?
哪种玉米苗长得齐?
怎怎么么办办呢呢?
甲甲37(最大值)(最大值)29(最小值)(最小值)8乙乙66(最大值)(最大值)11(最小值)(最小值)55极极差差甲甲:
31323537333032313029乙乙:
53165413661613111662甲甲32372937321166乙乙极差:
极差:
一组数据的最大值与最小值的差一组数据的最大值与最小值的差极差越大,数据越分散,越不稳定极差越大,数据越分散,越不稳定极差越小,数据越集中,越稳定极差越小,数据越集中,越稳定极差体现了数据的极差体现了数据的离散程度离散程度离散程度离散程度为了对两人射击水平的稳定程度为了对两人射击水平的稳定程度,玉米生长的玉米生长的高度差异以及钢筋质量优劣做个合理的评价高度差异以及钢筋质量优劣做个合理的评价,这这里我们引入了一个新的概念里我们引入了一个新的概念,方差和标准差方差和标准差