统计学[1]PPT推荐.ppt
《统计学[1]PPT推荐.ppt》由会员分享,可在线阅读,更多相关《统计学[1]PPT推荐.ppt(46页珍藏版)》请在冰豆网上搜索。
四分位差顺序数据:
四分位差三三.数值型数据:
方差及标准差数值型数据:
方差及标准差四四.相对位置的测量:
标准分数相对位置的测量:
标准分数五五.相对离散程度:
离散系数相对离散程度:
离散系数离中趋势离中趋势1.数据分布的另一个重要特征数据分布的另一个重要特征数据分布的另一个重要特征数据分布的另一个重要特征2.反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)3.从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度4.不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值分类数据:
异众比率异众比率(variationratio)1.对分类数据离散程度的测度2.非众数组的频数占总频数的比率3.计算公式为4.用于衡量众数的代表性异众比率(例题分析)解:
解:
不同品牌饮料的频数分布不同品牌饮料的频数分布饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐旭日升冰茶旭日升冰茶百事可乐百事可乐汇源果汁汇源果汁露露露露15119690.300.220.180.120.183022181218合计合计501100顺序数据:
四分位差四分位差(quartiledeviation)1.对顺序数据离散程度的测度2.也称为内距或四分间距3.上四分位数与下四分位数之差QD=QUQL4.反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性四分位差(例题分析)在某城市随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:
元)15007507801080850960200012501630计算四分位差:
Step1:
排序75078085096010801250150016302000step2:
计算四分位数Step3:
计算四分位差数值型数据:
方差和标准差极差(range)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布77889910107788991010R=max(xi)-min(xi)5.计算公式为计算公式为平均差(meandeviation)1.各变量值与其均值离差绝对值的平均数2.能全面反映一组数据的离散程度3.数学性质较差,实际中应用较少4.计算公式为计算公式为未分组数据未分组数据组距分组数据组距分组数据平均差(例题分析)某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)14015015016016017017018018019019020020021021022022023023024014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计合计1202040平均差(例题分析)含义:
含义:
每一天的销售量平均数相比,平均相差17台方差和标准差(varianceandstandarddeviation)1.数据离散程度的最常用测度值2.反映了各变量值与均值的平均差异3.根据总体数据计算的,称为总体方差或标准差;
根据样本数据计算的,称为样本方差或标准差46810124681012xx=8.38.3样本方差和标准差(simplevarianceandstandarddeviation)未分组数据:
未分组数据:
组距分组数据:
方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式样本方差自由度(degreeoffreedom)1.一组数据中可以自由取值的数据的个数2.当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。
当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值4.样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差2时,s2是2的无偏估计量样本标准差(例题分析)某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)14015015016016017017018018019019020020021021022022023023024014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计合计12055400样本标准差(例题分析)含义:
每一天的销售量与平均数相比,平均相差21.58台投资投资平均获利平均获利标准差标准差短期国库券5.34%2.96%长期国库券6.12%10.73%股票14.6216.32%投资入门投资入门高风险带来高回报1950-1999美国三种投资方式收益与风险美国三种投资方式收益与风险相对位置的测量:
标准分数标准分数(standardscore)1.也称标准化值2.对某一个值在一组数据中相对位置的度量3.可用于判断一组数据是否有离群点4.用于对变量的标准化处理5.计算公式为标准分数(性质)1.均值等于02.方差等于1标准分数(性质)z分数只是将原始数据进行了线性变换,它并没有改变一个数据在改组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差为1。
标准化值(例题分析)9个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表家庭编号家庭编号人均月收入(元)人均月收入(元)标准化值标准化值z123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996经验法则经验法则表明:
当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内切比雪夫不等式(Chebyshevsinequality)1.如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用2.切比雪夫不等式提供的是“下界”,也就是“所占比例至少和多少”3.对于任意分布形态的数据,根据切比雪夫不等式,至少有的数据落在k个标准差之内。
其中k是大于1的任意值,但不一定是整数。
切比雪夫不等式(Chebyshevsinequality)对于k=2,3,4,该不等式的含义是1.至少有75%的数据落在平均数加减2个标准差的范围之内2.至少有89%的数据落在平均数加减3个标准差的范围之内3.至少有94%的数据落在平均数加减4个标准差的范围之内标准分数的应用1.我国某地地方高考实行的标准分制度2.在日本,标准分数常被用在计算学力测验的“学力偏差值”,并且依此判断进入理想大学的可能性3.在智力测验时,用来计算“智力标准分数”,在教育的用途上,常和“智商”一起被当作参考的依据相对离散程度:
离散系数离散系数(coefficientofvariation)1.标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为离散系数(例题分析)运动员运动员国家国家离散系数离散系数纳塔利亚俄罗斯0.0627郭文珺中国0.0427卓格巴德拉和蒙古0.0764尼诺格鲁吉亚0.0539维多利亚白俄罗斯0.0663莱万多夫斯卡波兰0.0754亚斯纳塞尔维亚0.0369米拉芬兰0.0479数据类型与离散程度测度值数据类型和所适用的离散程度测度数据类型和所适用的离散程度测度数据类型和所适用的离散程度测度数据类型和所适用的离散程度测度值值值值数据类型数据类型分类数据分类数据顺序数据顺序数据数值型数据数值型数据适适用用的的测测度度值值异众比率异众比率四分位差四分位差方差或标准差方差或标准差异众比率异众比率离散系数(比较时用)离散系数(比较时用)平均差平均差极差极差四分位差四分位差异众比率异众比率4.3偏态与峰态的测度偏态与峰态的测度一一.偏态及其测度偏态及其测度二二.峰态及其测度峰态及其测度偏态(skewness)1.统计学家Pearson于1895年首次提出2.数据分布偏斜程度的测度3.偏态系数=0为对称分布偏态系数0为右偏分布偏态系数0为左偏分布偏态系数(skewnesscoefficient)1.根据原始数据计算2.根据分组数据计算偏态系数(例题分析)某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表按销售量份组按销售量份组(台台)组中值组中值(Mi)频数频数fi140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235491627201710845-256000-243000-128000-270000170008000021600025600062500010240000729000025600002700000170000160000064800001024000031250000合计合计12054000070100000偏态系数(例题分析)结论:
结论:
偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数偏态与峰态(从直方图上观察)按销售量分组按销售量分组按销售量分组按销售量分组按销售量分组按销售量分组(台台台台台台)结论:
1.为右偏分布2.峰态适中140140150150210210某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图190190200200180180160160170170频频频频频频数数数数数数(天天天天天天)2525202015151010553030220220230230240240峰态(kurtosis)1.统计学家Pearson于1905年首次提出2.数据分布扁平程度的测度3.峰态系数=0服从标准正态分布服从标准正态分布4.峰态系数0为尖峰分布峰态系数(kurtosiscoefficient)1.根据原始数据计算2.根据分组数据计算峰态系数(例题分析)某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表按销售量份组按销售量份组(台台)组中值组中值(Mi)频数频数fi140150150160160170170180180