平均指标统计学基础知识课件.docx

上传人:b****8 文档编号:10644732 上传时间:2023-02-22 格式:DOCX 页数:8 大小:24.35KB
下载 相关 举报
平均指标统计学基础知识课件.docx_第1页
第1页 / 共8页
平均指标统计学基础知识课件.docx_第2页
第2页 / 共8页
平均指标统计学基础知识课件.docx_第3页
第3页 / 共8页
平均指标统计学基础知识课件.docx_第4页
第4页 / 共8页
平均指标统计学基础知识课件.docx_第5页
第5页 / 共8页
点击查看更多>>
下载资源
资源描述

平均指标统计学基础知识课件.docx

《平均指标统计学基础知识课件.docx》由会员分享,可在线阅读,更多相关《平均指标统计学基础知识课件.docx(8页珍藏版)》请在冰豆网上搜索。

平均指标统计学基础知识课件.docx

平均指标统计学基础知识课件

第一节平均指标对统计数据进行排序分组整理是对数据的分布特征进行描述的一个基本方面为进一步掌握数据分布特征及其变化规律以进行深入的分析还需找出反映数据分布特征的各个代表值统计学中刻划数据分布特征的的最主要的代表有二数据分布的集中趋势与数据分布的离散程度例美国一家具有福利院性质的医院BarnesHospital该项活动中每月都有数据统计及分析以用来进行该项活动的调整与实施如有一组关于病人进入救助活动的时间长度的数据67个样本时间长度从1天到185天除了对该组数据进行频数方面的描述和分析外下面的统计方法在描述数据分布特征及分析方面也很重要均值mean357天中位数median17天众数Mode1天Interpretation1theaveragetimeapatientstaysintheProgramis357daysorslightlyoveramonth2halfofthepatientsareintheProgram17daysorlessandhalfareintheProgram17daysormore3manypatientshaveashortdayintheProgram集中趋势是指一组数据向某一中心值靠拢的倾向测度集中趋势就是寻找数据一般水平的代表值或中心值一均值Mean均值就是一组数据的平均值averagevalue用来测度中心位置centrallocation基本形式是标志值总量单位数总量1简单算术平均对样本其中n为样本数对总体其中N为总体单位数2加权算术平均其中为权数加权算术平均往往适用于对分组后的数据求均值这时Xi为各组变量代表值往往取组中值为各组变量值出现的频数例1一组大学班级人数规模的数据5个班如下465442463254在未分组的情况下其均值为44如果分成如下组别I32II42III4646IV54则其均值为例2美国一个关于大学生毕业后工作起薪的问卷调查Table1MonthlyStartingSalariesforaSampleof12CollegeGraduatesGraduatesMonthlyGraduatesMonthlyGraduatesMonthlySalarySalarySalary123505225592440224506221010285232550723901124284238082630122380未分组时的算术平均值为2440算术均值具有如下性质1各变量值与其均值的离差和为零2各变量值与其均值的离差平方和最小▲注意均值容易受到统计数据中个别极端数据的影响从而使均值代表某组统计数据的平均水平时失去意义这时往往用剔除极端值的方法加以修正如例2中如果将月薪2825的最高值用10000代替则均值为30382几何平均数GeometricMean1几何平均数是N个变量值乘积的N次方根上述班级人数规模例中几何平均数为4337可看出几何平均数算术平均数2加权几何平均数其中为的权数几何平均数的对数是各变量值对数的算术平均几何平均主要用于计算比率或速度的平均例3某水泥生产企业1995年产水泥100万吨199********8年的水泥产量分别上一年增长916与20则19961998年的年均增长率为例4银行为吸收存款逐年提高利率5年各年年利率分别为10%12%15%18%24%如果第1年存入1000元问5年后实际存款额达到多少元分别用单利率和复利率来算求出其对应的平均利率分析单利率5年后实际存款额1000∑1000×年利率1790元求平均利率可以用一未知数代替上式中的实际数据与原式是相等的即单利率时1000∑1000×年利率1000∑1000×A得A∑年利率5可用简单算术平均数计算平均利率复利率5年后实际存款额1年后10001000×1010001102年后10001101000110×1210001101123年后4年后5年后1000110112115118124207306元求平均利率可以用一未知数代替上式中的实际数据与原式是相等的即100011011211511812410001B1B1B1B1B得可用几何平均数计算平均利率3调和平均数HarmonicMean调和平均数是各数据倒数的简单算术平均数的倒数]假设同一的个数有个且则上式可写成如下加权的形式例5某农贸市场某日鸡蛋价格及销售额资料如下表所示试求其鸡蛋的平均售价鸡蛋种类价格元KG销售额元A7615200B808000C824100不难求得鸡蛋的平均价格等于销售总额除以销售量二众数Mode众数是一组数据中出现次数最多的变量值在班级规模的例中众数为46在大学毕业生工作起薪的例中众数为2380在分组数据中众数可按下式计算下限公式式中为某数值出现次数频数最多的组第m组的频数与分别为第m-1组与m1组的频数LU分别为第m组的下限与上限值d为该组组距二众数Mode上限公式式中为某数值出现次数频数最多的组第m组的频数与分别为第m-1组与m1组的频数LU分别为第m组的下限与上限值d为该组组距3对众数的几何解释ffMofMo-fMo-1fMo-fMo10LMoMoUMox依据是众数与相邻的两个组的频数分布有直接关系在班级规模的例中若按例中给出的分组情况则该组数据的众数为或在学生英语成绩例中次数最多的组也在7080组中则有18109或▲注意1如果某组统计数据中没有哪个数值出现较多的频率次数则可认为该组数无众数如果有多个数据出现的次数频率较多则认为有多个众数在有多个众数的情况下则对众数的关注度下降因为多众数对描述数据位置无多大帮助2对描述品质数据的分布特征的位置测度只能用众数例如在前面购买五类不同品牌CompanyFrequency计算机的统计中得到如右表Apple13所示的频数分布表显然众Compaq12数即个人购买最多的机算机Gateway20005品牌是Apple在这类数据中IBM9均值与中位数是没有任何PackardBell11意义的众数提供了频数最高的个人电脑购买品牌三中位数Median中位数是一组数据按大小排序后处于正中间位置上的变量值1对于未分组数据1如果数据个数为奇数则中位数恰为处于中间位置的数班级规模例中按升序排出的5个统计数为3242464654则中位数为462如果数据个数为偶数则为中间位置两个数的平均数例大学毕业生起薪例中按升序排出的12个统计数为221022552350238023802390242024402450255026302825则中位数为▲注意由于均值容易受到统计数据中个别极端数据的影响从而使均值代表某组统计数据的平均水平时失去意义这时用中位数代替均值则更有意义如在大学生毕业工作起薪的例中如果原统计数中最高薪金由2825换为10000则得到平均薪金为3038的结论显然与其他11位均在2000多的薪水水平不符但这时若用中位数2405显然更具代表意义2对于分组后的数据1单项式变量数列资料由于变量值已经序列化故可以采用下面的公式计算2对于组距式数列首先需确定中位数所在的组然后可根据下列公式计算中位数有上限公式和下限公式下限公式式中m为中位数所在的组d为该组组距L为该组的下限值fm为该组的频数为该组以下各组的频数总和显然2对于组距式数列上限公式式中m为中位数所在的组d为该组组距U为该组的上限值fm为该组的频数为该组以上各组的频数总和显然3对中位数的几何解释S∑f2fMeSme-10LMeUx假设在中位数组内的各单位是均匀分布的例6某班级英语考试成绩分组情况见下表成绩分组人数累计人数成绩分组人数累计人数分分50以下227080183550605780909446070101790以上650从成绩由低往高排中位数所在组应在第4组即7080的组由于L70U80d10而2510179615fm18故或班级人数规模的例中按例中分组情况则中位数为或四中位数众数与算术平均数的关系1如果数据具有单一众数且分布是对称的则众数中位数与均值相等即2对于非对称分布当分布左偏时说明存在极端小的值当分布右偏时说明存在极端大的值3在偏斜度适度的情况下不论是左偏还是右偏中位数与算术平均数之差约等于众数与算术平均数之差的13即有如下经验公式众数中位数和均值的应用场合众数中位数和均值都是对数据集中趋势的测度1均值由全部数据计算包含了全部数据的信息具有良好的数学性质当数据接近对称分布时具有较好的代表性但对于偏态分布其代表性较差2中位数是一组数据中间位置上的代表值不受数据极端值的影响对于偏态分布的数据其代表性要比均值好3众数是一组数据分布的峰值是一种位置的代表当数据的分布具有明显的集中趋势时尤其对于偏态分布众数的代表性比均值好4对接近正态的分布数据常用均值描述数据的集中趋势对偏态分布常用众数或中位数描述数据的集中趋势5均值只适用于定距或定比尺度的数据定序尺度数据可用中位数或众数进行描述而对定类尺度数据只能用众数进行描述五计算和应用平均数应该注意的主要问题一平均数必须用于同质总体二用组平均数补充说明总体平均数三用频数分布补充说明平均数四平均分析与具体分析相结合第四节变异指标一变异指标的概念和分类  1概念  对数据分布特征的另一个测度指标是数据分布离散程度它反映各数据远离其中心值的程度因此也称离中趋势集中趋势反映的是各变量值向其中心值聚集的程度离中趋势反映各变量值之间的差异状况注意集中趋势的测度值概括地反映了数据的一般水平它对该组数据的代表程度取决于该组数据的离散水平数据的离散程度越大集中趋势的测度值对该组数据的代表性就越差例7如果你是一家制造业公司的供应部门经理与两家原材料供应商联系供货两家供应商均表示能在大约10个工作日内供齐所需原材料几个月的运转之后你发现尽管两家供货商供货的平均时间都是大约10天但他们供货所需天数的分布情况却是不同的见下页图你认为两家供货商按时供货的可信度相同吗考虑它们直方图的差异你更愿意选择哪家供货商供货呢两家供货商供货图2变异指标的作用1用以反映社会经济现象变动的均匀性和稳定性程度2用以说明平均指标的代表性程度3可以研究总体标志值分布偏离正态的情况3变异指标的分类1标志变异指标2分布变异指标二极差与分位差RangeandPercentile1极差是最简单的测度离中趋势分散程度的指标也称全距是一组数据最大值与最小值之差RangeLargestValue-SmallestValue▲注意1极差易受极端值的影响2由于极差只利用了数据两端的信息没有反映中间数据的分散状况因而不能准确描述数据的分散程度例8某班级甲乙两组同学成绩如下甲组6065727578乙组5064707492两组同学成绩平均成绩都为70分但甲组成绩的极差R甲=78-60=18分乙组成绩的极差R乙=92-50=42分对于组距分组数据极差可近似地表示为

R最高组上限-最低组下限例9某班级全体学生成绩如下班级学生成绩分布成绩分组中值学生数总成绩50-605515560-7065213070-8075860080-908524204090-10095151425-504250班级平均成绩x=4250/50=85分则极差100-50502分位差Percentile是对极差指标的一种改进常见的有四分位差八分位差十六分位差以及百分位差以四分位差Quartiles为例四分位间距QR=Q3-Q1四分位差QD=Q3-Q1/2三平均差 平均差是总体各单位标志值对算术平均数的绝对离差的算术平均数其计算公式为仍以前面例为例甲乙两班成绩平均差计算结果说明乙组离散程度比甲组离散程度大四方差Variance方差是各变量值与其均值离差deviationaboutthemean平方的平均数一总体方差PopulationVariance二样本方差SampleVariance▲注意1相同点方差和平均差比较同样是根据所有的标志值计算离差程度并且都是以算术平均数为比较标准2不同点方差不是以离差的绝对值而是以离差的平方计算平均数离差的平方不但可以消除离差正负差别而且强化了离差的信息使这个指标更灵敏在数学性质上有许多明显的优越性四标准差StandardDeviation方差的平方根正即为标准差在五个班级规模的例中如果视5个班为总体则标准差为715若视为样本则标准差为8▲注意1由于方差计算中使用了平方运算因此方差的单位也是平方如上述班级规模例中方差为64学生2其具体意义不明确因此方差只有在比较不同组数据的离散程度时才有数量大小上的意义2标准差是对方差的开方运算因此其单位与原始数据的单位一致它与均值及其他用同一单位测度的数据相比较也容易一些如标准差就是指数据离散程度的测度值距均值的距离▲方差的数学性质1变量的方差等于变量平方的平均数减去变量平均数的平方五离散系数CoefficientofVariation离散系数定义为一组数据变异指标值与其均值的比也可分别称为极差系数平均差系数标准差系数最常用的是标准差系数是测度数据离散程度的相对指标例五个班级规模的例中若视为总体离散系数为71544016若视为样本则离散系数为8440182▲注意1对不同组数据其离散程度既受其数据本身的水平的影响也受数据计量单位的影响因此对不同性质组别的数据不好用离差或标准差来比较它们的离散程度2由于离散系数消除了来自这两方面的影响因此可以用它进行不同数据组的比较例10某管理局抽查了其所属的8家企业其产品销售额与销售利润数据如下表所示试比较销售额与销售利润的离散程度企业编号销售额销售利润企业编号销售额销售利润万元万元万元万元X1X2X1X211708154802652220125665040033901807950640443022081000690计算结果表明产品销售额的离散程度小于销售利润的离散程度六总方差组间方差和组内方差之间关系总方差=组间方差与组内方差平均数之和举例给以解释假如某班级同学50名每月分别消费元300340310500600计算50名同学之间差异也就是总的方差即为总方差如果把这50名按男女性别分为两组男组月消费额求得的方差即为组内方差乙组月消费额求得的方差即为组内方差男女两组之间求得的方差即为组间方差例11某企业按两种标志进行分组得到下列表明工人按工龄和按完成生产定额的分组资料工龄5年以上工龄5年以下完成定额工人数完成定额工人数80以下1090以下580-901590-1001590-10020100-110200100-105100110-12080105-11045120-13040110-12015130-15020120-1305150以上20数据分为两组工龄5年以上和工龄5年以下接上页题组间方差308组内方差平均数1789≈总方差2100练习1某公司将其生产某产品的15个企业按产品平均单位成本高低分组资料如下平均单位成本 企业数 各组产量占元/件总产量的比重% 10-12    7        2212-14    6        40 14-16    2        38试计算这15个企业的平均单位成本练习2下面分别记录5名田径队员跑步时间过200米线的时间28″30″33″34″35″过1000米线的时间3′12″3′30″3′48″4′00″4′30″教练认为200米的时间差异更小些请用标准差与标准差系数对上述时间的变异作出评价判断教练观点是否成立练习3两种不同的水稻品种分别在5块田地上试种其产量如下   甲品种        乙品种 田块面积  产量    田块面积  产量 亩  公斤   亩 公斤   12   600     15    840   11   495     14    770   10   445     12    540   09   540     10    520   08   420     09    4501分别计算两品种单位面积产量2计算两品种亩产量的标准差3假定生产条件相同确定哪一个品种具有较大的稳定性易于推广七分布偏态与峰度的测度分布变异指标偏态和峰度是对数据分布特征的进一步描述平均数与标准差相同的数据组其频数分配分布也可能不同如果频数分布是对称的则称为对称分布否则为偏态分布一偏态及其测度Skewness测定偏态比较严谨的方法主要有两种动差法和分位数法此外还有算术平均数与众数比较法1算术平均数与众数比较法由于在完全对称的分布中算术平均数中位数众数是重合的而在非对称分布里三者是相互分离的其中算术平均数与众数分离两边中位数位于它们之间因而可用算术平均数与众数之间的距离作为测度偏态的一个尺度偏态算术平均数-众数这是偏态的绝对数它以原有数据的单位为单位

同样地偏态绝对数不能用来比较不同数据组不同计量单位数据的偏态程度为了使不同数据组的偏态数值能相互比较需计算偏态的相对数2分位数法以四分位数为例不同分布情形下诸四分位数之间的关系3动差法动差又称矩可用来说明数据频数分布的特征二峰度及其测度Kurtosis峰度是频数分布另一重要特点其特点是某种频数分布的曲线与正态分布曲线相比是尖顶还是平顶其尖顶或平顶的程度如何峰度就是频数分布曲线顶端的尖峭程度峰度测度往往以中心4阶动差为基础进行将4阶动差的数值除以标准差的4次方化为相对数就是峰度的测度值即峰度系数经验表明上述峰度系数为3时恰为正态分布曲线因此当峰度系数3时为平顶分布曲线当峰度系数3时为尖顶分布曲线当峰度系数接近于18时则频数分布曲线趋向于一条水平线当峰度系数小于18时为U型曲线在上述班级规模的例子中以中心4阶动差矩计算的峰度系数值为注意1在用动差法计算偏态系数与峰度系数时对所考察的对象按总体公式测度其方差与标准差2偏度与峰度主要用于检查样本的分布是否正态来判断总体的分布是否接近于正态分布如果样本的偏度接近于0而峰度接近于3就可以推断总体的分布是接近于正态分布的第五节成数指标一成数指标的概念 1成数  2是非标志  3成数指标 设总体N个单位中有N1单位具有某种性质有N0个单位不具有某种性质且N=N0N1以P代表具有某种性质的成数以Q代表不具有某种性质的成数则P N1NN-N0N1-N0N1-Q   二是非标志的量化三是非标志的平均数      品质标志分布表           品质标志   标志值       次数   是     1         N1   非     0         N0   合计     -         N四是非标志的方差与标准差      品质标志分布表           品质标志   标志值       次数   是     1         N1   非     0         N0   合计     -         N例某市120万人口中的男女性别构成如下表性别标志标志值x人数万人f男166女054合计-120由前面的公式可得注意1是非标志的平均数为p2是非标志的方差为pq或p1-pq1-q3是非标志中pq14是非标志的方差最大值为025是非标志的标准差最大值为05本章作业课本53-55页123456题本章作业7某快餐店登记20顾客用餐一次时间分如下20152428725561012181482116122018714试根据以上资料计算算术平均数平均差标准差并做简单分析本章作业8某企业两车间生产同种产品产量和成本资料如下表1992年1993年车间单位成本元产量吨单位成本元总成本万元甲600120062093乙70018006671334要求1分别计算1992年和1993年甲乙两车间平均单位成本2分析该种产品甲乙两车间平均单位成本变动情况9某公司将其生产某产品的15个企业按产品平均单位成本高低分组资料如下平均单位成本 企业数 各组产量占元/件总产量的比重% 10-12    7        2212-14    6        40 14-16    2        38试计算这15个企业的平均单位成本10下面分别记录5名田径队员跑步时间过200米线的时间28″30″33″34″35″过1000米线的时间3′12″3′30″3′48″4′00″4′30″教练认为200米的时间差异更小些请用标准差与标准差系数对上述时间的变异作出评价判断教练观点是否成立11两种不同的水稻品种分别在5块田地上试种其产量如下   甲品种        乙品种 田块面积  产量    田块面积  产量 亩  公斤   亩 公斤   12   600     15    840   11   495     14    770   10   445     12    540   09   540     10    520   08   420     09    4501分别计算两品种单位面积产量2计算两品种亩产量的标准差3假定生产条件相同确定哪一个品种具有较大的稳定性易于推广这可怎么做2变量与其算术平均数计算的方差小与变量与任何其它常数计算的方差3变量线性变换的方差等于变量方差乘以变量系数的平方设yabx则4n个独立总体各变量代数和的方差标准差等于小于各变量方差标准差的代数和排序分组整理表述统计数据寻找反映数据分布特征的代表值集中趋势离散趋势为了改善频临死亡的病人及其家庭的生活质量救助活动服务队医生家庭健康保健员社会工作者受训志愿者给予病人及家庭一些指导帮助减轻由于疾病分离等而引起的精神紧张Mo-LMoUMo-MofMo-fMo-1fMo-fMo1∑f2-Sme-1是L至Me之间的次数而fMe是L至U之间的次数所以∑f2-Sme-1Me-LfMeU–L

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 其它模板

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1