统计学基础知识.ppt

上传人:b****9 文档编号:191715 上传时间:2022-10-06 格式:PPT 页数:90 大小:1.47MB
下载 相关 举报
统计学基础知识.ppt_第1页
第1页 / 共90页
统计学基础知识.ppt_第2页
第2页 / 共90页
统计学基础知识.ppt_第3页
第3页 / 共90页
统计学基础知识.ppt_第4页
第4页 / 共90页
统计学基础知识.ppt_第5页
第5页 / 共90页
点击查看更多>>
下载资源
资源描述

统计学基础知识.ppt

《统计学基础知识.ppt》由会员分享,可在线阅读,更多相关《统计学基础知识.ppt(90页珍藏版)》请在冰豆网上搜索。

统计学基础知识.ppt

整理ppt,1,統計學基礎知識,整理ppt,2,第四囘統計學初步,什麽是統計學統計學的概念及統計思想導入基本統計量:

均值、方差和標準差統計學解決問題的方式工業生產過程中的統計技術練習:

分析一組資料的統計分佈和正態概率紙的應用。

整理ppt,3,質量管理的第一基礎,統計學是什麽?

整理ppt,4,统计是什么?

统计是人类思维的一个归纳过程站在一个路口,看到每过去20辆小轿车时,也有100辆自行车通过而且平均每10个轿车载有12个人于是,你认为小汽车和自行车在这个路口的运载能力为24:

100这是一个典型的统计思维过程,整理ppt,5,统计是什么?

一般来说,统计先从现实世界收集数据(信息),如观测路口的交通然后,根据数据作出判断,称为模型模型是从数据产生的模型也需要根据新的信息来改进不存在完美的模型模型的最终结局都是被更能够说明现实世界的新模型所取代,整理ppt,6,统计学可以应用于几乎所有的科學领域,精算,农业,动物学,人类学,考古学,审计学,晶体学,人口统计学,牙医学,生态学,经济计量学,教育学,选举预测和策划,工程,流行病学,金融,水产渔业研究,遗传学,地理学,地质学,历史研究,人类遗传学,水文学,工业,法律,语言学,文学,劳动力计划,管理科学,市场营销学,医学诊断,气象学,军事科学,核材料安全管理,眼科学,制药学,物理学,政治学,心理学,心理物理学,质量控制,宗教研究,社会学,调查抽样,分类学,气象改善,博彩等。

整理ppt,7,统计是什么?

一句话,统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。

整理ppt,8,以归纳为主要思维方式的统计统计可应用于各个不同学科,在有些学科已经有其特有的方法和特点;如生物统计(biostatistics)、经济计量学(econometrics)以及目前很热门的生物信息(bioinformation)和数据挖掘(DataMining)的方法主体都是统计質量管理和工業生産領域是統計學的一大重要應用領域,整理ppt,9,现实中的随机性和规律性,概率和机会,一些现象既有规律性又有随机性(randomness)肺癌患者中(主动或被动)吸烟的比例较大,这体现了规律性而绝非每个吸烟者都会患肺癌,这体现了随机性,整理ppt,10,现实中的随机性和规律性,概率和机会,再如,一般来说,白种人身材比黄种人要高些,这就是规律性但对于具体的一个白人和一个黄种人,就很难说谁高谁矮了,这体现随机性,整理ppt,11,我們在前面的課程中,引進了概率隨機變量及其分佈常用的統計分佈這些都是統計學研究的數學基礎,也是質量管理的重要知識準備。

統計學研究的基礎在於,整理ppt,12,統計學的基本工具,統計變量和數据,整理ppt,13,变量和数据,一节火车车厢有多少坐位是一个固定的数目,称为常数(constant)或者常量。

但是,开车后,坐在这节车厢的旅客有多少就没准了。

这有随机性。

该车厢的乘客数为变量(variable)。

整理ppt,14,統計变量和数据,一个学校的注册在校男女生比例是固定的,为常量但是,该校任意一群学生的男女生比例就不一定和全校的比例一样了,它为变量(variable)。

整理ppt,15,有了变量,何谓数据?

不同机构调查所得到的太原市收入万元以上市民的比例都不一样,这是变量而这些调查产生一些数目,这些数目就是数据(data)数据是关于变量的观测值。

數據是什麽?

整理ppt,16,統計数据,通过数据可验证有关的理论或假定。

比如通过抽样调查验证美国选民对共和党候选人的支持率是否超过50%通过抽样,可以检验某批产品是否合格等等,整理ppt,17,变量之间的关系,现实世界紧密联系的人们想知道投资方式和经济效益之间的关系、旅客人数和经济发展之间的关系等等不讨论变量之间的关系,就无从谈起任何有深度的应用,统计的基本概念就仅仅是摆设而已。

整理ppt,18,定量变量间的关系,例广告投入和销售之间的关系。

下表显示了某企业广告投入和销售额之间的关系(万元)。

整理ppt,19,横坐标代表广告投入,而纵坐标代表销售收入。

看得出有何种关系吗?

整理ppt,20,定量变量间的关系,能否从该数据回答下面问题:

这两个变量是否有关系?

如果有,它们的关系是否显著?

这些关系是什么关系,能否用数学模型来描述?

这个关系是否带有普遍性?

这个关系是不是因果关系?

整理ppt,21,定量变量间的关系,关于因果关系在可控制的试验中,较容易找到因果关系;比如治疗方式和疗效的关系等但是,一般来说,变量之间有关系这个事实并不意味着一定存在明确的因果关系。

整理ppt,22,思考一下,工業生産中的變量關係一般會是怎樣的?

生産出一個不合格品和什麽因素有關係?

必然的還是偶然的?

公鷄打鳴和太陽升起的關係,整理ppt,23,樣本和總體,統計學的基本概念,整理ppt,24,数据是怎样得到的?

在自然的未被控制的条件下观测到的数据,称为观测数据(observationaldata)。

在人工干预和操作情况下收集的数据就称为试验数据(experimentaldata)。

請你根據自己的工作,举出观测数据和试验数据的例子。

整理ppt,25,个体、总体和样本,需要调查太原市民对交通规则的观点;对象是所有市民,目的是希望知道市民中对该问题的不同看法各自占有的比例显然,不可能去问所有的北京市民,而只能够问一部分;并且根据这一部分的观点来理解整个太原市民的总体观点。

整理ppt,26,个体、总体和样本,在这个例子中,单个太原市民的观点称为个体(element)所有太原市民对这个问题的观点为一个总体(population),总体是包含所有要研究的个体的集合。

整理ppt,27,个体、总体和样本,而调查时问到的那部分市民的观点(也就是部分个体)称为该总体的一个样本(sample),是总体的一部分。

也有可能试图调查所有的人(比如人口普查),那叫做普查(census)。

整理ppt,28,工業管理,通常情況下,工業生産中的縂體指一個檢驗批,要求在相同時間、地點、設備、技術和原材料儅要素前提下,完成生産。

樣本是指部分個體的集合;單件產品是研究的個體。

整理ppt,29,均值、方差和標準差,基本統計量,整理ppt,30,在对数据进行深入加工之前,总应该对数据有所印象。

可以借助于图形和简单的运算,来了解数据的一些特征。

由于数据是从总体中产生的,其特征也反映了总体的特征。

对数据的描述也是对其总体的一个近似的描述。

整理ppt,31,如何用图来表示数据?

整理ppt,32,直方图,整理ppt,33,盒型图,盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线(边)为上下四分位数(点);按照SPSS的默认选项,如果所有样本中的数目都在离四分位点1.5倍盒子长度之内,则线的端点为最大和最小值,否则线长就是1.5倍的盒子长度(盒子长度称为四分位间距),在其外面的度量单独点出,整理ppt,34,散点图,整理ppt,35,饼图,整理ppt,36,如何用少量数字来概括数据?

大量的数字既繁琐又不直观;需要对数据做人们时间和耐心所允许的简化我们可以用“平均”,“差距”或百分比等来概括大量数字。

由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。

下面主要介绍关于定量变量的数字描述。

整理ppt,37,如何用少量数字来概括数据?

可用少量所谓汇总统计量或概括统计量(summarystatistic)来描述定量变量的数据。

这些数字是从样本数据得来的,因而也是样本的函数,任何样本的函数,只要不包含总体的未知参数,都称为统计量(statistic)。

样本的随机性决定统计量的随机性(统计量也是随机变量),整理ppt,38,如何用少量数字来概括数据?

概括统计量经常对应于总体的无法观测到的某些参数。

这时,统计量可作为这些参数的估计。

一些统计量还可以用来检验样本和假设的总体是否一致。

整理ppt,39,如何用少量数字来概括数据?

注:

一些统计量前面有时加上“样本”二字,以区别于总体的同名参数。

如“样本均值”和“样本标准差”,以区别于总体均值和总体标准差;但在不会混淆时可以只说“均值”和“标准差”。

整理ppt,40,数据的“位置”,数据有位置吗?

这里三个数据的位置一样吗?

整理ppt,41,数据的“位置”,“位置”一般是关于数据中某变量观测值的“中心位置”或者数据分布的中心(center或centertendency)。

和这种“位置”有关的统计量就称为位置统计量(locationstatistic)。

位置统计量当然不一定都是描述“中心”了,比如后面要讲的k百分位数(或k分位数)。

整理ppt,42,数据的“位置”,最常用的位置统计量就是小学时所学到的算术平均数,它在统计中叫做均值(mean);严格地说叫做样本均值(samplemean),以区别于总体均值。

如果记样本中的观测值为x1,xn,则样本均值定义为,整理ppt,43,(样本)中位数(median)是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。

由于中位数不易被极端值影响,所以中位数比均值稳健(robust)。

数据的“位置”,整理ppt,44,上下四分位数(或分别称为第一四分位数和第三四分位数,firstquantile,thirdquantile)则分别位于(按大小排列的)数据的上下四分之一的地方。

数据的“位置”,整理ppt,45,数据的“位置”,一般地还称上四分位数为75百分位数(75pecentile,有75的观测值小于它),下四分位数为25百分位数(有25的观测值小于它)。

一般地,k百分位数(k-pecentile)意味着有k的观测值小于它。

如果令a=k%,则k百分位数也称为a分位数(a-quantile)。

样本中出现最多的数目,称为众数(mode),整理ppt,46,数据的“尺度”,这两个数据“胖瘦”一样吗?

整理ppt,47,数据的“尺度”,数据中数目的分散程度由尺度统计量(scalestatistic)来描述。

尺度统计量是描述数据散布,即描述集中与分散程度或变化(spread或variability)的度量。

整理ppt,48,数据的“尺度”,从前面两个高三男生身高数据的盒形图。

左边的数据平均要高些,但右边的数据散布范围要小得多。

统计中有许多尺度统计量。

一般来说,数据越分散,尺度统计量的值越大。

整理ppt,49,数据的“尺度”,极差(range);就是极大值和极小值之间的差。

前面两个高三男生身高数据的极差分别为50cm和32cm。

盒形图盒子的长度为两个四分位数之差,称为四分位数极差或四分位间距(interquantilerange);它描述了中间半数观测值的散布情况。

极差和四分位极差实际上各自只依赖于两个值,信息量太少。

整理ppt,50,数据的“尺度”,另一个常用的尺度统计量为(样本)标准差(standarddeviation)。

度量样本中各数值到均值距离的平均。

标准差实际上是方差(variance)的平方根。

如果记样本中的观测值为x1,xn,则样本方差为,整理ppt,51,数据的“尺度”,两个均值一样,但右边的要“胖”些,方差为左边的一倍,整理ppt,52,数据的标准得分,假定两个水平类似的班级(一班和二班)上同一门课,但是由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不一样。

整理ppt,53,数据的标准得分,一班分数的均值和标准差分别为78.53和9.43,而二班的均值和标准差分别为70.19和7.00。

那么得到90分的一班的张颖是不是比得到82分的二班的刘威成绩更好呢?

怎么比较才能合理呢?

整理ppt,54,数据的标准得分,虽然这种均值和标准差不同的数据不能够直接比较,但是可以把它们进行标准化,再比较标准化后的数据。

一个标准化的方法是把某样本原始观测值(亦称得分,score)和该样本均值之差除以该样本的标准差;得到的度量称为标准得分(standard

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 法律资料

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1