统计学的基础知识分解.ppt

上传人:b****1 文档编号:1110415 上传时间:2022-10-17 格式:PPT 页数:112 大小:1.87MB
下载 相关 举报
统计学的基础知识分解.ppt_第1页
第1页 / 共112页
统计学的基础知识分解.ppt_第2页
第2页 / 共112页
统计学的基础知识分解.ppt_第3页
第3页 / 共112页
统计学的基础知识分解.ppt_第4页
第4页 / 共112页
统计学的基础知识分解.ppt_第5页
第5页 / 共112页
点击查看更多>>
下载资源
资源描述

统计学的基础知识分解.ppt

《统计学的基础知识分解.ppt》由会员分享,可在线阅读,更多相关《统计学的基础知识分解.ppt(112页珍藏版)》请在冰豆网上搜索。

统计学的基础知识分解.ppt

预备内容:

统计学基础知识,统计学statistics,统计学是收集、分析、解释与报告数据资料的一门科学。

“asciencedealingwiththecollection,analysis,interpretationandpresentationofmassesofnumericaldata”.-Webster国际大辞典,第一节统计学的一些基本概念,1.总体与样本2.变量与随机变量3.同质与变异4.参数与统计量5.误差与错误6.准确性与精确性,1.总体与样本Populationandsample,样本:

从总体中随机抽取的部分观察单位。

如某单位男士的身高,总体:

根据研究目的确定的同质研究对象的全体(集合)。

如成年人的身高。

分有限总体与无限总体,从总体中得到样本的方法:

抽样。

(抽样方法与样本量)从样本推论总体的方法:

统计推断(区间估计,假设检验等),抽样与推断,变量可以测量的任何特征或属性。

Anycharacteristicorattributethatcanbemeasured。

如热量值、蛋白质含量、碳水化合物含量。

随机变量在概率论中称变量为随机变量,2、变量与随机变量Variableandrandomvariable,3、变量(随机变量)的分类,离散型变量(discretevariable):

计数资料(15,17,24,)连续性变量(continuousvariable):

计量资料(1.65,1.73,1.77,)有序变量(ordinalvariable):

等级资料(优、良、中、差),4.参数与统计量Parameterandstatistic,参数:

总体的统计指标,如总体均数、标准差,采用希腊字母分别记为、。

通常是固定的常数。

总体,样本,抽样,统计量,参数,推断,统计量:

样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为。

参数附近波动的随机变量。

误差与错误Errorandmistake,误差:

试验中不可控因素所引起的实际观察值与客观真实值(真值)之差,系统误差systematicerror随机误差randomerror,错误:

试验过程中,人为作用引起的差错如药品称量错误,数据录入错误等,误差(Error)测量值=真值+随机误差+非随机误差Xi=i+i1随机误差(抽样误差):

影响因素众多,变化无方向性,不可避免,但可用统计方法进行分析。

2系统误差受确定因素影响,大小变化有方向性。

3非系统误差(错误)研究者偶然失误而造成的误差。

偏差bias可以避免,6.准确性与精确性,准确度(accuracy)或真实性(validity):

观察值与真值的接近程度,受系统误差的影响(常用指标:

如灵敏度、特异性)。

精密度(precision)、也称可靠度(reliability)或重复性(repeatability):

重复观察时观察值与其均值的接近程度,受随机误差的影响(常用指标:

一致百分率、Kappa值)。

系统误差使数据偏离了其理论值,影响数据的准确度。

随机误差使数据相互分散,影响了数据的精密度。

准确度和精密度都好,准确度差、精密度好,准确度?

精密度差,准确度和精密度都差,第二节计量资料的统计描述,连续型变量(可测量的变量)频数表与频数分布平均指标(算术均数、几何均数、中位数、众数)变异指标(极差、百分位数与四分位间距、方差、标准差、变异系数),一、频数表与频数分布(frequencytableandfrequencydistribution),160名正常成年女子的血清甘油三酯(mmol/L),男子血清总胆固醇水平(mmol/L)Stem-and-LeafPlotFrequencyStem&Leaf5.002.7899913.003.011122233344434.003.555555556666666677777888899999999932.004.0000000111111122222333333444444435.004.5555555556666666667777788888889999917.005.0011222223333334410.005.55556778994.006.0022Stemwidth:

1.00Eachleaf:

1case(s),茎叶图,二.平均指标,总称为平均数(average)反映了资料的集中趋势(centraltendency)。

常用的有:

1.算术均数(arithmeticmean),简称均数(mean)2.几何均数(geometricmean)3.中位数(median)4.众数(mode)5.调和均数(harmonicmean)6.截尾平均值(5%trimmedmean),1.均数(mean),适用条件:

资料呈正态或近似正态分布的资料,2.几何均数(geometricmean),几何均数的适用条件与实例,适用条件:

呈倍数关系的等比资料或对数正态分布(正偏态)资料;如增长速度、抗体滴度资料,抗体的效价滴度的倒数分别为:

10、100、1000、10000、100000,求几何均数。

此例的算术均数为22222,显然不能代表滴度的平均水平。

对于同一资料,几何均数均数,3.中位数(median),中位数是将一批数据从小至大排列后位次居中的数据值,符号为Md,反映一批观察值在位次上的平均水平。

适用条件:

适合各种类型的资料。

尤其适合于大样本偏态分布的资料;资料有不确定数值;资料分布不明等。

中位数计算公式与实例,先将观察值按从小到大顺序排列,再按以下公式计算:

特点:

仅仅利用了中间的12个数据,例随机抽查了9名中学生某月的到校天数分别为12,13,14,14,15,15,15,17,19天,求其中位数。

4.众数(mode),出现次数(或频数)最多的观察值;在频数分布图中对应于高峰所在位置的观察值。

适用于大样本;较粗糙。

均数、中位数、众数三者关系,正态分布时:

均数中位数众数正偏态分布时:

均数中位数众数负偏态分布时:

均数中位数众数,5、调和平均数资料中各观测值倒数的算术平均数的倒数,称为调和平均数,记为H,即调和平均数主要用于反映变量不同阶段的平均增长率或平均规模。

某种转基因鱼不同世代鱼群保种的规模分别为:

F0代200尾,F1代400尾,F2代600尾;F3代900尾,F4代1500尾,试求其平均规模。

对于同一资料:

算术平均数几何平均数调和平均数上述五种平均数,最常用的是算术平均数。

几种平均数之间的关系,5%trimmedmean:

将一组数中去掉最小的5数值,再去掉最大的5,然后将剩余的90计算平均值得出的数值。

减小了极端值的影响。

截尾平均值,三.变异(variation)指标,反映数据的离散度(Dispersion)。

即个体观察值的变异程度。

常用的指标有:

1.极差(Range)(全距)2.百分位数与四分位数间距PercentileandQuartilerange3.方差Variance4.标准差StandardDeviation5.变异系数CoefficientofVariation,1.极差(Range)(全距),优点:

简便缺点:

1.只利用了两个极端值2.n大,R也会大3.不稳定,1.6m1.8m,2.百分位数与四分位数间距Percentileandquartilerange,百分位数:

数据从小到大排列,在百分尺度下,所占百分比对应的值。

记为Px。

四分位间距Quartilerange:

QRP75P25四分位半间距Quartiledeviation:

QDQR/2,X,Frequency,25%,75%,3.方差,方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值。

表示一组数据的平均离散情况。

4.标准差,标准差(Standarddeviation,Std,SD)即方差的正平方根;其单位与原变量X的单位相同。

总体标准差,样本方差为什么要除以(n1),与自由度(degreesoffreedom)有关。

自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。

若受到k个条件的限制,就只有(nk)个自由度了。

例如一个有5个观察值的样本,因为受到统计数的约束,在5个离均差中,只有4个数值可以在一定范围内自由变动取值,而第五个离均差必须满足这一限制条件。

基本概念:

样本容量及样本个数,样本容量(n):

指一个样本所包含的单位数。

一般将样本单位数不少于三十个(50?

)的样本称为大样本,样本单位数不到三十个的样本称为小样本。

样本个数(g):

又称样本可能数目,是指从一个总体中抽取了多少个样本。

基本概念:

抽样误差,抽样误差:

指按照随机原则抽样时,样本指标与总体指标之间存在的误差。

主要包括:

总体平均数和样本平均数的误差;总体标准差和样本标准差的误差。

基本概念:

抽样平均误差,为什么要研究抽样平均误差?

未知实际误差未知:

即使知道,由于样本均值是随机的,每次的误差也不一样。

均数的抽样误差与标准误,例如,从总体均数=4.136mmol/L、标准差=0.817mmol/L的正态分布总体N(4.136,0.8172)中,随机抽取n人为一个样本(n=5,10,20,30),并计算该样本的均数、标准差。

如此重复抽取1000次(g=1000),可得到1000份样本,可得到1000份均数和标准差S。

1000份样本的均数和标准差,均数的抽样误差与标准误,将这1000份样本的均数看成新变量值,按频数分布方法,得到这1000份样本均数的直方图。

随机抽样所得1000份样本均数的分布,当n5时,当n10时,当n20时,当n30时,1000份样本均数的抽样分布特点,样本含量均数均数标准差nmeansd54.140300.36305104.140390.25024204.138590.17849304.141730.14954,总体均数4.136,总体标准差0.817,1000份样本均数的抽样分布特点:

1000份样本均数中,各样本均数间存在差异,但各样本均数在总体均数周围波动。

样本均数的分布曲线为中间高,两边低,左右对称,近似服从正态分布。

随着样本量增加,样本均数的标准差明显变小:

4个抽样实验结果比较,通过增加样本含量n来降低抽样误差。

5.变异系数,(Coefficientofvariation,CV),适用条件:

观察指标单位不同,如身高、体重同单位资料,但均数相差悬殊,6.数据的标准得分,假定两个水平类似的班级(一班和二班)上同一门课,但是由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不一样(SPSS数据:

grade.sav)。

分数的均值标准差CV一班78.539.4312%二班70.197.0010%那么得到90分的一班的张颖是不是比得到82分的二班的刘涛成绩更好呢?

怎么比较才能合理呢?

数据的标准得分,均值和标准差不同的数据不能够直接比较,但是可以把它们进行标准化,然后再比较标准化后的数据。

一个标准化的方法是把原始观测值(亦称得分,score)和均值之差除以标准差;得到的度量称为标准得分(standardscore,又称为z-score)。

即:

数据的标准得分,然后可以比较来自不同样本的标准得分。

这样:

张颖的标准得分为刘涛的标准得分为显然如果两个班级水平差不多,刘涛的成绩应该优于张颖的成绩;这是在标准化之前的数据中不易看到的。

原始数据是在各自的均值附近,散布也不一样。

但它们的标准得分则在0周围散布,而且散布也差不多。

实际上,任何样本经过这样的标准化后,就都变换成均值为0、方差为1的样本。

标准化后不同样本观测值的比较只有相对意义,没有绝对意义。

第三节计数资料的统计描述,按年

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 党团工作 > 党团建设

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1