统计学的基础知识分解.ppt

资源描述

统计学的基础知识分解.ppt

《统计学的基础知识分解.ppt》由会员分享，可在线阅读，更多相关《统计学的基础知识分解.ppt（112页珍藏版）》请在冰豆网上搜索。

统计学的基础知识分解.ppt

预备内容：

统计学基础知识,统计学statistics,统计学是收集、分析、解释与报告数据资料的一门科学。

“asciencedealingwiththecollection,analysis,interpretationandpresentationofmassesofnumericaldata”.-Webster国际大辞典,第一节统计学的一些基本概念,1.总体与样本2.变量与随机变量3.同质与变异4.参数与统计量5.误差与错误6.准确性与精确性,1.总体与样本Populationandsample,样本：

从总体中随机抽取的部分观察单位。

如某单位男士的身高,总体：

根据研究目的确定的同质研究对象的全体（集合）。

如成年人的身高。

分有限总体与无限总体,从总体中得到样本的方法：

抽样。

（抽样方法与样本量）从样本推论总体的方法：

统计推断（区间估计，假设检验等）,抽样与推断,变量可以测量的任何特征或属性。

Anycharacteristicorattributethatcanbemeasured。

如热量值、蛋白质含量、碳水化合物含量。

随机变量在概率论中称变量为随机变量,2、变量与随机变量Variableandrandomvariable,3、变量（随机变量）的分类,离散型变量（discretevariable）：

计数资料（15，17，24，）连续性变量（continuousvariable）：

计量资料（1.65,1.73,1.77，）有序变量（ordinalvariable）：

等级资料（优、良、中、差）,4.参数与统计量Parameterandstatistic,参数：

总体的统计指标，如总体均数、标准差，采用希腊字母分别记为、。

通常是固定的常数。

总体,样本,抽样,统计量,参数,推断,统计量：

样本的统计指标，如样本均数、标准差，采用拉丁字母分别记为。

参数附近波动的随机变量。

误差与错误Errorandmistake,误差：

试验中不可控因素所引起的实际观察值与客观真实值（真值）之差,系统误差systematicerror随机误差randomerror,错误：

试验过程中，人为作用引起的差错如药品称量错误，数据录入错误等,误差（Error）测量值=真值+随机误差+非随机误差Xi=i+i1随机误差（抽样误差）：

影响因素众多，变化无方向性，不可避免，但可用统计方法进行分析。

2系统误差受确定因素影响，大小变化有方向性。

3非系统误差（错误）研究者偶然失误而造成的误差。

偏差bias可以避免,6.准确性与精确性,准确度（accuracy）或真实性（validity）：

观察值与真值的接近程度，受系统误差的影响（常用指标：

如灵敏度、特异性）。

精密度（precision）、也称可靠度（reliability）或重复性（repeatability）：

重复观察时观察值与其均值的接近程度，受随机误差的影响（常用指标：

一致百分率、Kappa值）。

系统误差使数据偏离了其理论值，影响数据的准确度。

随机误差使数据相互分散，影响了数据的精密度。

准确度和精密度都好,准确度差、精密度好,准确度？

精密度差,准确度和精密度都差,第二节计量资料的统计描述,连续型变量（可测量的变量）频数表与频数分布平均指标（算术均数、几何均数、中位数、众数）变异指标（极差、百分位数与四分位间距、方差、标准差、变异系数）,一、频数表与频数分布（frequencytableandfrequencydistribution）,160名正常成年女子的血清甘油三酯（mmol/L）,男子血清总胆固醇水平（mmol/L）Stem-and-LeafPlotFrequencyStem&Leaf5.002.7899913.003.011122233344434.003.555555556666666677777888899999999932.004.0000000111111122222333333444444435.004.5555555556666666667777788888889999917.005.0011222223333334410.005.55556778994.006.0022Stemwidth:

1.00Eachleaf:

1case（s）,茎叶图,二.平均指标,总称为平均数（average）反映了资料的集中趋势（centraltendency）。

常用的有：

1.算术均数（arithmeticmean），简称均数（mean）2.几何均数（geometricmean）3.中位数（median）4.众数（mode）5.调和均数（harmonicmean）6.截尾平均值（5%trimmedmean）,1.均数（mean）,适用条件：

资料呈正态或近似正态分布的资料,2.几何均数（geometricmean）,几何均数的适用条件与实例,适用条件：

呈倍数关系的等比资料或对数正态分布（正偏态）资料；如增长速度、抗体滴度资料,抗体的效价滴度的倒数分别为：

10、100、1000、10000、100000，求几何均数。

此例的算术均数为22222，显然不能代表滴度的平均水平。

对于同一资料，几何均数均数,3.中位数（median）,中位数是将一批数据从小至大排列后位次居中的数据值，符号为Md，反映一批观察值在位次上的平均水平。

适用条件：

适合各种类型的资料。

尤其适合于大样本偏态分布的资料；资料有不确定数值；资料分布不明等。

中位数计算公式与实例,先将观察值按从小到大顺序排列，再按以下公式计算：

特点：

仅仅利用了中间的12个数据,例随机抽查了9名中学生某月的到校天数分别为12，13，14，14，15，15，15，17,19天，求其中位数。

4.众数（mode）,出现次数（或频数）最多的观察值；在频数分布图中对应于高峰所在位置的观察值。

适用于大样本；较粗糙。

均数、中位数、众数三者关系,正态分布时：

均数中位数众数正偏态分布时：

均数中位数众数负偏态分布时：

均数中位数众数,5、调和平均数资料中各观测值倒数的算术平均数的倒数，称为调和平均数，记为H，即调和平均数主要用于反映变量不同阶段的平均增长率或平均规模。

某种转基因鱼不同世代鱼群保种的规模分别为：

F0代200尾，F1代400尾，F2代600尾；F3代900尾，F4代1500尾，试求其平均规模。

对于同一资料：

算术平均数几何平均数调和平均数上述五种平均数，最常用的是算术平均数。

几种平均数之间的关系,5%trimmedmean：

将一组数中去掉最小的5数值，再去掉最大的5，然后将剩余的90计算平均值得出的数值。

减小了极端值的影响。

截尾平均值,三.变异（variation）指标,反映数据的离散度（Dispersion）。

即个体观察值的变异程度。

常用的指标有：

1.极差（Range）（全距）2.百分位数与四分位数间距PercentileandQuartilerange3.方差Variance4.标准差StandardDeviation5.变异系数CoefficientofVariation,1.极差（Range）（全距）,优点：

简便缺点：

1.只利用了两个极端值2.n大，R也会大3.不稳定,1.6m1.8m,2.百分位数与四分位数间距Percentileandquartilerange,百分位数：

数据从小到大排列，在百分尺度下，所占百分比对应的值。

记为Px。

四分位间距Quartilerange：

QRP75P25四分位半间距Quartiledeviation：

QDQR/2,X,Frequency,25%,75%,3.方差,方差（variance）也称均方差（meansquaredeviation），样本观察值的离均差平方和的均值。

表示一组数据的平均离散情况。

4.标准差,标准差（Standarddeviation,Std,SD）即方差的正平方根；其单位与原变量X的单位相同。

总体标准差,样本方差为什么要除以（n1）,与自由度（degreesoffreedom）有关。

自由度是数学名词，在统计学中，n个数据如不受任何条件的限制，则n个数据可取任意值，称为有n个自由度。

若受到k个条件的限制，就只有（nk）个自由度了。

例如一个有5个观察值的样本，因为受到统计数的约束，在5个离均差中，只有4个数值可以在一定范围内自由变动取值，而第五个离均差必须满足这一限制条件。

基本概念：

样本容量及样本个数,样本容量（n）：

指一个样本所包含的单位数。

一般将样本单位数不少于三十个（50?

）的样本称为大样本，样本单位数不到三十个的样本称为小样本。

样本个数（g）：

又称样本可能数目，是指从一个总体中抽取了多少个样本。

基本概念：

抽样误差,抽样误差：

指按照随机原则抽样时，样本指标与总体指标之间存在的误差。

主要包括：

总体平均数和样本平均数的误差；总体标准差和样本标准差的误差。

基本概念：

抽样平均误差,为什么要研究抽样平均误差？

未知实际误差未知：

即使知道，由于样本均值是随机的，每次的误差也不一样。

均数的抽样误差与标准误,例如，从总体均数=4.136mmol/L、标准差=0.817mmol/L的正态分布总体N（4.136,0.8172）中，随机抽取n人为一个样本（n=5,10,20,30），并计算该样本的均数、标准差。

如此重复抽取1000次（g=1000），可得到1000份样本，可得到1000份均数和标准差S。

1000份样本的均数和标准差,均数的抽样误差与标准误,将这1000份样本的均数看成新变量值，按频数分布方法，得到这1000份样本均数的直方图。

随机抽样所得1000份样本均数的分布,当n5时,当n10时,当n20时,当n30时,1000份样本均数的抽样分布特点,样本含量均数均数标准差nmeansd54.140300.36305104.140390.25024204.138590.17849304.141730.14954,总体均数4.136,总体标准差0.817,1000份样本均数的抽样分布特点：

1000份样本均数中，各样本均数间存在差异，但各样本均数在总体均数周围波动。

样本均数的分布曲线为中间高，两边低，左右对称，近似服从正态分布。

随着样本量增加，样本均数的标准差明显变小：

4个抽样实验结果比较,通过增加样本含量n来降低抽样误差。

5.变异系数,（Coefficientofvariation，CV）,适用条件：

观察指标单位不同，如身高、体重同单位资料，但均数相差悬殊,6.数据的标准得分,假定两个水平类似的班级（一班和二班）上同一门课，但是由于两个任课老师的评分标准不同，使得两个班成绩的均值和标准差都不一样（SPSS数据：

grade.sav）。

分数的均值标准差CV一班78.539.4312%二班70.197.0010%那么得到90分的一班的张颖是不是比得到82分的二班的刘涛成绩更好呢？

怎么比较才能合理呢？

数据的标准得分,均值和标准差不同的数据不能够直接比较，但是可以把它们进行标准化，然后再比较标准化后的数据。

一个标准化的方法是把原始观测值（亦称得分，score）和均值之差除以标准差；得到的度量称为标准得分（standardscore，又称为z-score）。

即：

数据的标准得分,然后可以比较来自不同样本的标准得分。

这样：

张颖的标准得分为刘涛的标准得分为显然如果两个班级水平差不多，刘涛的成绩应该优于张颖的成绩；这是在标准化之前的数据中不易看到的。

原始数据是在各自的均值附近，散布也不一样。

但它们的标准得分则在0周围散布，而且散布也差不多。

实际上，任何样本经过这样的标准化后，就都变换成均值为0、方差为1的样本。

标准化后不同样本观测值的比较只有相对意义，没有绝对意义。

第三节计数资料的统计描述,按年

展开阅读全文