统计复习资料.docx

资源描述

统计复习资料.docx

《统计复习资料.docx》由会员分享，可在线阅读，更多相关《统计复习资料.docx（19页珍藏版）》请在冰豆网上搜索。

统计复习资料.docx

统计复习资料

绪论

统计学是一门研究数据的收集、整理和分析的科学。

医学统计学是用统计学原理和方法，研究医学科研中有关数据的收集、整理和分析的应用科学。

一、总体与样本

1.观察单位：

个体，是统计研究中的基本单位，被观察的对象。

2.总体（population）:

根据研究目的所确定的同质观察单位的全体。

确切的说是同质观察单位某种观察值的集合。

有限总体：

总体中的观察单位是有限可数的。

无限总体：

总体中的观察单位是无限可数的或是设想的。

3.样本（sample）：

总体中的具有代表性的一部分----随机抽样获得的观察单位的测量值的集合。

4.总体参数（parameters）：

总体的统计指标，如总体均数、总体率。

5.统计量（statistic）：

样本的统计指标，如样本均数、样本率。

二、变量与资料

变量：

观察单位某项特征能表现观察单位的变异性。

变异：

个体间的差异。

变量值：

变量的观测值（或称观察值）。

资料：

变量值的集合。

几种类型：

资料转换：

从高到低；从计量→等级→计数。

1、计量资料：

又称定量资料。

为观测每个观察单位某项指标的大小所获得的资料。

其变量值是定量的，表现为数值的大小，一般有度量衡单位。

根据观测值取值是否连续又可分为连续型和离散型。

2、计数资料：

又称定性资料。

是将观察单位按某种属性或类别分组计数所得到的资料。

定性观察结果，二分类或多分类。

统计时经常清点绝对数。

表现为互不相容的属性或类别。

3、等级资料：

半定量资料。

是将观察单位按某种属性的不同程度分成等级后计数所得到的资料。

统计时经常清点绝对数。

三、误差：

泛指实测值与真值之差。

观察结果=真值+系统误差+随机误差

四、频率与概率

1．频率：

在相同条件下，独立地重复n次试验，随机事件A出现f次，则称f/n为随机事件A出现的频率。

2．概率：

是描述随机事件发生可能性大小的一个度量。

当n逐渐增大时，频率接近一个常数。

该常数c称为随机事件A发生的概率，记为P（A）=c，简记为P=c。

当P≤0.05，称为小概率事件，表示在一次试验或观察中该事件发生可能性很小。

五、医学统计工作的基本步骤：

设计（最关键）；收集资料（来源）；整理资料；分析资料（包括统计描述和统计推断，目的是表达数据的特征，阐明事物的内在联系和规律）。

第二章计量资料的统计描述

一、频数分布表制表步骤：

①求极差（R）：

也称全距。

②确定组段数和组距（i）:

组段数通常取10-15组。

③写组段：

组下限（L）为起点；组上限（U）为终点。

L≤X

逐一划记。

二、频数表和频数分布图用途：

①描述频数分布的类型；②描述频数分布的特征；③便于发现一些特大或特小的可疑值；④便于进一步做统计分析和处理。

1．对称分布：

若各组段的频数以频数最多组段为中心左右两侧大体对称，就认为该资料是对称分布。

2．偏态分布：

①右偏态分布（正偏态分布）：

右侧的组段数多于左侧，频数向右侧拖尾。

②左偏态分布（负偏态分布）：

左侧的组段数多于右侧，频数向左侧拖尾。

三、集中趋势的描述

统计上使用平均数这一指标体系来描述一组变量值的集中位置或平均水平。

常用的平均数有：

算术均数、几何均数、中位数。

1.算术均数（X）：

简称均数，用于反映一组呈对称分布的变量值的平均水平或集中位置的特征值。

适用于对称分布，特别是正态分布资料。

计算方法：

直接计算法和加权法（利用频数表）。

2.几何均数（G）：

用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。

适用于成等比级数的资料，特别是对数正态分布资料。

计算方法：

直接计算法和加权法（利用频数表）。

3.中位数（M）：

是将n个变量值从小到大排列，位置居于中间的那个变量值。

适用于各种分布类型的资料，特别适合大样本偏态分布资料或者一端或两端无确切数值的资料。

4.百分位数（Px）：

是一种位置指标。

一个百分位数Px将全部变量值分为两部分，在不包含Px的全部变量值中有x%的变量值比它小，有（100-x）%变量值比它大。

重要用途是确定医学参考值范围。

计算方法：

直接计算法和频数表法。

四、离散趋势的描述

1.极差（R）：

即一组变量值最大值与最小值之差。

2.四分位数间距（QR）：

QR=P75-P25。

四分位数间距可以看成居中的一半变量值的极差。

描述偏态分布资料的分布特征。

3.方差：

也称均方差，反映一组数据的平均离散水平。

µ为X的总体均数；离均差（X-µ）；离均差平方和SS=∑（X-µ）2。

总体方差：

δ2=∑（X-µ）2/N。

样本方差用S2表示。

标准差是方差的正平方根。

总体标准差用δ表示。

样本标准差为S。

4.变异系数（CV）：

多用于观察指标单位不同时，或均数相差较大时。

实质上是一个相对变异指标。

五、正态分布

1.特征：

①在直角坐标的横轴上方呈钟型曲线，两端与X轴永不相交，且以X=µ为对称轴，左右完全对称。

②在X=µ处，

取最大值，其值为

；X越远离µ，

值越小。

③正态分布有位置参数µ和形态参数δ。

若固定δ，改变µ值，曲线沿着X轴平行移动，其形状不变。

若固定µ，δ越小，曲线越陡峭；反之，δ越大，曲线越平坦。

④正态曲线下的面积分布有一定的规律。

2.正态曲线下的面积分布规律：

①X轴与正态曲线所夹面积恒等于1或100%；②区间

的面积为68.27%；③区间

的面积为95.00%；④区间

的面积为99.00%。

3.标准正态分布（

）；正态分布（

）；µ：

标准正态变量

4.正态分布除了可估计频数分布外，还是许多统计方法的基础，并可应用于质量控制及制定医学参考值范围。

六、医学参考值：

是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数，也称正常值。

由于存在个体差异，生物医学数据在一定范围内波动，故采用医学参考值范围作为判定正常和异常的参考标准，但不是“金标准”。

常依据医学专业知识而定单、双侧问题。

医学参考值范围有90%、95%、99%等，最常用的为95%。

计算医学参考值范围的常用方法：

正态分布法：

要服从正态分布，且要求样本含量足够大n>100.。

计算公式：

双侧1-α参考值范围：

单侧1-α参考值范围：

百分位数法：

适合偏态分布资料，样本含量较正态分布法要多（＞100），计算公式：

双侧1-α参考值范围：

单侧1-α参考值范围：

第三章总体均数的估计与假设检验

一、均数的抽样误差与标准误

1.抽样误差：

由个体变异产生的抽样造成的样本统计量与总体参数的差异。

2.样本均数的抽样分布特点：

①各样本均数X未必等于总体均数；②各样本均数间存在差异；③样本均数的分布为中间多，两边少，左右基本对称。

④样本均数的变异范围较之原变量的变异范围大大缩小。

3.标准误（SE）：

指样本统计量的标准差。

表示其抽样误差大小的统计指标。

均数标准误（SEM）：

指样本均数的标准差（δx），说明均数抽样误差的大小，计算公式δx=δ/√n；还用样本标准差S来估计δ,Sx=S/√n。

4.降低抽样误差的途径：

通过增加样本含量n,减少SEM。

二、t分布

1.若某一随机变量X服从总体均数为µ、总体标准差为δ的正态分布N（µ，δ2），则可通过u变换（（X-µ）/δ）将一般正态分布转化为标准正态分布N（0,12），即u分布；

2．若样本均数x服从总体均数为u、总体标准差为δx的正态分布

则通过同样方式的u变换（

）也可将其转换为标准正态分布N（0,12），即u分布。

3．实际工作中，由于δx未知，用

代替，则

不再服从标准正态分布，而服从t分布。

即

式中

为自由度（df或v）。

二、t分布的图形与特征

1.t分布是一簇曲线。

当自由度v不同时，曲线的形状不同。

当v→∞时，t分布趋近于标准正态分布，当自由度v较小时，与标准正态分布差异较大。

2．特征：

①单峰分布，以0为中心，左右对称；②自由度v越小，则t值越分散，t分布的峰部越矮而尾部翘得越高；③当v逼近,

逼近

t分布逼近u分布，故标准正态分布是t分布的特例。

3.规律：

①在相同自由度时，t值越大，概率越小；②在相同t值时，同一自由度的双尾概率P为单尾概率P的两倍。

三、总体均数的估计

1.可信区间参数估计指用样本统计量推断总体参数的数值。

包括点和区间估计。

①点估计：

用相应样本统计量直接作为其总体参数的估计值。

如用X估计µ、S估计δ等。

其方法虽简单，但未考虑抽样误差的大小。

②区间估计：

按预先给定的概率（1-）所确定的包含未知总体参数的一个范围。

如给定=0.05,该范围称为参数的95%可信区间或置信区间；如给定=0.01,该范围称为参数的99%可信区间或置信区间。

2、总体均数可信区间的计算

①单一总体均数的可信区间

（1）δ未知：

按t分布。

双侧1-可信区间：

同理，单侧1-可信区间则为

或

（2）δ已知或δ未知但n>60时：

按u分布。

标准正态分布。

总体均数双侧1-可信区间可简写为

同理，单侧1-可信区间为

②两总体均数之差的可信区间

从相等，但µ不等的两个正态总体N（1,2）和N（2,2）进行随机抽样。

两总体均数之差（

）的双侧1-可信区间为

单侧1-可信区间为

当两样本的样本含量均较大时（如n1和n2均大于60），可按正态分布处理。

3.可信区间的确切涵义：

如果能够进行重复抽样试验，平均有1的可信区间包含了总体参数，而不是总体参数落在该范围的可能性为1。

可信区间估计的优劣取决于两个方面：

①可信度1，愈接近1愈好；②

区间的宽度，区间愈窄愈好。

在可信度确定的情况下，增加样本含量可减小区间宽度。

4、总体均数可信区间与参考值范围的区别：

①含义不同：

按预先给定概率所确定的未知参数的可能范围。

后者是正常人的解剖、生理、生化指标的波动范围。

②计算公式不同。

③用途不同：

总体均数的区间估计。

后者是绝大多数观察对象某项指标的分布范围。

四、t检验

1.假设检验：

利用小概率原理和反证法相结合从问题的对立面（H0）出发间接判断要解决的问题（H1）是否成立。

2.基本步骤

① 建立检验假设，确定检验水准。

无效假设（H0）或称零假设，备择假设（H1）或称对立假设。

两者都是根据推断目的提出的对总体特征的假设。

假设检验主要是围绕H0进行的，当H0被拒绝时，则接受H1。

在建立假设之前，应根据分析目的和专业知识明确使用单侧或双侧检验。

检验水准（α）也称事先概率，常取0.05。

②计算检验统计量：

应根据资料的类型、设计方案、统计推断目的和适用条件选择检验统计量。

注意：

所有的检验统计量都是在H0成立的前提下计算出来的。

不同的统计量所涉及的统计分布是不同的。

③确定P值，作出推断结论。

P值（也称事后概率）其含义是指从H0规定的总体作随机抽样，其检验统计量=及>（或=及<）现有样本获得的检验统计量的概率。

一般地，当P≤α时，按所取水准，拒绝H0，接受H1，有统计学意义（统计结论），可认为……不同或不等（专业结论），当P＞α时，按所取水准，不拒绝H0，无统计学意义，还不能认为……不同或不等。

拒绝H0不能认为H0肯定不成立，不拒绝H0，也不能认为H0肯定成立。

3、单样本t检验：

属完全随机设计。

计量资料。

比较样本均数与已知总体均数，比较目的是推断样本所代表的未知总体均数µ与已知总体均数µ0是否相同。

当样本例数较小时，要求样本取自正态总体。

t=（X-µ）/Sx=（X-µ0）/S/√nv=n-1。

4、配对样本t检验：

适用于配对设计资料，配对设计是指将受试对象按某些重要特征相近的原则配成对子，每对中的两个个体随机分配给两种处理。

见于：

①同对的两个受试对象分别给予两种处理或同一受试对象分别给予两种处理。

②同一受试对象处理前后的比较。

具有一一对应的特征，对于这类问题人们关心的变量是对子效应的差值，而不是各自的效应值。

首先要求出各对差值d的均数d。

可将配对设计的均

展开阅读全文