统计学复习资料.docx

资源描述

统计学复习资料.docx

《统计学复习资料.docx》由会员分享，可在线阅读，更多相关《统计学复习资料.docx（43页珍藏版）》请在冰豆网上搜索。

统计学复习资料.docx

统计学复习资料

医学统计学复习资料

一、名词解释题

1.总体（population）：

根据研究目的所确定的同质观察单位的全体。

只包括（确定的时间和空间范围内）

有限个观察单位的总体，称为有限总体（finitepopulation）。

假想的，无时间和空间概念的，称为无限

总体（infinitepopulation）。

2.（总体）参数（parameter）：

总体的统计指标或特征值。

总体参数是事物本身固有的、不变的。

3.样本（sample）：

从总体中随机抽取的部分个体。

4.样本含量（samplesize）：

样本中所包含的个体数。

5.变量（variable）：

观察对象个体的特征或测量的结果。

由于个体的特征或指标存在个体差异，观察

结果在测量前不能准确预测，故称为随机变量（randomvariable），简称变量（variable）。

变量的取值称

为变量值或观察值（observation）。

根据变量的取值特性，分为数值变量和分类变量。

6.数值变量（Numericalvariable）：

又称为计量资料、定量资料，指构成其的变量值是定量的，其表现

为数值大小，有单位。

对每个观察单位用定量的方法测定某项指标的数值，组成的资料。

7.计数资料：

将全体观测单位按照某种性质或特征分组，然后再分别清点各组观察单位的个数。

分类变量（categoricalvariable）：

或称定性变量，其取值是定性的，表现为互不相容的类别或或属性，

有两种情况：

1）无序分类（unorderedcategories）：

包括①二项分类，如上述“性别”变量，表现为互相对立的结果；

②多项分类，如上述“血型”变量，表现为互不相容的多类结果。

2）有序分类（orderedcategories）：

各类之间有程度上的差别，或等级顺序关系，有“半定量”的意义，

亦称等级变量。

等级资料：

介于计量资料和计数资料之间的一种资料，通过半定量方法测量得到。

8.抽样（sampling）：

从总体中抽取部分观察单位的过程称为抽样。

9.抽样误差（samplingerror）：

由于抽样造成的统计量与参数之间的差别，特点是不能避免的，可用

标准误描述其大小。

10.误差（error）：

统计上所说的误差泛指测量值与真值之差，样本指标与总体指标之差。

主要有以下

二种：

系统误差和随机误差。

11.可信区间（confidenceinterval,CI）：

按一定的概率或可信度（1-α）用一个区间估计总体参数所在范

围，这个范围称作可信度1-α的可信区间，又称置信区间。

12.总体均数的可信区间：

按一定的概率大小估计总体均数所在的范围（CI）。

常用的可信度为95％和

99％，故常用95％和99％的可信区间。

13.变异（variation）：

同质事物间的差别。

由于观察单位通常即为观察个体，故变异亦称为个体变异

（individualvariation）。

14.组间变异（variationbetweengroup）：

用各组均数与总均数的离均差平方和表示

SS组间ni（xx）ν

组间=k-1，k为实验分组数，组间均方为MS

组间=SS组间/（k-1）

15.组内变异（variationwithingroup）：

用各组均数与总均数的离均差平方和表示

SS组内（xijx）（n1）s，各组自由度为ni-1，则组内自由度为ν

组内=N-k，组内均ii

iji

方为MS组内=SS组内/（N-k）

16.平均数（average）：

也叫平均值，是一组（群）数据典型或有代表性的值。

这个值趋向于落在根据数

据大小排列的数据的中心，包括算术平均数（arithmeticmean）、几何平均数（geometricmean）、中位数

（median）等。

17.中位数（median）：

将一组观察值按升序或降序排列，位次居中的数，常用M表示。

适用于偏态

分布资料或不规则分布资料和开口资料。

所谓“开口”资料，是指数据的一端或两端有不确定值。

当n

为奇数时，M=X（n+1）/2；当n为偶数时，M=[Xn/2+Xn/2+1]/2。

第1页共19页

18.百分位数（percentile）：

是一种位置指标，以Px表示，一个百分位数Px将全部观察值分为两个部

分，理论上有x%的观察值小于Px小，有（1-x%）的观察值大于Px。

19.变异系数（coefficientofvariance,CV）：

亦称离散系数（coefficientofdispersion），为标准差与均数之

比，常用百分数表示。

CVs/X100%,变异系数没有度量衡单位，常用于比较度量单位不同或

均数相差悬殊的两组或多组资料的离散程度。

20.统计表（statisticaltable）：

统计表就是以表格的形式，表达被研究对象的特征、内部构成及研究项

目分组之间的数量关系。

21.频率（relativefrequency）：

在n次随机试验中，事件A发生了m次，则比值

m发生的试验次数

f称为事件A在n次试验中出现的频率（relativefrequency）。

m称为出

n试验的总次数

现的频数（frequency）。

在实际工作中，当观察单位的例数足够多时，可以用频率来代替概率。

频率是概率的估计值。

22.概率（probability）：

在重复试验中，事件A的频率，随着试验次数的不断增加将愈来愈接近一个

常数p，这个常数p就称为事件A出现的概率（probability），记作P（A）或P。

描述随机事件发生的可能性大小的数值，常用P来表示。

23.统计量（statistic）：

由样本所算出的统计指标或特征值。

24.相关系数（correlationcoefficient）：

用以说明具有直线关系的两个变量间相关关系的密切程度和相

关方向的指标，称为相关系数，又称为积差相关系数（coefficientofproduct-momentcorrelation），总

体相关系数用希腊字母ρ表示，而样本相关系数用r表示，取值范围均为[-1,1]。

25.回归系数（regressioncoefficient）：

直线回归方程Y?

=a+bX的系数b称为回归系数，也就是回归直

线的斜率（slope），表示X每增加一个单位，Y平均改变b个单位。

26.参考值范围（referencerange）：

也称为正常值范围（normalrange），医学上常把绝大多数正常人的

某指标值范围称为该指标的正常值范围。

绝大多数：

可以是90%、95%、99%等等，最常用的是95%。

正常人：

不是指健康人，而是指排除了影响所研究指标的疾病和有关因素的同质人群。

又称参考值

范围，是指特定健康人群的解剖、生理、生化等各种数据的波动范围。

习惯上是确定包括95%的人

的界值。

27.正偏态和负偏态分布：

频数分布可分为对称分布和非对称分布两种类型。

非对称分布又称为偏

态分布，是指观察值偏离中央的分布。

当尾部偏向数轴正侧（或右侧）时，称正偏态（或右偏态）分布，

如人体中一些重金属元素的分布等。

反之，尾部偏向数轴负侧（或左侧）时，则称为负偏态（或左偏态）

分布。

28.统计推断（statisticinference）：

从总体中随机抽取一定含量的样本进行研究，目的是通过样本的信

息判断总体的特征，这一过程称为统计推断。

29.标准误（standarderror,SE）：

在统计理论上将样本统计量的标准差称为标准误，用来衡量抽样误差

的大小。

据此，样本均数的标准差

σ称为标准误。

30.参数估计（parameterestimation）：

由样本信息估计总体参数。

它包括两种：

点估计（pointestimation）

和区间估计（intervalestimation）。

31.点估计（pointestimation）：

直接用样本统计量作为对应的总体参数的估计值。

32.区间估计（intervalestimation）：

按一定的概率或可信度（1-α用）一个区间估计总体参数所在范围，

这个范围称作可信度1-α的可信区间（confidenceinterval,CI），又称置信区间。

这种估计方法称为区间

估计。

33.95%可信区间含义：

如果重复若干次样本含量相同的抽样，每个样本均按同一方法构建95%可信

区间，则在这些可信区间中，理论上有95个包含了总体参数，还有5个未估计到总体均数。

第2页共19页

34.Ⅰ类错误（typeⅠerror）：

统计学上规定，拒绝了实际上成立的H0，这类“弃真”的错误称为Ⅰ型错

误或第一类错误，Ⅰ型错误的概率用α表示。

35.Ⅱ类错误（typeⅡerror）：

统计学上规定，不拒绝实际上不成立的H0，这类“存伪”的错误称为Ⅱ型

错误或第二类错误，Ⅱ型错误的概率用β表示。

36.检验效能（powerofatest）：

又称把握度，即两总体确有差别，按α水准能发现它们有差别的能力。

37.参数检验：

总体分布已知，对其中一些未知参数进行估计或检验。

这类统计推断的方法叫参数

统计或参数检验。

参数检验：

假定比较数据服从某分布,通过参数的估计量（x,s）对比较总体的参数（μ作）检验，统计上

称为参数法检验（parametrictest）。

如t、u检验、方差分析。

38.非参数检验：

适用于任意分布（distributionfree）的统计方法，这种方法称为非参数统计。

这种假

设检验方法，比较的是分布而不是参数，故称为非参数检验。

非参数检验：

是指在统计检验中不需要假定总体分布形式和用参数估计量，直接对比较数据的分布

进行统计检验的方法，称为非参数检验（nonparametrictest）.

39.率（rate）：

又称频率指标，用以说明某现象发生的频率或强度。

常以百分率（%）、千分率（‰）、万

分率（1/万）、十万分率（1/10万）等表示。

率

实际发生某现象的观察

可能发生某现象的观察

单位数

单位总数

比例基数

（K）

其计算公式为：

40.构成比（proportion）：

又称构成指标，它说明一种事物内部各组成部分所占的比重或分布，常以

百分数表示，其计算公式为：

构成比

某一组成部分的观察单位数

同一事物内各组成部分的观察单位总数

100%

41.比（ratio）：

又称相对比，是A、B两个有关指标之比，说明A为B的若干倍或百分之几，它是对

比的最简单形式。

其计算公式为：

比=A/B。

二、简答题

1.常见的三类误差是什么？

应采取什么措施和方法加以控制？

答：

常见的三类误差是：

（1）系统误差：

在收集资料过程中，由于仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗

效标准偏高或偏低等原因，可造成观察结果倾向性的偏大或偏小，这叫系统误差。

要尽量查明其原

因，必须克服。

（2）随机测量误差：

在收集原始资料过程中，即使仪器初始状态及标准试剂已经校正，但是，由于各

种偶然因素的影响也会造成同一对象多次测定的结果不完全一致。

譬如，实验操作员操作技术不稳

定，不同实验操作员之间的操作差异，电压不稳及环境温度差异等因素造成测量结果的误差。

对于

这种误差应采取相应的措施加以控制，至少应控制在一定的允许范围内。

一般可以用技术培训、指

定固定实验操作员、加强责任感教育及购置一定精度的稳压器、恒温装置等措施，从而达到控制的

目的。

（3）抽样误差：

即使在消除了系统误差，并把随机测量误差控制在允许范围内，样本均数（或其它统

计量）与总体均数（或其它参数）之间仍可能有差异。

这种差异是由抽样引起的，故这种误差叫做

抽样误差，要用统计方法进行正确分析。

2.抽样中要求每一个样本应该具有哪三性？

答：

从总体中抽取样本，其样本应具有“代表性”、“随机性”和“可靠性”。

（1）代表性:

就是要求样本中的每一个个体必须符合总体的规定。

（2）随机性:

就是要保证总体中的每个个体均有相同的几率被抽作样本。

第3页共19页

（3）可靠性:

即实验的结果要具有可重复性，即由科研课题的样本得出的结果所推测总体的结论有较

大的可信度。

由于个体之间存在差异,只有观察一定数量的个体方能体现出其客观规律性。

每个样

本的含量越多，可靠性会越大，但是例数增加，人力、物力都会发生困难，所以应以“足够”为准。

需要作“样本例数估计”。

42.什么是两个样本之间的可比性？

答：

可比性是指处理组（临床设计中称为治疗组）与对照组之间，除处理因素不同外，其他可能影

响实验结果的因素要求基本齐同，也称为齐同对比原则。

43.标准正态分布（u分布）与t分布有何异同？

相同点：

集中位置都为0，都是单峰分布，是对称分布，标准正态分布是t分布的特例（自由度是无

限大时）

不同点：

t分布是一簇分布曲线，t分布的曲线的形状是随自由度的变化而变化，标准正态分布的曲

线的形状不变，是固定不变的，因为它的形状参数为1。

44.标准差与标准误有何区别和联系？

区别：

（1）含义不同:

①s描述个体变量值（x）之间的变异度大小，s越大，变量值（x）越分散；反

之变量值越集中，均数的代表性越强。

②标准误是描述样本均数之间的变异度大小，标准误越

大，样本均数与总体均数间差异越大，抽样误差越大；反之，样本均数越接近总体均数，抽样误差

越小。

（2）与n的关系不同：

n增大时，①s→?

（恒定）。

②标准误减少并趋于0（不存在抽样误差）。

（3）用途不同:

①s表:

示x的变异度大小，计算cv，估计正常值范围，计算标准误等②:

参数估计和假

设检验。

联系：

二者均为变异度指标，样本均数的标准差即为标准误，标准差与标准误成正比。

45.应用相对数时的注意事项有哪些？

①要注意绝对数与相对数结合应用；②要注意观察单位样本数不宜过小；③要注意分子分母正确

选用；④要注意率与比的正确应用；⑤要注意平均率的计算方法；⑥要注意资料的可比性；⑦率

和构成比比较时作假设检验。

46.简述直线回归与直线相关的区别。

（1）资料要求上不同：

直线回归分析适用于应变量是服从正态分布的随机变量，自变量是选定变量；

直线相关分析适用于服从双变量正态分布的资料。

（2）两种系数的意义不同：

回归系数是表明两个变量之间数量上的依存关系，回归系数越大回归直线

越陡峭，表示应变量随自变量变化越快；相关系数是表明两个变量之间相关的方向和紧密程度的，

相关系数越大，两个变量的关联程度越大。

47.何谓抽样误差？

分别写出均数的抽样误差和率的抽样误差的描述指标及计算公式。

答：

总体中的个体间存在变异，在进行抽样研究时，样本的统计量不等于总体参数，这种误差称为

抽样误差。

均数的抽样误差：

常用样本均数的标准差

X（简称标准误）反映均数抽样误差的大小。

σXn（理论值），SXs/n（估计值）。

率的抽样误差：

常用率的标准误

σ/

σ反映率的抽样误

差的大小。

σπ（1π）/n

p（理论值），spp（1p）/n（估计值）。

48.假设检验的理论依据是什么？

请简述假设检验的基本步骤。

答：

假设检验的理论依据是小概率事件原理，步骤为：

（1）根据研究目的建立假设，确定检验水准

（2）根据样本统计量的抽样分布规律，选择适当的统计方法，计算检验统计量

（3）确定P值，做出推断结论

49.方差分析的基本思想是什么？

你所知道的其用途有哪些？

答：

方差分析的基本思想就是按研究目的和设计类型，将总变异的离均差平方和SS和自由度v分别

第4页共19页

分解成若干部分，并求得各相应部分的变异；其中的组内变异或误差主要反映个体差异或抽样误差，

其它部分的变异与之比较得出统计量F值，由F值的大小确定P值，并做出推断。

方差分析应用广泛，可用于:

①两个或多个样本均数间的比较；②分析两个或多个因素间的交互作

用；③回归方程的线性假设检验；④多元线性回归分析中偏回归系数的假设检验等。

本章主要介绍

完全随机设计资料的方差分析、配伍组设计资料的方差分析及重复测量数据的方差分析。

50.完全随机设计的两样本率比较时，如何正确选择统计分析方法（写出相应的计算公式）。

（1）当总例数n≥40且所有格子的T≥5时，用

2检验的基本公式或四格表资料2检验的专用公式；当P

≈α时，改用四格表资料的Fisher确切概率法。

公式为：

（A

T）

，v=（行数-1）（列数-1）

（a

（ad

b）（c

bc）

d）（a

c）（b

d）

（2）当n≥40但有1≤T＜5时，用四格表资料

2检验的校正公式；或改用四格表资料的Fisher确切概率

法的连续性校正法：

（AT-0.5）

2，

（a

n（

b）（c

bc-

d）（a

n/2）

c）（b

d）

（3）当n＜40，或T＜1时，用四格表资料的Fisher确切概率法。

51.什么是医学参考值范围？

估计医学参考值范围如何正确选用统计方法？

答：

医学参考值范围是指所谓“正常人”的解剖、生理、生化等指标的波动范围，亦称正常值范围。

如95％的参考值范围包括了95％的观察值，而有5％的观察值不在这一范围内。

估计医学参考值范围确定方法：

（1）正态分布法：

适用于正态或近似正态分布的资料

双侧界值

Xuαs；单侧上界Xuαs；单侧下界X

uαs

（2）对数正态分布法：

适用于对数正态分布的资料

111

双侧界值lg（X）；单侧上界lg（X）；单侧下界lg（）

uαsuαsXuαs

XXX

（3）百分位数法：

用于偏态资料

双侧界值（P2.5,P97.5）；单侧上界P95；单侧上界P5

52.什么是假设检验中的两类错误？

什么是检验效能?

其大小与哪些因素有关？

答：

假设检验中的第一类错误是指“拒绝了实际上成立的H0假设”时所犯的错误，当H0成立时犯第一

类错误的概率等于检验水准α。

假设检验中的第二类错误是指“不拒绝实际上不成立的H0假设”时所

犯的错误，其概率通常用β表示，其大小与抽样误差大小及设定的检验水准α有关。

1-β为假设检

验的检验效能，也就是两个总体确实有差别时检出该差别的能力；

2检验的基本思想是什么？

其用途主要有哪些？

14.

答：

①2检验的基本思想：

其计算公式为

（AT）

2，式中A代表实际频数；T代表理论频

（AT）

数；而反映了某个格子实际频数与理论

2值反映了实际频数与理论频数的吻合程度，其中

频数的吻合程度。

若检验假设H0成立，实际频数与理论频数的差值会小，则

2值也会小；反之，若

检验假设H0不成立，实际频数与理论频数的差值会大，则

2值也会大。

②

2检验的用途：

a、单样本的拟合优度检验；b、比较两个独立样本的频率分布是否不同；c、多

个独立样本的频率分布是否不同；d、比较配对样本的频率分布；

3.对两个随机变量进行关联性或相关性分析时，如何正确选择统计分析方法（写出相应的公式）？

答：

①两变量为数值变量时：

a、若两变量均为正态随机变量，且其散点图呈直线趋势，则用直线

第5页共19页

相关分析，计算样本相关系数：

然后对其进行假设检验：

H0：

ρ=0

H1：

ρ≠0

α=0.05

（1r

）/（n

2）

，v=n-2

b、若两变量为非正态分布，则用等级相关分析。

将两变量各自按由小到大的顺序排秩，编上秩次，

求各对数据的秩次之差，记为di。

按下式计算Spearman等级相关系数：

然后对其进行假设检验：

H0：

ρ=0

H1：

ρ≠0

α=0.05

当n≤50时，查Spearman等级相关系数界值表；当n>50时，按下式计算检验统计量u：

ursn1，根据标准正态分布的概率函数确定P值，作出推断结论。

②两变量为分类变量时：

a、两变量均为无序多分类变量时：

用行×列表的

H0：

两变量无关联

2检验：

H1：

两变量有关联

α=0.05

ATA

2，ν行数1列数1

χ1

Tnn

若拒绝H0，接受H1，可计算Pearson关联系数：

b、两变量均为有序多分类变量时，可用Spearman等级相关分析，方法同前。

53.简述t检验的具体步骤，如何进行检验结果判断？

步骤：

（1）建立假设和确定检验水准α；

（2）计算统计量；（3）确定P值；（4）判断结果。

结果的判断：

P>α，

接受H0，差异无显著性，可认为差异是由抽样误差所致。

P≤α，拒绝H0，差异有显著性，可认为样

本间存在差异。

4.抽样研究中如何才能控制或减小抽样误差？

答：

合理的抽样设计，增大样本含量。

5.何谓抽样误差？

为什么说抽样误差在抽样研究中是不可避免的？

答：

由抽样造成的样本统计量与样本统计量，样本统计量与总体参数间的差异

因为个体差异是客观存在的，研究对象又是总体的一部分，因此这部分的结果与总体的结果存在差

展开阅读全文