统计学知识点完整.docx

资源描述

统计学知识点完整.docx

《统计学知识点完整.docx》由会员分享，可在线阅读，更多相关《统计学知识点完整.docx（27页珍藏版）》请在冰豆网上搜索。

统计学知识点完整.docx

统计学知识点完整

可编写可更正

基本统计方法

第一章概论

1.整体（Population）：

依照研究目的确定的同质对象的全体（会集）；样本（Sample）：

从整体中随机抽取的部分拥有代表性的研究对象。

2.参数（Parameter）：

反响整体特点的统计指标，如整体均数、标准差等，用希腊字母表示，是固定的常数；统计量（Statistic）：

反响样本特点的统计指标，如样本均数、标准差等，采用拉丁字字母表示，是在参数周边颠簸的随机变量。

3.统计资料分类：

定量（计量）资料、定性（计数）资料、等级资料。

第二章计量资料统计描述

1.集中趋势：

均数（算术、几何）、中位数、众数

2.失散趋势：

极差、四分位间距（QR=P75-P25）、标准差（或方差）、变异系数（CV）

3.正态分布特点：

①X轴上方关于X=对称的钟形曲线；②X=时，f（X）获取最大值；③

有两个参数，地址参数和形态参数；④曲线下面积为1，区间±的面积为%，区间

±的面积为%，区间±的面积为%。

4.医学参照值范围的拟定方法：

正态近似法：

Xu/2S；百分位数法：

。

第三章整体均数估计和假设检验

1.抽样误差（SamplingError）：

由个体变异产生、随机抽样造成的样本统计量与整体参数的差别。

抽样误差不能防备，产生的根本源因是生物个体的变异性。

2.均数的标准误（StandarderrorofMean,SEM）：

样本均数的标准差，计算公式：

X/n。

反响样本均数间的失散程度，说明抽样误差的大小。

3.降低抽样误差的路子有：

①经过增加样本含量n；②经过设计减少S。

4.t分布特点：

①单峰分布，以0为中心，左右对称；

②形态取决于自由度，越小，t值越分别，t分布的峰部越矮而尾部翘得越高；

③当逼近∞,SX逼近X,t分布逼近u分布，故标准正态分布是t分布的特例。

可编写可更正

5.置信区间（ConfidenceInterval,CI）：

按起初给定的概率（1-）确定的包括整体参

数的一个范围，计算公式：

Xt/2,SX或Xu/2,SX。

95%CI含义：

从固定样本含量的

已知整体中进行重复抽样试验，依照每个样本可获取一个置信区间，则平均有95%的置信区

间包括了整体参数。

6.假设检验的基本源理：

小概率反证法的思想。

①反证法：

从问题的对峙面（H0）出发间接判断要解决的问题（H1）可否成立。

②小概率事件：

在H0成立的条件下计算检验统计量，依照概率分布确定检验水平下P

值大小，判断可否为小概率事件（平时P≤视为小概率事件，平时取），是则

拒绝H0，接受H1；否则尚不能够拒绝H0。

7.假设检验一般步骤：

①成立假设（反证法，H0和H1），确定检验水平（）；②计算统计

量：

u,t，F；③确定概率值P，做出推断结论。

t检验需满足的条件：

比较的两个样真相互

独立、均遵从正态分布。

P的含义：

是指从H规定的整体随机抽样，抽得等于及大于

（或/和等于及小于）现有样本

获取的检验统计量（如t、u等）值的概率。

10.Ⅰ型错误（TypeⅠerror）：

拒绝了本质上成立的H0，这类“弃真”的错误称为Ⅰ型

错误，Ⅰ型错误的大小为检验水平。

Ⅱ型错误（TypeⅡerror）：

接受了本质上不能立

的H0，这类“存伪”的错误称为Ⅱ型错误，Ⅱ型错误的大小用表示，1-表示检验效能。

越小，越大，增大样本量能够同时降低和。

11.置信区间和假设检验的差别和联系：

①能够经过判断置信区间可否包括零假设，判断单

样本均数可否来自已知的整体；②置信区间不仅能回答差别有无统计学意义，还可提示差别

有无本质意义。

③假设检验可供应置信区间不能够供应的信息，如P值和检验效能等。

第四章方差解析

1.方差解析的基本思想：

依照研究目的和设计种类，把所有测量值的总变异依照办理要素

和水平均分解成两部分（组内变异和组间变异）或更多部分，同时把对自由度相应进行分解，

再进行比较，议论由办理要素引起的变异可否拥有统计学意义。

2.方差解析的应用条件：

各样本是相互独立的随机样本，均来自正态分布的整体，各样本

可编写可更正

的整体方差相等（拥有方差齐性）。

3.方差解析表：

变异本源

组间变异

g-1

a/（g-1）

/MS

组内

组间

组内变异

N-g

b/（N-g）

总变异

a+b

N-1

g=2时，随机区组设计的方差解析与配对设计资料

t检验等价，t

F。

多个样本均数间的多重比较：

①

LSD-t检验，即最小显然差别

t检验，合用于一对或几

对在专业上有特别意义的样本均数间的比较；

②Dunnett-t检验：

合用于g-1个实验组与一

个比较组均数差其他多重比较；③SNK-q检验：

合用于多个样本均数两两之间的全面比较。

第五章计数资料的统计描述

1.相对数的种类：

强度相对数（率，如死亡率、发病率等）；结构相对数（构成比）；相对

比（如性别比等）

2.应用相对数的注意事项：

①结构相对数不能够代替强度相对数；②计算相对数应有足够的

数量；③正确计算合计率；④注意资料的可比性；⑤比较不相同时期资料应注意客观条件可否相同；⑥样本率（或构成比）的抽样误差。

3.标准化率（Standardizationrate）：

采用标准化法进行计算，除掉数据内部构成的差别，使标化后的合计率拥有可比性，这类经过标化后的合计率称为标准化率。

4.标准化率的注意事项：

①只合用于内部构成不相同，影响总率的可比性的问题；②选择的

标准不相同，计算获取的标准化率也不相同，多个标准化率比较时，应选同一标准；③标准化率

已经不再反响当地的本质水平；④样本标准化率是样本值，存在抽样误差。

比较两样本标准化率，当样本量较小时，需做假设检验。

第六章几种失散型变量的分布及应用

1.二项分布X～B（n,）的合用条件：

①每次试验只发生两种对峙的可能结果之一；②每

次试验产生某结果的概率固定不变；③重复试验是相互独立的。

2.二项分布的性质：

①阳性次数X的整体均数（n）、标准差（n

（1））；

可编写可更正

②样本率p的均数（

p）、标准差（Sp

p（1p），即率的标准误）。

③二项分布的

正态近似条件：

np和n（1-p）均大于5。

3.泊松分布X～P（

）的性质：

①整体均数

和整体方差

2相等；②当n很大，

很小，

且np=

为常数时，二项分布近似泊松分布；③

≥20时，泊松分布近似正态分布；

④泊

松分布具备可加性。

第七章2检验

1.2检验的基本思想：

依照2分布特点，经过比较本质频数与理论频数的差别，确定在

成立的条件下该差别由抽样误差造成可否为小概率事件，进而判断差别可否拥有统计学

意义。

值反响了本质频数与理论频数的切合程度。

2.R×C列联表中的各格子T≥1，并且1≤T＜5的格子数不宜高出1/5格子总数，否则可能

产生误差。

办理方法有三种：

①增加样本量，使理论频数增大；②依照专业知识，删除或合

并行列；③采用Fisher的确概率法解析。

3.有序分组资料表线性趋势检验：

①双向无序的R×C列联表：

多个样本率的比较采用

R×C列联表的

检验；两个分类变量

的关系性解析则采用

R×C列联表的

检验和Pearson列联系数进行解析。

②单向有序的R×C列联表：

行有序而列无序：

R×C列联表的

2检验；行无序而列有序，

采用Wilcoxon秩和检验。

③双向有序属性相同的

R×C列联表：

配对四格表的扩展，采用一致性检验（

Kappa检验）。

④双向有序属性不相同的

R×C列联表：

样本率的比较采用Wilcoxon

秩和检验；有关性解析

采用Spearman有关解析；线性变化趋势解析采用有序分组资料的线性趋势检验或

CMH

检验等。

第八章非参数检验

1.秩和检验的合用范围：

①整体分布偏态的计量资料；②数据两端有不确定值；③等级资料；④各组失散程度相差悬殊，整体方差不齐的资料。

2.非参数检验对整体分布的形状差别不敏感，只对整体分布地址差别敏感；非参数检验没

有充分利用资料信息，较参数检验的检验效低。

故能用参数检验尽量采用参数检验，不满

可编写可更正

足参数检验条件才使用非参数检验。

3.不相同数据种类的统计解析路径：

（1）样本均数与整体均数的比较：

正态，样本均数与整体均数的t检验；非正态，Wilcoxon

符号秩检验。

（2）两样本均数比较：

①独立正态：

两独立样本t检验；②独立非正态：

两独立样本的

Wilcoxon秩和检验；③配对设计差值正态，配对t检验；④配对设计差值非正态，Wilcoxon

符号秩检验。

（3）多样本均数比较：

①独立正态（方差齐），方差解析；②独立非正态Kruskal-WailsH

检验；③非独立正态，重复测量资料的方差解析；④非独立非正态，FriedmanM检验

第九章

双变量回归和有关

1.直线回归应满足的条件：

自变量与因变量呈线性关系、观察值之间相互独立、因变量

bX，a

随机正态、对任何X因变量Y的标准差相等。

直线回归方程的一般形式为：

为截距，b为回归系数，回归系数的估计采用

最小二乘法原则（LeastSquares

Method，使

残差平方和最小）进行估计。

2.决定系数（coefficientofdetermination

）：

回归平方和与总平方和的比值，

R2=SS回

/SS总。

R2取值0～1之间无单位，其数值大小反响回归贡献的相对程度，即总变异中回归模

型能够讲解的百分比。

3.秩有关的应用合用范围：

（1）不遵从双变量正态分布而不宜作Pearson有关解析；

（2）

整体分布型未知；（3）等级资料的有关解析。

4.有关与回归的差别与联系差别

（1）差别：

①资料：

回归解析资料要求Y为正态随机变量，X为选定变量；有关解析资料X、Y遵从双

变量正态分布。

②应用：

回归解析是由一个变量值计算另一个变量值（依存关系）；有关解析只反响两个变

量间的互有关系。

③回归系数b与原胸襟单位有关，而有关系数r没关。

b的绝对值越大，回归直线越陡，

可编写可更正

即X变化1个单位时Y的平均变化越大；r的绝对值越大，所有点越趋近于一条直线，两变量的关系越亲近，有关度越高。

（2）联系：

①r与b值可相互换算，rblXXlYY；

②r与b正负号一致；

③r与b的假设检验等价：

关于同一资料tbtr，检验完满等价；

④回归可讲解有关。

有关系数的平方r2（决定系数）是回归平方和与总的离均差平方和之比

（SS回/SS总）。

5.应用直线回归时的注意事项

（1）作回归解析要有本质意义，不能够把毫没关系的两种现象作回归解析，必定对两种现象间的内在联系有所认识。

（2）在进行直线回归解析从前，应绘制散点图，当观察点的分布有直线趋势时，才适合作

直线回归解析，散点图还能够提示资料有无异常点。

异常点的存在常常对方程中的系数（a、b）

的估计产生较大影响。

因此，需对异常点进行复查。

（3）成立直线回归方程后，要对系数进行假设检验，以确定回归方程有没心义。

（4）直线回归方程的合用范围一般以自变量的取值范围为限，防备外延。

获取自变量值的手段也应与成立方程时相同。

否则会产生较大误差。

第十章统计表和统计图

1.统计表的基本要求

（1）标题：

概括表的主要内容（时间、地址、研究内容等），放在表的上方。

表编号与标题

间间隔一个汉字距离；如整个表指标一致，还应将指标的单位标在标题后边。

（2）标目：

分别用横标目和纵标目说明每行和每列内容或数字的意义，注明指标的单位。

平时描述的对象为横标目，内容（指标）为纵标目，从左向右读能够构成完满的一句话。

（3）线条：

最少用3条线：

顶线、底线和纵标目线。

顶线和底线将表格与文章其他部分分

分开，纵标目线将标目的文字区与表格的数字划分开，还可用横线将合计和两重纵标目分开，其他竖线和斜线一概省去。

顶线和底线线条粗细一般为磅，其他线条一般为磅。

可编写可更正

（4）数字：

用阿拉伯数字表示。

无数字用“—”表示，缺失数字用“⋯”表示，数

者“0”，不留空。

数字按小数点位数，同一指最好保留相同位数的小数位数。

（5）注：

表中数字区不要插入文字。

必明者表“*”，在表下方以注的形式明。

高级统计方法

第十二章重复测量资料的方差解析

1.重复量与随机区的区：

（1）重复量中“理”是在区（受者）

随机分配，区内的各点是固定的，不能够随机分配；

（2）重复量区内位相互不独立；

2.球称（sphericity）：

所有两两点量差的方差相等，即重复量的差的方差正交比后与位矩成比率。

3.重复量料方差解析的料条件：

（1）正性：

理要素的各水平本个体是相互独立的随机本，其体均数遵从正分布（个体独立，个体内不独立）；

（2）方差性：

相互比的各理水平的体方差相等，即拥有方差同；

（3）各点成的方差拥有球形性特点。

第十五章多元线性回归解析

偏回系数（partialregressioncoefficient

）：

多元性回模型中自量

Xj的系

数

j，表示在其他自量保持不，

Xj增加或减少一个位是

Y的平均化量。

复有关系数（multiplecorrelationcoefficient

）：

2，表示因量

Y与多个

自量的性有关程度，也是察Y与估Y?

之的有关程度。

若只有一个自量，

Rr。

3.准化回系数：

数据准化后获取的准化回方程的回系数即准化回系

数，bjbj

XjY的影响度，在有学意的前提下，

，用来比各个自量

准化回系数的越大明相自量Y的作用越大。

4.多元性回模型（

mXme）足的条件：

①Y与

01X12X2

可编写可更正

X1，X2，⋯，Xm之拥有性关系；②各例察Yi相互独立；③残差e遵从正分布。

5.量（dummyvariable）：

在多元性回模型中，当自量多分量（g个水平）

，需要将原来的多分量化（g-1）个量并行，每个量只代表两个

或多个的差别。

用量要注意：

①量同存在，其学意是相

而言的，不能够采用常的逐渐回行量；②可采用加与不加入量的偏回平

方和F确定量有没心。

6.多重共性（collinearity）：

某些自量存在的性关系，使得一个或几个自

量能够由别的的自量的性关系表示，量与别的的自量存在多重共性。

多

重共性可能致回方程不定、参数估准得很大、t不正确、估的

正符号与不符等。

7.交互作用：

当某一自量因量的作用大小与另一自量的取有关，两个自

量有交互作用。

可否考交互作用主要靠知判断。

了两个自量可否拥有交互

作用，宽泛的做法是在模型中加入它的乘（作交互）。

8.性回解析的SAS果解：

（1）性回方程：

Y2.994220.99733x；

（2）性回模型的学果：

模型的方差解析量F=，P=＜，明性回

可编写可更正

归模型拥有统计学意义。

（3）R-Square=的意义：

该线性回归模型能够讲解因变量Y的总变异的%；

（4）回归系数估计值b=的意义：

表示X对Y影响的大小，X每改变一个单位，Y改变个单

位；其假设检验结果合方差解析结果的联系：

方差解析结果说明X与Y之间存在的线性关系，

t检验结果说明计算获取的回归系数b有统计学意义，在此问题中，二者是等价的，均说明

该回归模型拥有统计学意义。

（5）有关系数及其检验结果并讲解该结果：

r=，对r进行t检验获取P=＜，则该有关系数拥有统计学意义，说明X与Y之间拥有中等强度的正有关关系。

第十六章Logistic回归解析

1.logistic

回归模型一般形式：

logit（P）

exp（0

1X1

mXm）。

将某事件的阳性与阴性结果概率之比去自然对数称为

logit

变换，记为logit（

）。

2.回归系数

j采用最大似然估计（maximumlikelihood

estimate,

MLE，使在一次抽样中

获取现有样本的概率最大）获取表示自变量

改变一个单位时

logit

P的改变量。

多变量

调整后的优势比

ORjexp（

j），表示扣除了其他自变量的影响后危险要素的作用。

OR=1，

说明Xj对疾病发生不起作用

ORj＞1，说明Xj是一个危险要素；

ORj＜1，说明Xj是一个保护

要素，ORj的1

可信区间为：

exp（bj

u/2Sbj

）。

3.logistic

回归模型假设检验的方法：

似然比法（G

2（lnL1

lnL0），适合单个和多个自

或

，适合单个自变量的假设检验）和

计

变量的假设检验）、Wald检验（u

Sbj

分检验（适合样本量较小的情况）。

变量精选的方法：

前进法、退后法、逐渐法。

条件logistic

回归：

合用于1:

M配对设计资料，条件似然函数估计的是在

M+1个观察对

象中恰好第一个观察对象属于病例组的条件概率，它只估计了表示危险要素作用的

j，表

示般配组效应的常数项

0被消去。

有序logistic

回归基于累积概率成立回归模型，

g个类其他因变量Y的有序logistic

回归包括g-1个方程，这些方程的回归系数均相同，差别主要表现在各方程的常数项

0不

可编写可更正

同。

在对因变量Y赋值时，应将专业上最不利的等级赋最小值，最有利的等级赋最大值。

6.多分类logistic回归是二分类logistic回归的扩展，即选择一个参照种类，拟合节余

各样型有关于参照类其他logistic回归模型。

第十七章生计解析

1.生计解析的数据特点：

（1）同时考虑生计时间和生计结局；

（2）平时含有删失数据

（censoring，可能的原因：

①研究截止但终点事件仍未出现；②失去联系或其他原因以致失访；③死于其他“事件”）；（3）生计时间的分布平时不遵从正态分布。

2.统计学解析方法：

由于生计时间一般不呈正态分布，且需考虑可否为删失值，因此生计解析有其独到的统计方法。

（1）非参数法：

①生计率的估计采用Kaplan-Meier法、寿命表法（频数表资料）；

②两组或多组生计率的比较，常用log-rank检验（时序法，权重i1，对观察后期

差别敏感）和Breslow检验（权重ini，ni为期初人数，随生计时间增大而逐渐减

小，Breslow检验给观察早期差别更大权重，故对观察早期差别敏感）。

（2）半参数法：

多要素生计解析常采用Cox比率风险模型（前提条件：

假设风险比值

h（t）/h0（t）为固定值，即协变量对生计率的影响不随时间的改变而改变。

检验此前提的方法：

①分类协变量每组的K-M生计曲线无交织；②协变量与生计时间的交互项无统计学意义等。

其参数估计方法为最大似然法）。

（3）参数法：

指数分布法、Weibull分布法等回归模型。

3.多元线性回归、logistic回归和Cox回归的相同点和不相同点

（1）相同点：

①自变量可为连续变量和多分类变量，多分类变量需哑变量化，哑变量在模型中是一个整体，必定同时“进”同时“出”；

②自变量间存在较强有关关系时可能以致多重共线性问题；

③自变量间可能存在交互作用，模型中平时采用自变量的乘积作为

展开阅读全文