统计学知识点完整.docx

上传人:b****8 文档编号:9043438 上传时间:2023-02-02 格式:DOCX 页数:27 大小:31.52KB
下载 相关 举报
统计学知识点完整.docx_第1页
第1页 / 共27页
统计学知识点完整.docx_第2页
第2页 / 共27页
统计学知识点完整.docx_第3页
第3页 / 共27页
统计学知识点完整.docx_第4页
第4页 / 共27页
统计学知识点完整.docx_第5页
第5页 / 共27页
点击查看更多>>
下载资源
资源描述

统计学知识点完整.docx

《统计学知识点完整.docx》由会员分享,可在线阅读,更多相关《统计学知识点完整.docx(27页珍藏版)》请在冰豆网上搜索。

统计学知识点完整.docx

统计学知识点完整

可编写可更正

 

基本统计方法

 

第一章概论

 

1.整体(Population):

依照研究目的确定的同质对象的全体(会集);样本(Sample):

 

从整体中随机抽取的部分拥有代表性的研究对象。

 

2.参数(Parameter):

反响整体特点的统计指标,如整体均数、标准差等,用希腊字母表示,是固定的常数;统计量(Statistic):

反响样本特点的统计指标,如样本均数、标准差等,采用拉丁字字母表示,是在参数周边颠簸的随机变量。

 

3.统计资料分类:

定量(计量)资料、定性(计数)资料、等级资料。

 

第二章计量资料统计描述

 

1.集中趋势:

均数(算术、几何)、中位数、众数

 

2.失散趋势:

极差、四分位间距(QR=P75-P25)、标准差(或方差)、变异系数(CV)

 

3.正态分布特点:

①X轴上方关于X=对称的钟形曲线;②X=时,f(X)获取最大值;③

 

有两个参数,地址参数和形态参数;④曲线下面积为1,区间±的面积为%,区间

 

±的面积为%,区间±的面积为%。

 

4.医学参照值范围的拟定方法:

正态近似法:

Xu/2S;百分位数法:

 

第三章整体均数估计和假设检验

 

1.抽样误差(SamplingError):

由个体变异产生、随机抽样造成的样本统计量与整体参数的差别。

抽样误差不能防备,产生的根本源因是生物个体的变异性。

 

2.均数的标准误(StandarderrorofMean,SEM):

样本均数的标准差,计算公式:

 

X/n。

反响样本均数间的失散程度,说明抽样误差的大小。

 

3.降低抽样误差的路子有:

①经过增加样本含量n;②经过设计减少S。

 

4.t分布特点:

 

①单峰分布,以0为中心,左右对称;

 

②形态取决于自由度,越小,t值越分别,t分布的峰部越矮而尾部翘得越高;

 

③当逼近∞,SX逼近X,t分布逼近u分布,故标准正态分布是t分布的特例。

 

1

可编写可更正

 

5.置信区间(ConfidenceInterval,CI):

按起初给定的概率(1-)确定的包括整体参

 

数的一个范围,计算公式:

Xt/2,SX或Xu/2,SX。

95%CI含义:

从固定样本含量的

 

已知整体中进行重复抽样试验,依照每个样本可获取一个置信区间,则平均有95%的置信区

 

间包括了整体参数。

 

6.假设检验的基本源理:

小概率反证法的思想。

 

①反证法:

从问题的对峙面(H0)出发间接判断要解决的问题(H1)可否成立。

 

②小概率事件:

在H0成立的条件下计算检验统计量,依照概率分布确定检验水平下P

 

值大小,判断可否为小概率事件(平时P≤视为小概率事件,平时取),是则

 

拒绝H0,接受H1;否则尚不能够拒绝H0。

 

7.假设检验一般步骤:

①成立假设(反证法,H0和H1),确定检验水平();②计算统计

 

量:

u,t,F;③确定概率值P,做出推断结论。

 

8.

t检验需满足的条件:

比较的两个样真相互

独立、均遵从正态分布。

9.

P的含义:

是指从H规定的整体随机抽样,抽得等于及大于

(或/和等于及小于)现有样本

0

 

获取的检验统计量(如t、u等)值的概率。

 

10.Ⅰ型错误(TypeⅠerror):

拒绝了本质上成立的H0,这类“弃真”的错误称为Ⅰ型

 

错误,Ⅰ型错误的大小为检验水平。

Ⅱ型错误(TypeⅡerror):

接受了本质上不能立

 

的H0,这类“存伪”的错误称为Ⅱ型错误,Ⅱ型错误的大小用表示,1-表示检验效能。

 

越小,越大,增大样本量能够同时降低和。

 

11.置信区间和假设检验的差别和联系:

①能够经过判断置信区间可否包括零假设,判断单

 

样本均数可否来自已知的整体;②置信区间不仅能回答差别有无统计学意义,还可提示差别

 

有无本质意义。

③假设检验可供应置信区间不能够供应的信息,如P值和检验效能等。

 

第四章方差解析

 

1.方差解析的基本思想:

依照研究目的和设计种类,把所有测量值的总变异依照办理要素

 

和水平均分解成两部分(组内变异和组间变异)或更多部分,同时把对自由度相应进行分解,

 

再进行比较,议论由办理要素引起的变异可否拥有统计学意义。

 

2.方差解析的应用条件:

各样本是相互独立的随机样本,均来自正态分布的整体,各样本

 

2

可编写可更正

 

的整体方差相等(拥有方差齐性)。

 

3.方差解析表:

 

变异本源

SS

ν

MS

F

P

组间变异

a

g-1

a/(g-1)

MS

/MS

组内

组间

组内变异

b

N-g

b/(N-g)

总变异

a+b

N-1

4.

g=2时,随机区组设计的方差解析与配对设计资料

t检验等价,t

F。

5.

多个样本均数间的多重比较:

LSD-t检验,即最小显然差别

t检验,合用于一对或几

对在专业上有特别意义的样本均数间的比较;

②Dunnett-t检验:

合用于g-1个实验组与一

 

个比较组均数差其他多重比较;③SNK-q检验:

合用于多个样本均数两两之间的全面比较。

 

第五章计数资料的统计描述

 

1.相对数的种类:

强度相对数(率,如死亡率、发病率等);结构相对数(构成比);相对

 

比(如性别比等)

 

2.应用相对数的注意事项:

①结构相对数不能够代替强度相对数;②计算相对数应有足够的

 

数量;③正确计算合计率;④注意资料的可比性;⑤比较不相同时期资料应注意客观条件可否相同;⑥样本率(或构成比)的抽样误差。

 

3.标准化率(Standardizationrate):

采用标准化法进行计算,除掉数据内部构成的差别,使标化后的合计率拥有可比性,这类经过标化后的合计率称为标准化率。

 

4.标准化率的注意事项:

①只合用于内部构成不相同,影响总率的可比性的问题;②选择的

 

标准不相同,计算获取的标准化率也不相同,多个标准化率比较时,应选同一标准;③标准化率

 

已经不再反响当地的本质水平;④样本标准化率是样本值,存在抽样误差。

比较两样本标准化率,当样本量较小时,需做假设检验。

 

第六章几种失散型变量的分布及应用

1.二项分布X~B(n,)的合用条件:

①每次试验只发生两种对峙的可能结果之一;②每

 

次试验产生某结果的概率固定不变;③重复试验是相互独立的。

 

2.二项分布的性质:

①阳性次数X的整体均数(n)、标准差(n

(1));

 

3

可编写可更正

 

②样本率p的均数(

p)、标准差(Sp

p(1p),即率的标准误)。

③二项分布的

n

正态近似条件:

np和n(1-p)均大于5。

3.泊松分布X~P(

)的性质:

①整体均数

和整体方差

2相等;②当n很大,

很小,

且np=

为常数时,二项分布近似泊松分布;③

≥20时,泊松分布近似正态分布;

④泊

 

松分布具备可加性。

第七章2检验

 

1.2检验的基本思想:

依照2分布特点,经过比较本质频数与理论频数的差别,确定在

 

成立的条件下该差别由抽样误差造成可否为小概率事件,进而判断差别可否拥有统计学

2

意义。

值反响了本质频数与理论频数的切合程度。

 

2.R×C列联表中的各格子T≥1,并且1≤T<5的格子数不宜高出1/5格子总数,否则可能

 

产生误差。

办理方法有三种:

①增加样本量,使理论频数增大;②依照专业知识,删除或合

 

并行列;③采用Fisher的确概率法解析。

 

3.有序分组资料表线性趋势检验:

①双向无序的R×C列联表:

多个样本率的比较采用

R×C列联表的

2

检验;两个分类变量

的关系性解析则采用

R×C列联表的

2

检验和Pearson列联系数进行解析。

②单向有序的R×C列联表:

行有序而列无序:

R×C列联表的

2检验;行无序而列有序,

采用Wilcoxon秩和检验。

③双向有序属性相同的

R×C列联表:

配对四格表的扩展,采用一致性检验(

Kappa检验)。

④双向有序属性不相同的

R×C列联表:

样本率的比较采用Wilcoxon

秩和检验;有关性解析

采用Spearman有关解析;线性变化趋势解析采用有序分组资料的线性趋势检验或

2

CMH

检验等。

 

第八章非参数检验

 

1.秩和检验的合用范围:

①整体分布偏态的计量资料;②数据两端有不确定值;③等级资料;④各组失散程度相差悬殊,整体方差不齐的资料。

 

2.非参数检验对整体分布的形状差别不敏感,只对整体分布地址差别敏感;非参数检验没

 

有充分利用资料信息,较参数检验的检验效低。

故能用参数检验尽量采用参数检验,不满

 

4

可编写可更正

 

足参数检验条件才使用非参数检验。

 

3.不相同数据种类的统计解析路径:

 

(1)样本均数与整体均数的比较:

正态,样本均数与整体均数的t检验;非正态,Wilcoxon

 

符号秩检验。

 

(2)两样本均数比较:

①独立正态:

两独立样本t检验;②独立非正态:

两独立样本的

 

Wilcoxon秩和检验;③配对设计差值正态,配对t检验;④配对设计差值非正态,Wilcoxon

 

符号秩检验。

 

(3)多样本均数比较:

①独立正态(方差齐),方差解析;②独立非正态Kruskal-WailsH

 

检验;③非独立正态,重复测量资料的方差解析;④非独立非正态,FriedmanM检验

 

第九章

双变量回归和有关

1.直线回归应满足的条件:

自变量与因变量呈线性关系、观察值之间相互独立、因变量

Y

?

a

bX,a

随机正态、对任何X因变量Y的标准差相等。

直线回归方程的一般形式为:

Y

为截距,b为回归系数,回归系数的估计采用

最小二乘法原则(LeastSquares

Method,使

残差平方和最小)进行估计。

2.决定系数(coefficientofdetermination

):

回归平方和与总平方和的比值,

R2=SS回

/SS总。

R2取值0~1之间无单位,其数值大小反响回归贡献的相对程度,即总变异中回归模

 

型能够讲解的百分比。

 

3.秩有关的应用合用范围:

(1)不遵从双变量正态分布而不宜作Pearson有关解析;

(2)

 

整体分布型未知;(3)等级资料的有关解析。

 

4.有关与回归的差别与联系差别

(1)差别:

①资料:

回归解析资料要求Y为正态随机变量,X为选定变量;有关解析资料X、Y遵从双

 

变量正态分布。

 

②应用:

回归解析是由一个变量值计算另一个变量值(依存关系);有关解析只反响两个变

 

量间的互有关系。

 

③回归系数b与原胸襟单位有关,而有关系数r没关。

b的绝对值越大,回归直线越陡,

 

5

可编写可更正

 

即X变化1个单位时Y的平均变化越大;r的绝对值越大,所有点越趋近于一条直线,两变量的关系越亲近,有关度越高。

 

(2)联系:

 

①r与b值可相互换算,rblXXlYY;

 

②r与b正负号一致;

 

③r与b的假设检验等价:

关于同一资料tbtr,检验完满等价;

 

④回归可讲解有关。

有关系数的平方r2(决定系数)是回归平方和与总的离均差平方和之比

 

(SS回/SS总)。

 

5.应用直线回归时的注意事项

 

(1)作回归解析要有本质意义,不能够把毫没关系的两种现象作回归解析,必定对两种现象间的内在联系有所认识。

 

(2)在进行直线回归解析从前,应绘制散点图,当观察点的分布有直线趋势时,才适合作

 

直线回归解析,散点图还能够提示资料有无异常点。

异常点的存在常常对方程中的系数(a、b)

 

的估计产生较大影响。

因此,需对异常点进行复查。

 

(3)成立直线回归方程后,要对系数进行假设检验,以确定回归方程有没心义。

 

(4)直线回归方程的合用范围一般以自变量的取值范围为限,防备外延。

获取自变量值的手段也应与成立方程时相同。

否则会产生较大误差。

 

第十章统计表和统计图

 

1.统计表的基本要求

 

(1)标题:

概括表的主要内容(时间、地址、研究内容等),放在表的上方。

表编号与标题

 

间间隔一个汉字距离;如整个表指标一致,还应将指标的单位标在标题后边。

 

(2)标目:

分别用横标目和纵标目说明每行和每列内容或数字的意义,注明指标的单位。

平时描述的对象为横标目,内容(指标)为纵标目,从左向右读能够构成完满的一句话。

 

(3)线条:

最少用3条线:

顶线、底线和纵标目线。

顶线和底线将表格与文章其他部分分

 

分开,纵标目线将标目的文字区与表格的数字划分开,还可用横线将合计和两重纵标目分开,其他竖线和斜线一概省去。

顶线和底线线条粗细一般为磅,其他线条一般为磅。

 

6

可编写可更正

 

(4)数字:

用阿拉伯数字表示。

无数字用“—”表示,缺失数字用“⋯”表示,数

0

 

者“0”,不留空。

数字按小数点位数,同一指最好保留相同位数的小数位数。

 

(5)注:

表中数字区不要插入文字。

必明者表“*”,在表下方以注的形式明。

 

高级统计方法

 

第十二章重复测量资料的方差解析

 

1.重复量与随机区的区:

(1)重复量中“理”是在区(受者)

 

随机分配,区内的各点是固定的,不能够随机分配;

(2)重复量区内位相互不独立;

 

2.球称(sphericity):

所有两两点量差的方差相等,即重复量的差的方差正交比后与位矩成比率。

 

3.重复量料方差解析的料条件:

 

(1)正性:

理要素的各水平本个体是相互独立的随机本,其体均数遵从正分布(个体独立,个体内不独立);

 

(2)方差性:

相互比的各理水平的体方差相等,即拥有方差同;

 

(3)各点成的方差拥有球形性特点。

 

第十五章多元线性回归解析

 

1.

偏回系数(partialregressioncoefficient

):

多元性回模型中自量

Xj的系

j,表示在其他自量保持不,

Xj增加或减少一个位是

Y的平均化量。

2.

复有关系数(multiplecorrelationcoefficient

):

R

R

2,表示因量

Y与多个

自量的性有关程度,也是察Y与估Y?

之的有关程度。

若只有一个自量,

 

Rr。

3.准化回系数:

数据准化后获取的准化回方程的回系数即准化回系

 

数,bjbj

Sj

XjY的影响度,在有学意的前提下,

,用来比各个自量

SY

准化回系数的越大明相自量Y的作用越大。

4.多元性回模型(

?

mXme)足的条件:

①Y与

Y

01X12X2

7

可编写可更正

 

X1,X2,⋯,Xm之拥有性关系;②各例察Yi相互独立;③残差e遵从正分布。

 

5.量(dummyvariable):

在多元性回模型中,当自量多分量(g个水平)

 

,需要将原来的多分量化(g-1)个量并行,每个量只代表两个

 

或多个的差别。

用量要注意:

①量同存在,其学意是相

 

而言的,不能够采用常的逐渐回行量;②可采用加与不加入量的偏回平

 

方和F确定量有没心。

 

6.多重共性(collinearity):

某些自量存在的性关系,使得一个或几个自

 

量能够由别的的自量的性关系表示,量与别的的自量存在多重共性。

 

重共性可能致回方程不定、参数估准得很大、t不正确、估的

 

正符号与不符等。

 

7.交互作用:

当某一自量因量的作用大小与另一自量的取有关,两个自

 

量有交互作用。

可否考交互作用主要靠知判断。

了两个自量可否拥有交互

 

作用,宽泛的做法是在模型中加入它的乘(作交互)。

 

8.性回解析的SAS果解:

 

?

(1)性回方程:

Y2.994220.99733x;

(2)性回模型的学果:

模型的方差解析量F=,P=<,明性回

 

8

可编写可更正

 

归模型拥有统计学意义。

 

(3)R-Square=的意义:

该线性回归模型能够讲解因变量Y的总变异的%;

 

(4)回归系数估计值b=的意义:

表示X对Y影响的大小,X每改变一个单位,Y改变个单

 

位;其假设检验结果合方差解析结果的联系:

方差解析结果说明X与Y之间存在的线性关系,

 

t检验结果说明计算获取的回归系数b有统计学意义,在此问题中,二者是等价的,均说明

 

该回归模型拥有统计学意义。

 

(5)有关系数及其检验结果并讲解该结果:

r=,对r进行t检验获取P=<,则该有关系数拥有统计学意义,说明X与Y之间拥有中等强度的正有关关系。

第十六章Logistic回归解析

1.logistic

回归模型一般形式:

ln

P

logit(P)

exp(0

1X1

mXm)。

1P

将某事件的阳性与阴性结果概率之比去自然对数称为

logit

变换,记为logit(

)。

P

2.回归系数

j采用最大似然估计(maximumlikelihood

estimate,

MLE,使在一次抽样中

获取现有样本的概率最大)获取表示自变量

Xj

改变一个单位时

logit

P的改变量。

多变量

调整后的优势比

ORjexp(

j),表示扣除了其他自变量的影响后危险要素的作用。

j

OR=1,

说明Xj对疾病发生不起作用

ORj>1,说明Xj是一个危险要素;

ORj<1,说明Xj是一个保护

要素,ORj的1

可信区间为:

exp(bj

u/2Sbj

)。

3.logistic

回归模型假设检验的方法:

似然比法(G

2(lnL1

lnL0),适合单个和多个自

2

bj

2

bj

,适合单个自变量的假设检验)和

变量的假设检验)、Wald检验(u

Sbj

Sbj

分检验(适合样本量较小的情况)。

变量精选的方法:

前进法、退后法、逐渐法。

 

4.

条件logistic

回归:

合用于1:

M配对设计资料,条件似然函数估计的是在

M+1个观察对

象中恰好第一个观察对象属于病例组的条件概率,它只估计了表示危险要素作用的

j,表

示般配组效应的常数项

0被消去。

5.

有序logistic

回归基于累积概率成立回归模型,

g个类其他因变量Y的有序logistic

回归包括g-1个方程,这些方程的回归系数均相同,差别主要表现在各方程的常数项

0不

 

9

可编写可更正

 

同。

在对因变量Y赋值时,应将专业上最不利的等级赋最小值,最有利的等级赋最大值。

 

6.多分类logistic回归是二分类logistic回归的扩展,即选择一个参照种类,拟合节余

 

各样型有关于参照类其他logistic回归模型。

 

第十七章生计解析

 

1.生计解析的数据特点:

(1)同时考虑生计时间和生计结局;

(2)平时含有删失数据

 

(censoring,可能的原因:

①研究截止但终点事件仍未出现;②失去联系或其他原因以致失访;③死于其他“事件”);(3)生计时间的分布平时不遵从正态分布。

 

2.统计学解析方法:

由于生计时间一般不呈正态分布,且需考虑可否为删失值,因此生计解析有其独到的统计方法。

 

(1)非参数法:

 

①生计率的估计采用Kaplan-Meier法、寿命表法(频数表资料);

 

②两组或多组生计率的比较,常用log-rank检验(时序法,权重i1,对观察后期

 

差别敏感)和Breslow检验(权重ini,ni为期初人数,随生计时间增大而逐渐减

 

小,Breslow检验给观察早期差别更大权重,故对观察早期差别敏感)。

 

(2)半参数法:

多要素生计解析常采用Cox比率风险模型(前提条件:

假设风险比值

 

h(t)/h0(t)为固定值,即协变量对生计率的影响不随时间的改变而改变。

检验此前提的方法:

 

①分类协变量每组的K-M生计曲线无交织;②协变量与生计时间的交互项无统计学意义等。

 

其参数估计方法为最大似然法)。

 

(3)参数法:

指数分布法、Weibull分布法等回归模型。

 

3.多元线性回归、logistic回归和Cox回归的相同点和不相同点

(1)相同点:

 

①自变量可为连续变量和多分类变量,多分类变量需哑变量化,哑变量在模型中是一个整体,必定同时“进”同时“出”;

 

②自变量间存在较强有关关系时可能以致多重共线性问题;

 

③自变量间可能存在交互作用,模型中平时采用自变量的乘积作为

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 总结汇报 > 学习总结

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1