统计重点1.docx

上传人:b****8 文档编号:9681153 上传时间:2023-02-05 格式:DOCX 页数:20 大小:63.91KB
下载 相关 举报
统计重点1.docx_第1页
第1页 / 共20页
统计重点1.docx_第2页
第2页 / 共20页
统计重点1.docx_第3页
第3页 / 共20页
统计重点1.docx_第4页
第4页 / 共20页
统计重点1.docx_第5页
第5页 / 共20页
点击查看更多>>
下载资源
资源描述

统计重点1.docx

《统计重点1.docx》由会员分享,可在线阅读,更多相关《统计重点1.docx(20页珍藏版)》请在冰豆网上搜索。

统计重点1.docx

统计重点1

题型:

名词解释(10),提空(20),选择(20),简答(4-5),分析题(1-2),计算题

(2)

总体样本:

总体(population):

就是根据研究目的确定的同质观察单位的全体,确切的说,是同质的所有观察单位某种变量值的集合。

可分为有限总体和无限总体。

样本(sample):

就是从总体中随机抽取部分观察单位,其变量值的集合。

实验设计的基本原则:

随机化对照重复

统计工作的基本步骤:

一、研究设计二、收集资料三、整理资料四、分析资料

变量及变量值:

研究者对每个观察单位的某项特征进行测量,这种特征称为变量,测得值叫变量值。

按变量值的性质可将资料分为定量资料和定性资料。

资料类型

计量资料、计数资料、等级资料

定量资料(计量资料):

通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的资料。

特点:

有度量衡单位。

定性资料(计数/分类资料):

将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数所获得的资料。

特点:

没有度量衡单位。

二分类和多分类资料。

等级资料(有序分类资料):

介于定量和定性资料之间的一种资料,通过半定量方法测量得到。

特点:

各组之间有性质上的差别或程度上的不同。

抽样应遵循的原则

代表性随机性可靠性可比性

误差:

统计上所说的误差泛指测量值与真实值之差。

(1)系统误差:

指数据搜集和测量过程中由于仪器不准确、标准不规范等人为原因,造成观察结果偏大或偏小,这种误差称为系统误差。

(2)随机误差:

由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。

概率和频率

概率(probability):

是描述某一事件发生的可能性大小的数值,用P表示。

小概率事件:

P≤0.05或P≤0.01称为“小概率事件”,表明在一次观察或实验中该事件发生的可能性很小,可以看作很可能不发生。

频率(frequency):

假设在相同条件下,独立地重复做n次试验,A在n次试验中出现了m次,则比值m/n称为随机事件A在n次试验中出现的频率。

参数与统计量

参数(parameter):

是根据总体分布的特征而计算的总体统计指标(用希腊字母代表),如总体均数μ,总体率π,总体标准差σ等。

统计量(statistic):

由总体中随机抽取样本而计算的相应样本指标称为(用拉丁字母代表),如样本均数,样本率p,样本标准S等。

统计推断:

统计学研究的目的就是要用样本统计量来估计总体参数

同质与变异

同质(homogeneity):

是针对被研究指标来讲,其影响因素相同。

变异(variation):

同质基础上的个体差异称为变异。

频数分布表制作和用途:

频数分布表:

又称频数表。

是将原始数据值适当分组后得到各组的频数。

适用样本量较大的资料进行统计描述的常用方法。

通过频数表可以显示数据分布的范围与形态。

手工编制步骤:

(1)计算全距(range,R),也称为极差R=最大值-最小值

(2)确定组段数与组距:

组段数一般可在8~15之间选择。

组距=上限-下限=R/(预计的组段数)。

(3)确定组限,列表做出如表2-2的表格,将选好的组段顺序地列在

(1)列。

按照“下限≤x<上限”的原则确定每一例数据x应归属的组段。

频数表的用途

1.揭示频数分布的分布特征和分布类型。

文献中常将频数表作为陈述资料的形式。

2.便于进一步计算统计指标和进行统计分析处理。

3.便于发现某些特大或特小的可疑值。

4.当样本含量比较大时,可用各组段的频率作为概率的估计值

频数分布的两大特征:

集中趋势和离散趋势

频数分布的两个类型:

对称分布、偏态分布(正偏峰分布、负偏峰分布)

集中趋势统计指标——平均数

对于连续型定量变量,描述集中趋势常用的统计量为算术均数、几何均数、中位数、众数和调和均数。

算术均数(Mean):

适合描述对称分布资料的集中位置(也称为平均水平)。

几何均数(geometricmean,G):

适用于观察值变化范围跨越多个数量级的资料。

中位数(median,M):

可用于各种分布的定量资料。

离散趋势统计指标

极差四分位数间距方差标准差变异系数

极差:

一组变量值最大值与最小值之差。

方差:

反映一组数据的平均离散水平。

总体内所有的个体与总体均数差值的平方和。

四分位数间距:

一般和中位数一起描述偏态分布资料的分布特征。

变异系数:

多用于观察指标单位不同时的变异程度或均数相差很大的时候的比较。

正态分布的概念和特征

概念:

正态分布是自然界最常见的一种分布,若指标X的频率密度曲线对应于数学上的正态分布曲线,则称该指标服从正态分布。

特征:

1.关于X=μ对称。

即正态分布以均数为中心,左右对称。

2.   在X=μ处取得概率密度函数的最大值,在X=μ±σ处有拐点,表现为钟形曲线。

即正态曲线在横轴上方均数处最高。

3.   正态分布有两个参数,即均数µ和标准差σ。

µ是位置参数,σ是变异度参数(形状参数)。

常用N(µ,σ2)表示均数为μ,标准差为σ的正态分布;用N(0,1)表示标准正态分布。

4.正态曲线下面积分布有一定规律。

横轴上正态曲线下的面积等于100%或1。

标准正态分布:

标准正态分布:

均数为0,标准差为1的正态分布,这种正态分布称为标准正态分布。

对于任意一个服从正态分布N(μ,σ2)的随机变量,可作如下的标准化变换,也称Z变换,Z=(X-μ)/σ

正态分布的应用

(一)制定医学参考值范围

(二)质量控制(三)统计处理方法的理论基础

医学参考值:

参考值范围:

指特定的“正常”人群的解剖、生理、生化、免疫等各种数据的波动范围。

制定参考值范围的步骤:

1.选择“正常”人作为调查对象。

2.样本含量足够大。

3.确定取单侧还是取双侧正常值范围。

4.选择适当的百分界限。

5.选择适当的方法。

估计医学参考值范围的方法:

1.正态近似法:

适用于正态分布或近似正态分布的资料。

 

2.百分位数法:

适用于偏态分布资料。

质量控制图判断异常的8中情况:

1、有一个点距中心线的距离超过3个标准差(控制限以外)

2、在中心线的一侧连续有9个点

3、连续6个点稳定地增加或减少

4、连续14个点交替上下

5、连续3个点中有两个点距中心线距离超过2个标准差(警戒限以外)

6、连续5个点中有4个点距中心线距离超过1个标准差

7、中心线一侧或两侧连续15个点距中心线距离都超出1个标准差以内

8、中心线一侧或两侧连续8个点距中心线距离都超出1个标准差范围。

二项分布的条件:

1)每次实验结果,只能是两个互斥的结果之一(A或非A)。

2)相同的实验条件下,每次实验中事件A的发生具有相同的概率π。

3)各次实验独立。

各次的实验结果互不影响。

二项分布的图形特征及二项分布的正态近似

二项分布的形状取决于n,π,当π=0.5时分布对称,当π≠0.5时,分布呈偏态,特别是n较小时,π偏离0.5越远,分布的对称性越差,随着n的增大,分布逐渐趋向于对称。

理论上可以证明,不管π如何,当n相当大时,只要π不接近1和0时,特别是当nπ和n(1-π)都大于5时,二项分布B(X;n,π)近似正态分布N(nπ,nπ(1-π))。

二项分布主要用于概率估计和单侧累计概率估计。

Poisson分布可以看作是发生的概率π很小,而观察例数很大时的二项分布。

除要符合二项分布的三个基本条件外,Poisson分布还要求π或1-π接近于0和1。

Poisson分布的特性:

(1)Poisson分布的的总体均数与总体方差相等,均为λ。

(2)Poisson分布的观察结果有可加性。

Poisson分布主要用于概率估计和单侧累计概率估计。

Poisson分布的的图形特征及正态近似

Poisson分布,当总体均数λ小于5时,λ越小,分布越呈偏态,随着λ的增大,分布逐渐趋向于对称。

理论上可以证明,随着λ→∞Poisson分布也渐近为正态分布。

当λ≥20时,Poisson分布资料可按正态分布处理

参数估计:

由样本指标来估计总体指标。

参数:

所有的总体指标。

统计推断:

用样本信息来推断相应总体的特征,这一过程称为统计推断。

包括两方面的内容:

参数估计和假设检验

抽样误差:

由个体变异产生的、由于抽样而造成的样本统计量与样本统计量及样本统计量与总体参数之间的差异称为抽样误差。

无倾向性,不可避免。

标准误:

用于表示均数抽样误差的的大小,反应样本均数之间的离散程度,也反映样本均数抽样误差的大小。

样本为正态时均数的抽样分布特点:

1各样本均数未必等于总体均数

2样本均数之间存在差异

3样本均数的分布很有规律,围绕着总体均数,中间多,两边少,左右基本对称,也服从正态分布

4样本均数的变异较之原变量大大缩小

样本为偏态时均数的抽样分布特点:

1)从正态总体N(µ,σ2)中,随机抽取例数为n的多个样本,样本均数服从正态分布;即使是从偏态总体中随机抽样,当n足够大时(如n>50),也近似正态分布。

2)从均数为µ,标准差为σ的正态或偏态总体中抽取例数为n的样本,样本均数的标准差即标准误为。

t分布曲线特点:

t分布不是一条曲线,而是一簇曲线。

1)t分布曲线是单峰分布,它以0为中心,左右对称。

2)t分布的形状与样本例数n有关。

自由度越小,则Sx越大,t值越分散,曲线的峰部越矮,尾部翘的越高。

3)当n→∞时,则S逼近σ,t分布逼近标准正态分布。

参数估计的方法:

1、点估计:

用样本统计量直接作为总体参数的估计值。

2、区间估计:

按预先给定的概率(1-α)估计总体参数的可能范围,该范围就称为总体参数的1-α置信区间。

可信区间由两个数值即置信限构成,其中最小值称为下限,最大值称为上限。

严格讲,可信区间不包括上下限两个端点值。

置信区间的计算方法:

(一)总体均数置信区间的计算

(1)σ已知,按标准正态分布原理计算

95%的双侧置信区间:

99%的双侧置信区间:

通式:

(双侧),Zа/2为标准正态变量,Zа/2相当于按ν=∞时及P取α,由附表2查的的t界值。

(2)σ未知但样本例数n足够大(n>50)时,由t分布可知,自由度越大,t分布越逼近标准正态分布

95%的双侧置信区间:

99%的双侧置信区间:

通式:

(双侧)

(3)σ未知且样本例数n较小时,按t分布原理

95%的双侧置信区间:

99%的双侧置信区间:

通式:

,tа/2,ν是按自由度ν=n-1,由附表2查得的t值。

置信区间的两个要素:

1.准确度:

反映置信度1-α的大小,即区间包含总体均数的概率大小。

2.精度:

反映区间的长度。

在置信区间确定的情况下,增加样本例数,会减小tа,ν和

,可减少区间长度,提高精度。

(二)总体概率的置信区间

1.正态近似法

当样本含量足够大,且p和1-p不太小,则样本率

的分布近似正态分布。

公式为:

P为样本率,

为率的标准误的估计值,

2.查表法

当n较小,如n≤50,特别是p和1-p接近0或1时。

均数置信区间与参考值范围的区别

意义:

前者为绝大多数人某项指标的数值范围,后者为按一定的概率估计总体参数所在的范围

计算:

前者

后者:

置信区间用标准误,参考值范围用标准差

应用:

前者供判断观察对象某项指标是否正常时参考,后者估计未知总体均数所在范围

标准差与均数的标准误的区别

1)概念(意义)不同:

标准差是描述样本中个体值间的变异程度;标准误是描述样本均数抽样误差大小的指标

2) 记法和计算不同:

3) 用途不同:

标准差常用于估计正常值范围,计算变异系数等;标准误常用于估计参数的可信区间,进行假设检验

4)控制方法不同:

标准差趋向稳定,不能用统计方法控制。

而标准误随例数的增大而减小

标准差与均数的标准误的联系:

1)二者均为变异指标,如果把总体中各样本均数看成一个变量,则标准误可称为样本均数的标准差

2)当样本含量不变时,均数的标准误与标准差成正比

3)两者均可与均数结合运用,但描述的内容各不相同

假设检验的思维逻辑:

小概率事件在一次随机试验中不可能发生

假设检验的原理:

反证法和小概率的思想

小概率原理:

是指小概率事件在一次随机试验中基本上不会发生

反证法思想:

首先提出假设,用适当的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,拒绝它;如果可能性大,还不能认为它不成立

假设检验的基本步骤:

1、选择检验方法并建立检验假设(确定单双侧)2、确定检验水准:

3、计算检验统计量:

4、确定P值5、作出推断结论:

t检验应用条件:

样本来自正态总体,两独立样本比较要求方差齐性。

形式:

一组样本资料的t检验

配对设计资料的t检验

两组独立样本资料的t检验

方差不齐时,两样本均数的比较,可选择以下方法:

1)采用适当的变量变换,达到方差齐

2)采用秩和检验

3)采用t’检验

假设检验的两类错误

第Ⅰ类错误:

如果实际情况与H0一致,仅仅由于抽样的原因,使得统计量的观察值落到拒绝域,拒绝原本正确的H0,导致推断结论错误。

这样的错误称为第Ⅰ类错误。

犯第Ⅰ类错误的概率大小为α。

(拒绝了实际上成立的H0,这类“弃真”的错误称为第Ⅰ类错误。

其概率大小用α表示,α可以取单尾亦可以取双尾。

第Ⅱ类错误:

如果实际情况与H0不一致,也仅仅由于抽样的原因,使得统计量的观察值落到接受域,不能拒绝原本错误的H0,导致了另一种推断错误。

这样的错误称为第Ⅱ类错误。

犯第Ⅱ类错误的概率为β。

(接受了实际上不成立的H0,这类“取伪”的错误称为第Ⅱ类错误。

其概率大小用β表示,β只取单尾。

当样本容量n一定时,α越小β越大,α越大β越小;在实际中往往通过α去控制β

假设检验的功效:

1-β称为假设检验的功效;其实际意义是当研究的总体与H0确有差别时,按检验水平α能过发现它(拒绝H0)的概率。

应用假设检验需要注意的问题

1.要有严密的研究设计

2.应用检验方法必需符合其适用条件:

样本取自正态总体,而且各总体方差齐性

3.适当选择检验水准α

4.正确理解P值的意义

5.做结论不能绝对化

6.统计结论与专业结论相结合

假设检验与区间估计的关系?

置信区间用于说明量的大小即推断总体均数的范围,而假设检验用于推断质的不同即判断两总体均数是否不同。

它们之间既相互联系,又有区别。

1、置信区间具有假设检验的主要功能

算得的可信区间若包含了H0,则按α水准,不拒绝H0;若不包含H0,则按α水准,拒绝H0,接受H1

2、置性区间课提供假设检验没有提供的信息。

置性区间在回答差别有无统计学意义的同时,还可以提示差别有无实际的意义

3、假设检验提供,而置信区间不提供的信息

在统计推断结论为拒绝H0时,假设检验可以报告确切的P值,从而较为精确地说明检验结论的概率保证。

置信区间只能在预先确定的置信度100(1-α)%水平上进行推断

在不能拒绝H0的场合,假设检验可以对检验的功效作出估计,从而可以评价是否在识别差异能力较强的情形下不拒绝H0的。

而置信区间并不提供这方面的信息。

方差分析基本思想及应用条件:

基本思想:

就是把全部观察值间的变异——总变异按设计和需要分解成两个或多个组成部分,再作分析。

应用条件:

1)各样本是相互独立的随机样本

2)各样本来自正态总体

3)各处理组总体方差相等,即方差齐

方差分析的目的就是通过分析各个处理组均数之间的差别,推断它所代表的k个总体均数间是否存在差别,或k个处理组间均数的差别是否具有统计学意义。

完全随机设计资料的变异的分解:

1.总变异:

全部实验数据大小不等

2..组间变异各处理组的样本均数

····也大小不等

3.组内变异各处理组内部的观察值也大小不等。

随机区组设计资料的方差分析

处理组间变异、区组间变异、误差变异

SS总=SS处理+SS区组+SS误差

方差分析与t检验的关系:

在两组均数比较时,从同一资料算得之F值与t值有如下关系:

F=t2,可见在两组均数比较时,方差分析与t检验的效果是完全一样的。

构成比(constituentratio):

说明一事物内部各组成部分在总体中所占的比重或分布,常用百分数表示。

计算相对数的意义:

使被比较的资料基数相同,扣除基数的影响,便于正确描述定性资料的水平及进行相互比较。

相对数大致有三种类型:

频率(rate)、强度(intensity)和相对比(relativeratio)

频率型指标:

近似的反映某一事件出现的机会大小,如发病率、死亡率。

强度型指标:

反映单位时间段内某现象发生的频率,多用于大人群、长时间随访的资料。

如人时发病率、人时感染率。

相对比型指标是A、B两个有联系的指标之比。

对比的两个指标可以性质相同,也可以性质不同。

常见的相对比

•人口学中的男女性别比

•反映卫生资源的指标如每千人口的医生数、每千人口的病床数、每医生的门诊工作量

•反映暴露与疾病之间关联强度的指标:

相对危险度RR和优势比OR

应用相对数时应注意的问题

1.防止概念混淆

2.计算相对数时分母应有足够的数量

3.正确的合并估计频率型指标

4.相对数的对比应注意可比性

1)观察对象同质,研究方法相同,观察时间相等,以及民族、地区等客观条件一致。

2)其他影响因素在各组的内部构成是否相同。

5.对相对数的统计推断(率的标准化法)

6.注意率和构成比之间的区别

率的标准化:

基本思想:

就是采用统一的标准构成以消除内部构成不同对总率的影响,使标化后的率(标准化率)具有可比性。

概念:

当比较两个或多个总率时,若比较的两组或多组内部构成明显不同,需按统一的标准进行调整,使之具备可比性,这种方法称为标准化法(standardization)。

标准化法的注意事项

1.注意标准化法的适用条件

1)欲比较的两个人群内部的年龄分布不同。

2)每个人群内部年龄别死亡率也各不相同。

2.标化后的标准化率已不再反映当地率的实际水平,只表示相互比较几组资料间的相对水平。

3.如不计算标准化率,而分别比较各小组的率,也可得出正确的结论,但不能比较总率的大小。

4.由于选定的标准不同,计算所得的标准化率也不同,但相互比较的几组资料间的相对水平不变。

5.标准化法适用于对总体的标准化和比较,此时可直接比较两个标准化率的大小;如果由样本的标准化率,得出总的标准化率是否相等应做假设检验。

χ2检验

主要用途:

推断两个或多个样本率或构成比之间有无差别,检验两个分类变量之间有无关联,以及频数分布的拟合优度检验等。

χ2分布是一种连续型随机变量的概率分布

2检验的基本步骤

1、选择检验方法,建立假设2、确定检验水准α3、并计算检验统计量

4、确定P值,作出推断结论

完全随机设计下两组频数分布的χ2检验

四格表专用公式:

四格表校正公式:

当(1T<5,且n40)需校正

注意:

当T<1,或n<40时,校正公式也不恰当,这时必须用四格表的确切概率计算法。

配对设计下两组频数分布的χ2检验

(b+c<40时)

χ2检验要注意的问题:

1、χ2检验要求理论频数不宜太小,一般认为不宜有1/5以上格子理论频数小于5,或一个格子的理论频数小于1。

(对理论频数太小有三种处理方法:

A增大样本例数B删除理论数太小的行或列C合并)

2、当多个样本率(或构成比)比较的χ2检验结论为拒绝检验假设,只能认为各总体率(或总体构成比)之间总的说来有差别,但不能说它们彼此间都有差别(若要比较两两之间有无差别要用χ2分割)

R*C表的分类及其检验方法的选择

①双向无序R*C表

A若研究目的为多个样本率(或构成比)比较,可用行*列表资料的卡方检验

B若研究目的为分析两个分类变量间有无关联性,可用行*列表资料的卡方检验及Pearson列联系数进行分析

②关于单向有序列表的统计处理。

A分组变量(如年龄)是有序的,而指标变量(如传染病的类型)是无序,其研究的目的是分析不同年龄组的构成情况,此资料可用卡方检验。

B分组变量(如不同疗法)是无序的,而指标变量(如疗效按等级分)是有序。

在比较各效应有无差别时宜采用秩和检验法

③双向有序属性相同的R*C表

A分析两种检测方法的一致性,此时宜用一致性检验(也称Kappa检验)

B分析两法测定结果的概率分布有无差别,宜采用今天所介绍的卡方检验

④双向有序属性不同的R*C表

A分析不同年龄组患者疗效之间有无差别,可把它视为单向有序R*C表资料,选用秩和检验

B分析有序分类变量间是否存在相关关系,用卡方检验或等级相关

参数统计:

要求样本来自总体的分布类型是已知的,在这种假设基础上,对总体参数进行统计推断的统计方法称为参数统计。

非参数检验:

不依赖于总体分布类型,也不对总体参数进行统计推断的统计方法称为非参数检验。

非参数适用条件

1、偏态分布2、分布未知3、等级资料4、极端值和开口资料5、方差不齐时

非参检验的优缺点

优点:

1、计算简便2、应用范围广3、收集资料方便

缺点:

1、损失信息2、适合参数检验资料,如用非参数检验,则效率低

配对样本比较的Wilcoxon符号秩检验

基本思想

H0成立,则配对的差值的总体分布是对称的,总体中位数为0,理论上T值分布应近似均数为n(n+1)/4,方差为n(n+1)(2n+1)/24的正态分布,T+与T-应非常接近;若正、负秩和相差悬殊,则H0不成立。

编秩:

依差值的绝对值从小到大编秩,并按差值的正负,标上正负号;编秩时遇差值等于0,舍去不计,同时对子数n减1;遇绝对值相等差值,取平均秩次。

确定检验统计量T:

单侧检验任取T+(或T-)作检验统计量

双侧检验取T+和T-中较小者作检验统计量

完全随机化设计两独立样本比较的秩和检验(Wilconxon两样本比较法)

基本思想

H0成立,则两组的平均秩和应大致相等;若相差悬殊,则H0不成立。

直线相关:

如果两个随机变量中,一个变量由小到大变化时,另一个变量也相应地由小到大(或由大到小)地变化,并且直线趋势,就称这两个变量存在直线相关关系。

是描述两变量间是否有直线关系以及直线关系的方向和密切程度的分析方法

相关系数:

它又称为积差相关系数(Pearson相关系数),以符号r来表示相关系数。

它是说明两变量间相关关系的密切程度和相关方向

r无单位,-1≤r≤1,r值为正——正相关,为负——负相关,|r|=1---完全相关,|r|=0---零相关

线性相关应用中应注意的问题

1、样本的相关系数接近零时并不意味着两变量间一定无相关性

2、一个变量的数值人为选定时莫作相关

3、出现异常点时慎用相关

4、相关未必真有内在联系

5、分层资料盲目合并易出假象

秩相关又称等级相关,适用于下列资料

(1)不服从双变量正态分布

(2)总体分布类型未知(3)等级资料

两个关系:

(1)依存关系:

应变量Y随自变量X变化而变化。

——回归分析

(2)互依关系:

应变量Y与自变量X间的彼此关系———相关分析

a:

截距(intercept),直线与Y轴交点的纵坐标(X=0)

b:

斜率(slope),回归系数(regressioncoefficient)。

意义:

X每改变一个单位

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 职业规划

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1