统计重点.docx
《统计重点.docx》由会员分享,可在线阅读,更多相关《统计重点.docx(17页珍藏版)》请在冰豆网上搜索。
统计重点
统计考试的形式到目前来说是这样的分为课堂成绩和卷面成绩,课堂成绩占三十分,卷面成绩是七十分,其中卷面考试形式如下:
填空每个二分,一共是十六分,选择一个是一点五分,一共是二十四分,计算题每个是五分,一共六道,总分是三十分,其中可能会有分析题
考试要带计算器,现第一章是四分,第二章为七分,第五章是十点五分最多,
第一章
1变量的类型
(一)数值变量(或称计量资料):
用度量衡的方法测定每个观察单位的某项特征的大小所得到的数据,称为数值变量。
其变量值是以数值表示的,通常有度量衡单位。
(二)分类变量(或计数资料):
将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。
其变量值是定性的,表现为互不相容的类别或属性,没有度量衡单位。
2.分类变量又可分为以下几种类型:
1].无序分类变量
(1)二项分类变量,特点是其变量值分为两类。
如,性别分组:
男性和女性;
(2)多项分类变量,特点是其变量值分为两类以上。
如,职业、血型等变量。
2].有序分类变量
变量值是多项分类且各类之间有程度上的差别。
如,文化程度:
文盲、小学、初中、高中和大专及以上
疗效分为:
治愈、显效和无效。
3.总体:
根据研究目的确定的研究对象的全体。
样本:
总体中有代表性的一部分。
4.随机抽样有哪几种方法:
单纯随机抽样系统抽样(机械或等距离抽样)整群抽样分层抽样
5.统计工作的步骤:
设计搜集资料整理资料分析资料
第二章数值变量的统计描述
1.频数分布的两个特征:
集中趋势与离散趋势
2.描述集中趋势的指标有几种,适用条件是什么?
1]算术均数:
简称均数,总体均数用µ表示,样本均数用X表示。
适用条件:
正态分布、近似正态分布或对称分布
均数的计算方法:
直接法:
X=∑x/n其中x:
为变量值∑x:
各变量之和n:
总例数
2]几何均数:
应用条件:
等比数列资料(观察值呈倍数增长的资料)、对数正态分布或对数近似正态分布的资料。
3]中位数及百分数
中位数:
常用M表示或P50表示
应用条件:
偏态分布;数据一端或两端没有确切值;数据分布不清楚
3.描述离散趋势的指标有几种,适用条件是什么?
1]全距,
2]四分位数间距
3]方差的符号:
(S22)S2=
4]标准差的符号:
S
计算公式:
意义:
全面反映了一组观察值的变异程度。
越大说明围绕均数越离散,反之说明较集中在均数周围,均数代表性越好。
5]变异系数:
符号:
CV计算:
CV=(S/X)100%
4.正态分布的特征
1]均数处最高;
2]均数为中心对称;
3]2个参数N(μ,):
决定图形的形状和位置
4]曲线下的面积有一定规律。
5.正态曲线下面积的分布规律:
1]横轴上曲线下的面积为1
2]曲线下,横轴上对称于z的面积相等,从-到z;
3]z与所对应的面积P成反比。
6.正态曲线下,µ
σ及µ
σ区间内的面积各占总面积的95%及99%
7.医学参考值的估计(以95%参考值范围为例)
1).正态分布法:
双侧界值:
[如果是99%,则把1.96换成2.58]
2)百分数法:
适用于偏态分布资料
第三章分类变量的统计描述
其中的构成比和率不要求背,但要了解
1.应用相对数的注意事项
●分析时不能以(构成)比代(替)率
●计算相对数时分母不能太小
●资料的可比性:
两个率要在相同的条件下进行(标准化问题)
●总率(平均率)的计算:
不能直接相加求和
●假设检验:
遵循随机抽样原则,进行差别的显著性检验.
2.应用标准化法的基本思想;采用统一的标准构成以消除构成不同对总率的影响,使通过标准化后的标准化总率具有可比性
3.注意事项
1]标准不同得到的标化值不同
2]内部各小组比较时,不用标化,直接比较
3]标化后的数值再不反映实际水平。
第四章统计表与统计图
一.制表的要求
1.标题:
一般写在表格的上方,简单明了能说明表的内容,一般内容应包括时间、地点。
2.标目
♣横标目:
说明横行数字的属性。
♣纵标目:
说明每一列数字的属性。
有单位的要注明单位。
3.线条:
顶线、底线、标目线、合计线。
4.数字:
一律用阿拉伯数字。
同一列数字的个位应一致。
表格中不应有空格,暂无记录用“…”(点号)表示,无数据用“—”表示,这两种情况都不能填“0”。
5.备注用“*”号标出,文字叙述写在表的下方。
二.1.直条图:
适用资料:
相互独立的资料
绘制要点
(1)坐标轴:
横轴为观察项目,纵轴为数值,纵轴坐标一定要从0开始。
(2)直条的宽度:
各直条应等宽,等间距,间距宽度和直条相等或为其一半。
复式直条图在同一观察项目的各组之间无间距。
(3)排列顺序:
可以根据数值从大到小,从小到大,或按时间顺序排列。
应用:
相互独立资料间比较大小
2.百分条图
适用资料:
构成比资料。
应用:
描述各部分的百分构成。
绘制要点:
(1)标尺:
一定要有标尺,画在图的上方或下方,起始的位置、总长度和百分条图一致,并和百分条图平行。
全长为100%,分成10格,每格10%。
(2)分段:
按各部分所占百分比的大小排列,在图上标出百分比。
(3)图例:
在图外要附图例说明。
3.圆图
适用资料:
构成比资料。
应用:
描述各部分的百分构成。
绘制要点:
(1)每3.6o为1%,用3.6乘以百分数即为所占扇形的度数。
用量角器画出。
(2)从相当于时钟12点或9点的位置开始顺时针方向绘图。
(3)每部分用不同的图案或颜色表示,并在图上标出百分比,并附图例说明。
(4)当比较不同资料的百分构成时,可以画两个相等大小的圆,在每个圆的下面写明标题,并用相同的图例表示同一个构成部分。
4.线图
适用资料:
连续性资料。
应用:
反映一个事物随另一个事物动态变化规律。
绘制要点:
(1)坐标轴:
横轴表示时间,纵轴表示率。
纵轴坐标可以不从0开始,因此在看图时要注意纵轴的起点坐标。
(2)数据点画在组段中间位置。
相邻的点用直线连接,不要用平滑的曲线连接。
无数据的组段用虚线连接。
直线不能任意外延。
(3)同一张线图上不要画太多条曲线,否则不易分清。
当有两条或两条以上曲线在同一张线图上时,须用不同颜色或不同的线条形式加以区分,并附图例说明。
5.半对数图
适用资料:
连续性资料。
应用:
反映事物的发展速度。
绘制要点:
(1)横坐标:
算术尺度
(2)纵坐标:
对数尺度
起点不能为0或是小于0,
可以是0.1、1、10等。
如果有半对数坐标纸,用原来的数据做图;如果没有半对数坐标纸,则可以将原来的数据转化为对数后用方格纸做图。
(3)其它的要求和线图相同。
6.直方图
适用资料:
频数分布。
绘制要点:
(1)坐标轴:
横轴组段,要用相等的距离表示相等的数量。
纵轴坐标要从0开始。
(2)各矩形间不留空隙。
(3)对于组距相等的资料可以直接作图;组距不等的资料先进行换算,全部转化为组距相等的频数,用转化后的频数作图。
7.散点图
适用资料:
双变量资料。
绘制要点:
横轴代表一个变量,纵轴代表另一个变量。
纵横轴的坐标起点不一定要从0开始,根据资料的情况而定。
应用:
反映两事物间的相关关系,主要用于相关回归分析。
第五章总体均数的估计和假设检验
1.统计推断:
在统计学理论上,用样本信息推论总体特征的过程
统计推断包括两方面的内容:
参数估计,假设检验
总体统计指标称为总体参数,参数估计又分为点估计和区间估计;假设检验又称为显著性检验,是指在样本间存在的差别对样本的代表的总体间是否存在着差别做出判断
2.标准误:
是表示抽样误差大小的指标,是样本均数的标准差
计算公式:
对于总体来说
对于样本来说:
S一定时,n越大,也就是样本量越大,标准误越小。
所以我们可以通过增加样本量来减小抽样误差
4.总体均数的估计及两种计算方法和应用条件:
1]点[值]估计:
以样本均数作为总体均数的估计值
2]区间估计:
根据样本均数计算出总体均数很可能在的一个数值范围,这个数值范围称为总体均数的置信区间,
[1]Z分布法:
应用条件:
样本量n≥100,已知或者可计算出样本均数(
)及标准差(S)
计算公式:
(
·
,
·
)即(
±
·
)
[2]t分布法:
应用条件:
样本量小于100,已知均数和标准差。
计算公式:
(
·
,
·
)即(
±
·
)
5.假设检验的一般步骤
1]建立假设:
反证法
建立两种假设:
一种是“检验假设”或称“无效假设”,用
表示,即假设两总体均数相等;另一种备择假设,用
表示,和
刚好相反
2]确定显著性水平(显著性水平用字母表示);是为区分大概率事件和小概率事件的标准,是人为规定的,当某事件发生的概率≦时,则认为该事件为小概率事件。
通常取为5%。
3]计算统计量:
根据资料特点和研究目的选择不同的统计方法:
Ztx2等
4]确定概率值(概率用字母P表示)
5]做出推断结论:
如果P≦,认为在检验假设
成立的条件下,得到等于或大于现有统计量Z值和t值的可有性≦,属于小概率事件,则拒绝
6.计算题,t检验中的两个样本均数比较的检验和配对数值变量的检验
[1]两个小样本均数比较的t检验
▲目的:
由两个样本均数的差别推断两样本所代表的总体均数间有无差别。
▲计算公式及意义:
P60
t统计量:
自由度:
n1+n2–2
▲适用条件:
(1)已知/可计算两个样本均数及它们的标准差;
(2)两个样本之一的例数少于100;
(3)样本来自正态或近似正态总体(如何判断);
(4)两个样本方差不能差别太大(方差齐,如何判断)。
[2]三、配对资料的t检验
什么是配对资料?
治疗前后;不同检验方法;进行配对;……一对观察对象之间除了处理因素/研究因素之外,其它因素基本齐同。
目的:
判断不同的处理是否有差别
公式:
t=
,P61
自由度:
对子数–1
查表:
t0.05(17)=?
?
适用条件:
两组配对计量资料。
7.均数假设检验的注意事项
1]、正确理解假设检验的结论(概率性)
假设检验的结论是根据概率推断的,所以不是绝对正确的:
(1)当p≤,拒绝H0,接受H1,按接受H1下结论,可能犯错误;
(2)当p>,不能拒绝H0,不能接受H1,按不能接受H1下结论,也可能犯错误;
2]、第I类错误和第II类错误
假设检验的结果有两种。
(1)当拒绝H0时,可能犯错误,可能拒绝了实际上成立的H0,称为І类错误(“弃真”的错误),其概率大小用α表示。
(理解什么是“真”)
(2)当不能拒绝H0时,也可能犯错误,没有拒绝实际上不成立的H0,这类称为II类错误(”存伪”的错误),其概率大小用β表示,β值一般不能确切的知道。
(理解什么是“伪”)
II类错误的概率β值的两个规律:
1).当样本量一定时,α愈小,则β愈大,反之…;
2).当α一定时,样本量增加,β减少.
3].统计学中的差异显著或不显著,和日常生活中所说的差异大小概念不同.(有无“显著性”的实质是什么?
不仅区别于均数差异的大小,还区别于均数变异的大小)
4]、其它注意事项
●选择假设检验方法要注意符合其应用条件;
●当不能拒绝H0时,即差异无显著性时,应考虑的因素:
可能是样本例数不够;
●单侧检验与双侧检验的问题
8.THMX2S检验都是非参数检验
第六章多组数值变量的比较
1.单因素方差分析:
1]三者之间的关系:
SS总=SS组内+SS组间总=组内+组间
MS=SS/F=MS组间/MS组内
自由度:
组间=组数-1
组内=N-组数
2]一定要会填
2.方差分析第一条需要注意的地方
建立假设(反证法)
H0:
三组每日进食量相等1=2=3
H1:
三组进食量不全相等或全不相等
H1与H0相反,如果H0被否决,则H1成立。
3.双因素方差分析的计算公式
变异之间的关系:
•SS总=SS组内+SS组间+SS配伍间总=组内+组间+配伍间
F1=MS组间/MS组内F2=MS配伍间/MS组内自由度:
组间=组数-1=3-1=2
配伍间=配伍组数-1=8-1=7组内=(组数-1)(配伍组数-1)=14
第七章简单线生关系与回归
1.相关系数r:
可以衡量两个变量关系的密切程度和方向,它的值在-1和1之间
2.对相关系数的假设检验,常用t检验,选用统计量t的计算公式
另外,有自由度可以直接查相关系数界值表
得出t值后两种:
一种是查系数表,一种是P值检验法
3.直线相关的应用
一般说来,对r进行假设检验,且有统计学意义时,r的绝对值大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变量之间中度相关;r的绝对值大于0.2,小于等于0.4时,则两个变量低度相关。
即
高度相关:
r>0.7
中度相关:
0.4低度相关:
0.24.回归方程式
式中
是由自变量X推算应变量Y的估计值,a是回归直线在Y轴上的截距,即X=0时的Y值;b为样本的回归系数,即回归直线的斜率,表示当X变动一个单位时,Y平均变动b个单位。
b›0
b‹0
b与r符号一致。
5.回归系数的假设检验
需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得,为了判断抽样误差的影响,需对回归系数进行假设检验
对回归系数的检验一般也用t检验
6.直线回归的应用
1]描述两变量之间的依存关系
2]利用回归方程进行预测
3]利用回归方程进行统计控制
4]利用多元回归描述多因素的影响
7.应用直线相关与回归的注意事项
●实际意义
●相关关系
相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系,
●利用散点图
对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关回归分析。
●变量范围
相关分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出两变量的相关关系和原来的回归关系。
●相关系数r与回归系数b
r与b的符号一致。
r为正时,b也为正,表示两变量是正相关,是同向变化。
r为负时,b也为负,表示两变量是负相关,是反向变化。
r与b的假设检验结果一致。
对同一资料,可以证明r与b假设检验的统计量t值的大小相等,因而假设检验结果总是相同的。
由于对r进行假设检验的统计量t值计算公式比较简便,所以,可用r的显著检验代替b的显著性检验。
R的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。
B的绝对值越大,回归直线越陡
第八章分类变量的参数估计和假设检验
1.成组设计成四格表资料的x2(卡方)检验,主要是对率和构成比进行检验
2.四格表资料的一般形式
组别
阳性
阴性
合计
1
a
b
a+b
2
c
d
c+d
合计
a+c
b+d
a+b+c+d
3.四格表的应用条件与计算
4.X2检验的一般计算公式和专用公式
一般计算公式
自由度:
ν=(行数-1)×(列数-1)=(R-1)×(C-1)
专用公式:
5.四格表的理论频数计算公式
[T应该为E,我懒得改了,大家知道就行,这个公式要知道]
6要知道3.84的值就相当于平时我们说的1.96
7.R*C列联表的X2检验
实际资料整理成的列联表会多于2行或者2列,我们习惯上把行数为R,列数为C的表统称为R*C列联表,R*C列联表资料的X2检验可用于多个独立样本率的比较,计算可用一般公式,也可用以下的专用公式
8.8.R*C列联表的X2检验要求E<5的格子数不超过格子总数的1/5,并且没有一个格子的E<1,超过了就不家进行X2检验,可用两种方式处理一是扩大样本量,一是条件分析允许的情况下可以反相邻组合并
第九章医学人口统计
3.人口金字塔根据形状及对人口未来发展的影响常分为三型:
①增长型人口:
人口金字塔呈上尖下宽,多为出生率大于死亡率,表示人口不断增长。
②静止型人口:
除高龄组构成较小外,其它各年龄组构成相近,此类人口出生率基本等于死亡率,人口总数基本稳定。
③缩减型人口:
人口金字塔呈现上下两头小,中间大,一般多为死亡率大于出生率,人口总数不断减少,
4总生育率(GFR)也称普通生育率
5.
6.粗死亡率(crudedeathrate,CDR)也称普通死亡率,指某年平均每千名人口中的死亡数。
优点:
资料易获得,计算简单
缺点:
受人口年龄性别构成影响。
应用:
粗略反映一个国家和地区的生育水平
7.婴儿死亡率:
某年不满1岁的婴儿死亡数与同年活产数之比。
算式为:
应用:
衡量一个国家卫生文化水平的敏感指标
8.孕产妇死亡率:
是指某年孕产妇死亡数与同年活产数之比。
•
算式为
应用:
孕产妇死亡率不仅可以评价一个国家或地区的妇幼保健工作,而且可以间接反映一个国家的卫生文化水平。
9.5岁以下儿童死亡率:
某年5岁以下儿童死亡数(包括婴儿死亡数)与同年活产数的比值。
应用:
综合反映婴幼儿死亡水平及儿童生存大小。
10.死因构成:
某年某类死因的死亡数占该年总死亡数的百分比。
第十章疾病统计
1.发病率:
表示在观察期内可能发生某种疾病的一定人群中新发生该病的频率。
计算公式:
某病发病率=
常用于衡量疾病的发生,评价预防措施效果
2.患病率:
表示在某时点检查时可能发生某病的一定人群中患有某病的频率。
公式:
表示病程较长的慢性病的存在或流行的水平。
3.反映疾病防治效果的指标
治愈率表示接受治疗的病人中治愈的频率。
有效率表示接受治疗的病人中治疗有效的频率。
4.某病病死率:
表示在规定的观察时间内,某病患者中因该病而死亡的频率。
反映疾病的预后或评价治疗效果
5.病例随访资料的生存分析
一.直接法:
优点:
计算方法简单、直观,在病例较多时误差不大。
缺点:
是当例数较少时,有时会出现后一年比前一年生存率高的不合理现象。
二、寿命表法:
•优点:
可以利用截尾资料,而且结果不会出现后一年比前一年生存率高的不合理现象。
•缺点:
计算相对复杂。