统计学知识点Word格式.docx
《统计学知识点Word格式.docx》由会员分享,可在线阅读,更多相关《统计学知识点Word格式.docx(13页珍藏版)》请在冰豆网上搜索。
,t分布逼近u分布,故标准正态分布是t分布的特例。
5.置信区间〔,〕:
按预先给定的概率〔1-〕确定的包含总体参数的一个范围,计算公式:
或
95含义:
从固定样本含量的总体中进展重复抽样试验,根据每个样本可得到一个置信区间,那么平均有95%的置信区间包含了总体参数。
6.假设检验的根本原理:
小概率反证法的思想。
①反证法:
从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。
②小概率事件:
在H0成立的条件下计算检验统计量,根据概率分布确定检验水准下P值大小,判断是否为小概率事件〔通常P≤视为小概率事件,通常取〕,是那么拒绝H0,承受H1;
否那么尚不能拒绝H0。
7.假设检验一般步骤:
①建立假设〔反证法,H0和H1〕,确定检验水准〔〕;
②计算统计量:
u,t,F;
③确定概率值P,做出推断结论。
8.t检验需满足的条件:
比拟的两个样本相互独立、均服从正态分布。
9.P的含义:
是指从H0规定的总体随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u等)值的概率。
10.Ⅰ型错误〔Ⅰ〕:
拒绝了实际上成立的H0,这类“弃真〞的错误称为Ⅰ型错误,Ⅰ型错误的大小为检验水准。
Ⅱ型错误〔Ⅱ〕:
承受了实际上不成立的H0,这类“存伪〞的错误称为Ⅱ型错误,Ⅱ型错误的大小用表示,1-表示检验效能。
越小,越大,增大样本量可以同时降低和。
11.置信区间和假设检验的区别和联系:
①可以通过判断置信区间是否包含零假设,判断单样本均数是否来自的总体;
②置信区间不但能答复差异有无统计学意义,还可提示差异有无实际意义。
③假设检验可提供置信区间不能提供的信息,如P值和检验效能等。
第四章方差分析
1.方差分析的根本思想:
根据研究目的和设计类型,把所有测量值的总变异按照处理因素和水平等分解成两局部〔组内变异和组间变异〕或更多局部,同时把对自由度相应进展分解,再进展比拟,评价由处理因素引起的变异是否具有统计学意义。
2.方差分析的应用条件:
各样本是相互独立的随机样本,均来自正态分布的总体,各样本的总体方差相等〔具有方差齐性〕。
3.方差分析表:
变异来源
ν
F
P
组间变异
a
1
(1)
组间组内
组内变异
b
()
总变异
4.2时,随机区组设计的方差分析与配对设计资料t检验等价,
5.多个样本均数间的多重比拟:
①检验,即最小显著差异t检验,适用于一对或几对在专业上有特殊意义的样本均数间的比拟;
②检验:
适用于1个实验组与一个对照组均数差异的多重比拟;
③检验:
适用于多个样本均数两两之间的全面比拟。
第五章计数资料的统计描述
1.相对数的类型:
强度相对数〔率,如死亡率、发病率等〕;
构造相对数〔构成比〕;
相比照〔如性别比等〕
2.应用相对数的考前须知:
①构造相对数不能代替强度相对数;
②计算相对数应有足够的数量;
③正确计算合计率;
④注意资料的可比性;
⑤比照不同时期资料应注意客观条件是否一样;
⑥样本率〔或构成比〕的抽样误差。
3.标准化率〔〕:
采用标准化法进展计算,消除数据内部构成的差异,使标化后的合计率具有可比性,这种经过标化后的合计率称为标准化率。
4.标准化率的考前须知:
①只适用于内部构成不同,影响总率的可比性的问题;
②选择的标准不同,计算得到的标准化率也不同,多个标准化率比拟时,应选同一标准;
③标准化率已经不再反映当地的实际水平;
④样本标准化率是样本值,存在抽样误差。
比拟两样本标准化率,当样本量较小时,需做假设检验。
第六章几种离散型变量的分布及应用
1.二项分布X~B(n,)的适用条件:
①每次试验只发生两种对立的可能结果之一;
②每次试验产生某结果的概率固定不变;
③重复试验是相互独立的。
2.二项分布的性质:
①阳性次数X的总体均数〔
〕、标准差〔
〕;
②样本率p的均数〔
〕、标准差〔,即率的标准误〕。
③二项分布的正态近似条件:
和n
(1)均大于5。
3.泊松分布X~P()的性质:
①总体均数和总体方差2相等;
②当n很大,很小,且为常数时,二项分布近似泊松分布;
③≥20时,泊松分布近似正态分布;
④泊松分布具备可加性。
第七章2检验
1.2检验的根本思想:
根据2分布特征,通过比拟实际频数与理论频数的差异,确定在成立的条件下该差异由抽样误差造成是否为小概率事件,进而判断差异是否具有统计学意义。
2值反映了实际频数与理论频数的吻合程度。
2.R×
C列联表中的各格子T≥1,并且1≤T<5的格子数不宜超过1/5格子总数,否那么可能产生偏差。
处理方法有三种:
①增加样本量,使理论频数增大;
②根据专业知识,删除或合并行列;
③采用确切概率法分析。
3.有序分组资料表线性趋势检验:
①双向无序的R×
C列联表:
多个样本率的比拟采用R×
C列联表的2检验;
两个分类变量的关联性分析那么采用R×
C列联表的2检验和列联系数进展分析。
②单向有序的R×
行有序而列无序:
R×
行无序而列有序,采用秩和检验。
③双向有序属性一样的R×
配对四格表的扩展,采用一致性检验〔检验〕。
④双向有序属性不同的R×
样本率的比拟采用秩和检验;
相关性分析采用相关分析;
线性变化趋势分析采用有序分组资料的线性趋势检验或2检验等。
第八章非参数检验
1.秩和检验的适用范围:
①总体分布偏态的计量资料;
②数据两端有不确定值;
③等级资料;
④各组离散程度相差悬殊,总体方差不齐的资料。
2.非参数检验对总体分布的形状差异不敏感,只对总体分布位置差异敏感;
非参数检验没有充分利用资料信息,较参数检验的检验效低。
故能用参数检验尽量采用参数检验,不满足参数检验条件才使用非参数检验。
3.不同数据类型的统计分析路径:
〔1〕样本均数与总体均数的比拟:
正态,样本均数与总体均数的t检验;
非正态,符号秩检验。
〔2〕两样本均数比拟:
①独立正态:
两独立样本t检验;
②独立非正态:
两独立样本的秩和检验;
③配对设计差值正态,配对t检验;
④配对设计差值非正态,符号秩检验。
〔3〕多样本均数比拟:
①独立正态〔方差齐〕,方差分析;
②独立非正态H检验;
③非独立正态,重复测量资料的方差分析;
④非独立非正态,M检验
第九章双变量回归和相关
1.直线回归应满足的条件:
自变量与因变量呈线性关系、观察值之间相互独立、因变量Y随机正态、对任何X因变量Y的标准差相等。
直线回归方程的一般形式为:
,
为截距,
为回归系数,回归系数的估计采用最小二乘法原那么〔,使残差平方和最小〕进展估计。
2.决定系数〔〕:
回归平方和与总平方和的比值,R2回总。
R2取值0~1之间无单位,其数值大小反映回归奉献的相对程度,即总变异中回归模型能够解释的百分比。
3.秩相关的应用适用范围:
〔1〕不服从双变量正态分布而不宜作相关分析;
〔2〕总体分布型未知;
〔3〕等级资料的相关分析。
4.相关与回归的区别与联系区别
〔1〕区别:
①资料:
回归分析资料要求Y为正态随机变量,X为选定变量;
相关分析资料X、Y服从双变量正态分布。
②应用:
回归分析是由一个变量值推算另一个变量值〔依存关系〕;
相关分析只反映两个变量间的相互关系。
③回归系数b与原度量单位有关,而相关系数r无关。
b的绝对值越大,回归直线越陡,即X变化1个单位时Y的平均变化越大;
r的绝对值越大,所有点越趋近于一条直线,两变量的关系越密切,相关度越高。
〔2〕联系:
①r与b值可相互换算,
②r与b正负号一致;
③r与b的假设检验等价:
对于同一资料
,检验完全等价;
④回归可解释相关。
相关系数的平方r2(决定系数)是回归平方和与总的离均差平方和之比〔回总〕。
5.应用直线回归时的考前须知
〔1〕作回归分析要有实际意义,不能把毫无关联的两种现象作回归分析,必须对两种现象间的内在联系有所认识。
〔2〕在进展直线回归分析之前,应绘制散点图,当观察点的分布有直线趋势时,才适宜作直线回归分析,散点图还能提示资料有无异常点。
异常点的存在往往对方程中的系数〔a、b〕的估计产生较大影响。
因此,需对异常点进展复查。
〔3〕建立直线回归方程后,要对系数进展假设检验,以确定回归方程有无意义。
〔4〕直线回归方程的适用范围一般以自变量的取值范围为限,防止外延。
获得自变量值的手段也应与建立方程时一样。
否那么会产生较大偏差。
第十章统计表和统计图
1.统计表的根本要求
〔1〕标题:
概括表的主要内容〔时间、地点、研究内容等〕,放在表的上方。
表编号与标题间间隔一个汉字距离;
如整个表指标统一,还应将指标的单位标在标题后面。
〔2〕标目:
分别用横标目和纵标目说明每行和每列内容或数字的意义,标明指标的单位。
通常描述的对象为横标目,内容〔指标〕为纵标目,从左向右读可以构成完整的一句话。
〔3〕线条:
至少用3条线:
顶线、底线和纵标目线。
顶线和底线将表格与文章其他局部分隔开,纵标目线将标目的文字区与表格的数字区隔开,还可用横线将合计和两重纵标目隔开,其他竖线和斜线一概省去。
顶线和底线线条粗细一般为磅,其他线条一般为磅。
〔4〕数字:
用阿拉伯数字表示。
无数字用“—〞表示,缺失数字用“…〞表示,数值为0者记为“0〞,不留空项。
数字按小数点位数对齐,同一指标最好保存一样位数的小数位数。
〔5〕备注:
表中数字区不要插入文字。
必须说明者表“*〞,在表下方以备注的形式说明。
高级统计方法
第十二章重复测量资料的方差分析
1.重复测量设计与随机区组设计的区别:
〔1〕重复测量设计中“处理〞是在区组〔受试者〕间随机分配,区组内的各时间点是固定的,不能随机分配;
〔2〕重复测量设计区组内实验单位彼此不独立;
2.球对称〔〕:
所有两两时间点变量间差值对应的方差相等,即重复测量的误差的协方差经正交比照变换后与单位矩阵成比例。
3.重复测量资料方差分析的资料条件:
〔1〕正态性:
处理因素的各水平样本个体间是相互独立的随机样本,其总体均数服从正态分布〔个体间独立,个体内不独立〕;
〔2〕方差齐性:
相互比拟的各处理水平的总体方差相等,即具有方差齐同;
〔3〕各时间点组成的协方差阵具有球形性特征。
第十五章多元线性回归分析
1.偏回归系数〔〕:
多元线性回归模型中自变量的系数j,表示在其他自变量保持不变时,增加或减少一个单位是Y的平均变化量。
2.复相关系数〔〕:
,表示因变量Y与多个自变量的线性相关程度,也是观察值Y与估计值
之间的相关程度。
假设只有一个自变量,
3.标准化回归系数:
对数据标准化后得到的标准化回归方程的回归系数即为标准化回归系数,,用来比拟各个自变量
对Y的影响强度,在有统计学意义的前提下,标准化回归系数的绝对值越大说明相应自变量对Y的作用越大。
4.多元线性回归模型〔
〕应满足的条件:
①Y与X1,X2,…,之间具有线性关系;
②各例观察值相互独立;
③残差e服从正态分布。
5.哑变量〔〕:
在多元线性回归模型中,当自变量为多分类变量〔g个水平〕时,需要将原来的多分类变量转化为〔1〕个哑变量并进展编码,每个哑变量只代表两个级别或多个级别间的差异。
应用哑变量时要注意:
①哑变量同时存在,其统计学意义是相对而言的,不能采用常规的逐步回归进展变量选择;
②可采用加与不参加哑变量的偏回归平方和F检验确定哑变量有无意义。
6.多重共线性〔〕:
某些自变量间存在较强的线性关系,使得一个或几个自变量可以由另外的自变量的线性关系表示,那么该变量与另外的自变量间存在多重共线性。
多重共线性可能导致回归方程不稳定、参数估计值标准误变得很大、t检验不准确、估计值的正负符号与实际不符等。
7.交互作用:
当某一自变量对因变量的作用大小与另一自变量的取值有关,那么这两个自变量有交互作用。
是否考虑交互作用主要靠专业知识判断。
为了检验两个自变量是否具有交互作用,普遍的做法是在模型中参加它们的乘积项〔作为交互项〕。
8.线性回归分析的结果解释:
〔1〕线性回归方程:
〔2〕该线性回归模型的统计学检验结果:
模型的方差分析统计量,<,说明该线性回归模型具有统计学意义。
〔3〕的意义:
该线性回归模型可以解释因变量Y的总变异的46.353%;
〔4〕回归系数估计值的意义:
表示X对Y影响的大小,X每改变一个单位,Y改变个单位;
其假设检验结果合方差分析结果的联系:
方差分析结果说明X与Y之间存在的线性关系,t检验结果说明计算得到的回归系数b有统计学意义,在此问题中,二者是等价的,均说明该回归模型具有统计学意义。
〔5〕相关系数及其检验结果并解释该结果:
,对r进展t检验得到<,那么该相关系数具有统计学意义,说明X与Y之间具有中等强度的正相关关系。
第十六章回归分析
1.回归模型一般形式:
将某事件的阳性与阴性结果概率之比去自然对数称为变换,记为(P)。
2.回归系数
采用最大似然估计〔,,使在一次抽样中获得现有样本的概率最大〕得到表示自变量改变一个单位时P的改变量。
多变量调整后的优势比
,表示扣除了其他自变量的影响后危险因素的作用。
1,说明对疾病发生不起作用>1,说明是一个危险因素;
<1,说明是一个保护因素,的
可信区间为:
3.回归模型假设检验的方法:
似然比法〔
,适合单个和多个自变量的假设检验〕、检验〔或,适合单个自变量的假设检验〕和计分检验〔适合样本量较小的情况〕。
变量筛选的方法:
前进法、后退法、逐步法。
4.条件回归:
适用于1配对设计资料,条件似然函数估计的是在1个观察对象中恰好第一个观察对象属于病例组的条件概率,它只估计了表示危险因素作用的
,表示匹配组效应的常数项
被消去。
5.有序回归基于累积概率构建回归模型,g个类别的因变量Y的有序回归包括1个方程,这些方程的回归系数均一样,差异主要表达在各方程的常数项
不同。
在对因变量Y赋值时,应将专业上最不利的等级赋最小值,最有利的等级赋最大值。
6.多分类回归是二分类回归的扩展,即选择一个参照类别,拟合剩余各类别相对于参照类别的回归模型。
第十七章生存分析
1.生存分析的数据特点:
〔1〕同时考虑生存时间和生存结局;
〔2〕通常含有删失数据〔,可能的原因:
①研究截止但终点事件仍未出现;
②失去联系或其他原因导致失访;
③死于其他“事件〞〕;
〔3〕生存时间的分布通常不服从正态分布。
2.统计学分析方法:
由于生存时间一般不呈正态分布,且需考虑是否为删失值,所以生存分析有其独特的统计方法。
〔1〕非参数法:
①生存率的估计采用法、寿命表法〔频数表资料〕;
②两组或多组生存率的比拟,常用检验〔时序法,权重
,对观察后期差异敏感〕和检验〔权重
为期初人数,随生存时间增大而逐渐减小,检验给观察早期差异更大权重,故对观察早期差异敏感〕。
〔2〕半参数法:
多因素生存分析常采用比例风险模型〔前提条件:
假定风险比值h(t)0(t)为固定值,即协变量对生存率的影响不随时间的改变而改变。
检验此前提的方法:
①分类协变量每组的生存曲线无穿插;
②协变量与生存时间的交互项无统计学意义等。
其参数估计方法为最大似然法〕。
〔3〕参数法:
指数分布法、分布法等回归模型。
3.多元线性回归、回归和回归的一样点和不同点
〔1〕一样点:
①自变量可为连续变量和多分类变量,多分类变量需哑变量化,哑变量在模型中是一个整体,必须同时“进〞同时“出〞;
②自变量间存在较强相关关系时可能导致多重共线性问题;
③自变量间可能存在交互作用,模型中通常采用自变量的乘积作为交互项;
④均可采用逐步回归筛选变量;
⑤均可进展影响因素分析、混杂因素校正、预测分析等。
〔2〕不同点:
第十八、十九章判别分析和聚类分析
1.判别分析():
根据一批分类明确的样本在假设干指标上的观察值,建立一个关于指标的判别函数和判别准那么,然后根据这个判别函数和判别准那么对新的样本进展分类,并且根据回代判别的准确率评估它的实用性。
2.判别准那么:
它使得类间点的距离最大,而类内点的距离最小,适合于两类的判别分析;
判别准那么:
它使得每一类中的每个样本都以最大的概率进入该类,适合于多类的判别分析。
3.评估判别函数的判别效能:
原始数据的分类要可靠准确;
指标变量对判别函数的作用要显著;
判别函数的回代错判率和事后概率错误率要小。
4.聚类分析〔〕:
对于总体分类未知的一群事物依照“物以类聚〞思想,把性质相近的事物归入同一类,而把性质相差较大的事物归入不同类的一种统计分析方法。
5.聚类分析和判别分析的区别和联系
①聚类分析可以对样本进展分类,也可以对指标进展分类;
而判别分析只能对样本进展分类;
②聚类分析事先不知道事物的类别,也不知道应分几类;
而判别分析必须事先知道事物的类别,也知道应分几类;
③聚类分析不需要分类的历史资料,能直接对样本进展分类;
而判别分析需要分类历史资料去建立判别函数,然后才能对样本进展分类。
先采用聚类分析获得各个个体的类别〔〕;
然后采用判别分析建立判别函数,对新个体进展类型识别〔(〕
第二十章主成分分析和因子分析
1.主成分的性质
〔1〕主成分互不相关;
〔2〕主成分的奉献率和累积奉献率:
奉献率越大,说明主成分综合原始指标信息的能力越强;
累积奉献率越高,说明前k个主成分综合原始资料信息的比例越高;
〔3〕主成分个数的选取:
①以累计奉献率确定:
累积奉献率≥70%为宜;
②以特征根值大小确定:
特征根值≥1。
〔4〕因子荷载:
因子荷载反映主成分与原始指标间密切程度与作用方向;
〔5〕样品的主成分得分:
根据主成分表达式计算样品的主成分值,推断和评价样品的特性。
2.因子模型的性质:
〔1〕公共度:
共性方差
反映全体原始指标对所有公因子的依赖程度;
〔2〕因子奉献及因子奉献率:
的值越大,那么对原始指标的影响越大;
〔3〕因子荷载及因子荷载矩阵:
因子荷载反映公因子与原始指标间密切程度与作用方向;
2.主成分分析和因子分析的区别和联系
〔1〕联系:
①都是根据变量之间内部相关性来提取主要信息,获得新的变量〔公因子变量和主成分变量〕,到达减少变量个数〔降维〕的目的;
②主成分分析模型两端同时乘以
,那么有
,即为无特殊因子的公因子模型;
③因子分析的结果〔主成分解〕即为主成分分析的结果,因子分析的主因子解也常常由主成分分析的结果作为
的初始值计算。
〔2〕区别:
主成分分析是将m个原变量提取I(I≤m)个互不相关的主成分,准确计算各主成分的得分,其分析重点在于通过主成分综合原始变量的信息;
因子分析是提取I(I≤m)个支配原变量的共性因子和1个特殊因子,各因子之间可以互不相关或相关,根据共性因子得分系数估计因子得分,其分析重点是通过寻找共性因子解释原始变量之间的关系。
第二十一章典型相关分析
1.典型相关〔〕:
是研究两组变量之间相关性的一种统计分析方法。
是一种降维技术。
2.典型相关分析根本思想:
借助主成分分析的思想,分别计算得到两组变量的主成分,根据主成分综合原始变量信息的能力配对得到第i对典型相关变量〔,〕。
两个第一主成分间的相关程度最大,即构成了第一对典型相关变量〔U1,V1〕。
根据典型相关变量计算典型相关系数,更加全面得反映原来两组变量之间的整体相关性。
3.典型相关系数〔〕:
第i对典型相关变量间〔,〕的相关系数称为第i典型相关系数,反映了两组变量中存在的多种相关信息中第i大的一种。
医学研究的统计学设计
1.统计学设计内容:
研究对象〔分组、设置对照、样本含量〕、处理因素、观察指标、数据的质量控制与管理、统计分析方法。
2.研究设计的三要素:
受试对象、处理因素、实验效应。
3.实验设计的根本原那么:
重复、对照、随机化
4.随机的三个含义:
分组随机-均衡性:
每个研究对象有同等时机被分配到各处理组
抽样随机-代表性:
总体中每个观察个体有同等时机被抽取
实验顺序随机:
每个研究对象先后承受处理的时机一样
5.影响样本含量大小的因素:
样本含量的估计时,通常是由犯I类错误的概率、检验效能1-、个体值间的离散程度S、以及容许误差d来确定样本含量。
6.常用的随机抽样方法:
单纯随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样等。
7.对照类型:
、空白对照、实验对照、标准对照、相互对照、自身对照
诊断试验评价与分析
1.常用指标:
正确百分率、灵敏度、特异度、指数、阳性似然比、阴性似然比、阳性预测值、阴性预测值。
诊断结果(T)
金标准〔D〕
合计
病例〔〕
对照()
阳性〔〕
(真阳性)
(假阳性)
阴性〔〕
(假阴性)
(真阴性)
合计
N
2.①灵敏度与特异度取值范围均在0~1之间,其值不受患病率的影响;
②指数的取值范围在0~1之间,其值越接近于1,诊断准确性越好;
③阳性似然比的取值范围为〔0,∞〕,其值越大,检测方法证实疾病的能力越强;
④阴性似然比的取值范围为〔0,∞〕,其值越小,检测方法排除疾病的能力越好;
⑤当灵敏度与特异度为常数时,增加患病率将增加阳性预测值,而降低阴性预测值。