统计学名词解释Word文档格式.docx
《统计学名词解释Word文档格式.docx》由会员分享,可在线阅读,更多相关《统计学名词解释Word文档格式.docx(27页珍藏版)》请在冰豆网上搜索。
回归系数b表示自变量X每变化一个单位后应变量Y的平均变化量,相关系数r表示两变量相关的方向和密切程度,4取值范围不同:
-1=r,而非参数检验结果P。
推断两总体差值为0的假设未能拒绝,在参数检验中,综合了差数大小与方向的全部信息,差数大小更能提供两组数据之差有无实际意义的信息,而配对秩和检验更侧重方向的作用,设想当n对差数全部为正号时,尽管两组数据非常接近,也会出现T+很大,T-为零的局面,即P的结果,这种局面虽然可以出现,但随n的增大,如果H0为真,则差数的方向是随机出现的,故T+和T-一般相差不大,其检验结果与参数检验结果多数情况下还是一致的。
43,参数检验和非参数检验所得结果不一致,以何为准?
仅供参考第一章绪论统计学(statistics),是研究数据的收集、整理、分析的一门科学,帮助人们分析占有信息。
达到去伪存真、去粗存精、争取认识世界的一种重要手段。
卫生统计学(healthstatistics):
是研究居民健康状况以及卫生服务领域中数据的收集、整理和分析的一门科学。
统计描述(descriptivestatistics)用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行滴定和描述。
统计推断(statisticalinference):
通过样本指标来说明总体特征,从样本获取有关总体信息的过程总体(population):
是根据研究目的确定的同质观察单位的全体。
在确定总体之后,研究者则应对每个观察单位的某项特征进行测量和观察,这种特征称为变量。
以避免误差和偏倚对研究结果有所影响。
样本含量或样本大小(samplesize):
样本包含的观察单位数称为样本含量,医学上也称为样本例数。
定量资料(quantitativedata)是测量每个观察单位某项指标大小所得到的资料,一般均有度量衡单位。
分类资料(categoricaldata):
观察值是定性的,表现为互不相容的类别或属性。
有序分类(ordinalcategories):
各类之间有程度的差别,给人以“半定量”的概念。
是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大,0P(A)50),也近似正态分布。
2从均数,标准差的正态或偏态总体,抽取例数为n的样本,样本均数的总体均数也为,标准差用()=统计推断包括:
参数估计和假设检验。
标准误的用途:
可反映样品均数与总体均数距离远近,反映可靠性:
与样本均数结合估计总体均数的可信区间;
进行假设检验。
假设检验应注意的问题:
1,要有严密的研究设计2,不同变量或资料应选择不同的检验方法3,正确理解“显着性”一词的含义4,做结论不能绝对化5,统计“显着性”与医学临床/生物学“显着性”。
可信区间与假设检验:
1可信区间亦可回答假设检验的问题,2可信区间比假设检验可提供更多的信息。
第五章方差分析变量变换:
将原始数据做某种函数转换,使各组达到方差齐性,也可使资料转换为正态分布。
方差分析的基本思想:
就是把全部观察值间的变异(总变异)按设计和需要分解成两个或多个组成部分,总自由度也分解成相应的几个部分,再做分析。
分解的每一部分代表不同的含义,其中至少有一部分代表各均数间的变异情况,另一部分代表误差。
离均差平方和除以自由度得均方,组间均方与误差均方之比为F值,F值远大于1,表示各组均数间差别有显着性,F值远小于1,表示各组均数间差别无显着性,可查F界表确定P。
方差分析的用途:
两个或多个样本均数的比较,分析两个或多个研究因素的交互关系以及回归方程的线性假设检验。
方差分析的应用条件:
1,各样本是相互独立的随机样本,2各样本来自正态总体,3各处理组总体方差齐性。
变量变换:
1目的:
使方差性齐;
资料正态化;
还可用于曲线直线化;
2类型:
对数变换:
平方根变换;
倒数变换;
平方根反正弦变换等。
第六章分类资料的统计描述Relativenumber相对数:
由两个有联系的指标之比组成的用以描述分类变量的统计指标。
Rate率:
又称频率指标,说明某现象发生的频率或强度。
率=发生某现象的观察单位数/可能发生某现象的观察单位总数100%Proportion构成比:
又称构成指标,说明某一事物内部组成部分所占的比重或分布。
构成比=某一组成部分的观察单位数/同一事物各组成部分的观察单位总数100%Ratio比:
又称相对比。
是A,B两个有关指标之比,说明A是B的若干倍或百分之几。
比=A/BStandardmortalityratioSMR标准化死亡比:
指被标化组实际死亡数与预期死亡数之比。
若SMR1,表示被标化人群的死亡率高于标准组:
反之若SMR25,用检验1.所有数据由小到大编秩,小ni组秩和为T。
查表确定p值。
2.n110或n2-n110时,用检验1.所有数据由小到大编秩,求出各组秩和Ri计算H值。
2.当k=3,n5时查H界值表确定p,当最小n5时,v=k-1.查X2表,确定p。
注意事项编秩时,绝对值相等者,取平均秩次1.编秩时,相同数据在不同组内取平均秩次2.相同秩次较多时,需要校正。
1,编秩时,相同数据在不同组内取平均秩次。
2.相同秩次较多时,需校正。
第十一章回归和相关直线相关:
或简单相关,描述两变量的相互关系,用于双变量正态分布资料。
有正相关、负相关和零相关(非直线相关)系。
相关系数:
或累积相关系数,说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。
样本相关系数用r表示,总体相关系数用表示。
直线回归:
描述两变量间的依存关系。
利用回归分析方法能够找到一个描述变量之间的变化关系的数学表达式。
回归系数:
或直线的斜率,样本回归系数b,总体回归系数,b的统计学意义为:
X每增加/减少一个单位时,Y平均改变b个单位。
剩余:
或残差,即实际值与估计值之差。
SSB即2,为Y的离均差平方和。
说明未考虑X与Y的回归关系时Y的变异。
剩余平方和:
SS剩,即2,它反映X对Y的线性影响之外的一切因素对Y的变异情况。
也就是在总平方和中无法用X解释的部分,其值越小,说明直线回归的估计误差越小。
回归平方和:
SS回,即2,它反映由于X与Y的直线关系而使Y的总变异减小的部分。
也就是在总平方和中可以用X解释的部分,其值越大,说明回归效果越好。
剩余标准差:
指当X对Y的影响被扣除后,Y仍存在变异,此变异由抽样误差造成,与X无关。
用来反映Y的剩余变异。
预测:
吧预报因子(X)代入回归方程对预报量(Y)进行估计,其波动范围可按求个体Y值容许区间方法计量。
统计控制:
利用回归方程进行逆估计,要求Y在一定范围内波动,可以通过控制X的取值来实现。
决定系数:
即r2=SS回/SS总.当总平方和固定不变时,回归平方和的大小取决于r2。
秩相关:
又称等级相关,用双变量等级数据作直线相关分析,适用于1,不服从双变量正态分布而不宜作积差相关分析,2,总体分布型未知,3,用等级表示原始数据。
等级相关系数:
即rs,说明两个变量间相互关系的密切程度与相关方向,用于下列资料:
1,不服从双变量正态分布而不宜作积差相关分析,2,总体分布型未知,3,用等级表示原始数据。
假设检验:
1b,方差分析,t检验;
2界值表,t检验。
直线回归方程的应用:
1描述两变量的依存关系;
2预测;
3统计控制应用直线回归应注意的问题:
1.作回归要有实际意义。
2.回归分析前绘制散点图,观察直线趋势,修正或删除异常点。
3.直线回归方程的适用范围一般以自变量的取值范围为限。
相关和回归的区别:
1.资料要求不同:
回归要求Y服从正态分布,X可精确测量和严格控制:
相关要求双变量正态分布。
2.应用情况不同:
回归依存关系:
相关相互关系。
相关和回归的联系:
1方向一致:
r,b符号一致。
2假设检验等价:
统一样本,r,b的假设检验得到的t值相同。
3用回归解释相关。
ASS回越接近SS总,则r2越接近l,说明引入相关的效果越好。
B相关系数的大小与SS总及回归系数有关,所以相关系数不能作为回归估计精度的指标。
秩相关的应用条件:
1.不服从双变量正态分布而不宜作积差相关分析。
2.总体分布型未知。
3.用等级表示的原始数据。
第十二章常用统计表统计表:
在科技报告或论文中,常将统计资料及指标以表格列出,称为统计表。
可分为简单表和复合表。
统计图:
是用点的位置、线段的升降、直线的长短或面积的大小等形式表达统计资料,可直观反映出事物间的数量关系。
列表原则:
1重点突出,简单明了2主次分明,层次清楚,符合逻辑。
列表基本要求:
1标题2标目3线条4数字5不列备注制图基本要求:
1标题2标目3图例常用统计图统计图定义制图直条图用等宽长条的高度表示按质量分组的资料起点为0,等宽,等间距直条,按高低顺序排列。
圆图以圆面积表示事物的全部,用扇形面积表示各组成部分所占比重圆面积为100%,各构成比分别乘度,绘扇形面积,以12点为始,由大到小依次绘制。
普通线图用线段的升降表示随时间变化的趋势,用于连续性资料X,Y轴为算术尺度,相邻两点以折线连接半对数线图用线段的升降表示随时间变化的变动速度,用于连续性资料X轴为算术尺度,Y轴为对数尺度。
直方图用矩形面积表示连续性变量的频数分布。
X轴表示连续性变量的组段,Y轴表示频数或频率,尺度从0开始散点图以点的密集程度和趋势表示两种事物间的相关关系。
同线图,但相邻两点间不连接。
第十三章实验设计实验研究:
是指研究者根据研究目的主动加以干预措施,并观察总结结果,回答假设研究所提出的问题的一种研究方法。
依研究目的分为实验研究和临床试验。
实验研究设计(experimentaldesign):
是以动物或标本(如血,痰,尿等)为研究对象采取干预措施的研究。
临床试验(clinicaltrial):
从统计学角度出发,只要是以人为研究对象并采取了干预措施的研究统称为临床试验,可分为临床疗效实验和社区干预实验。
随机化原则:
即总体中的每个观察单位都有相等的机会被选入到样本中来。
随机分配(randomizedallocation):
为增强可比性,依型讲究假设的要求规定了纳入标准,将实验对象分入实验组和对照组中。
空白对照:
对照组不施加任何处理措施。
安慰剂对照:
在实验研究中,对照组使用一种外形与实验药物完全相同而毫无药理作用的物质,这种对照称为安慰剂对照。
实验对照:
对照组和实验组的处理措施区别在于:
实验组加入了有效成分,而对照组则无。
标准对照:
用公认的有效药物、现有的标准方法或常规方法做对照。
自身对照:
对照和实验措施在同一实验对象上实施。
相互对照:
几个处理(或水平)互为对照。
处理因素:
是根据研究目的而施加的特定的实验措施。
实验效应:
主要只处理因素作用于实验对象的反应,这种效应将通过实验中观察指标显示出来。
观察指标应该客观性较强,灵敏度较高。
精确性较强。
准确度(accuracy):
观察值与真值的接近程度。
精确度(precision):
重复观察时:
观察值与其平均值的接近程度。
随机对照试验(randomizedcontroltrial):
将受试对象随机分配到实验组和对照组,通过比较分析回答研究假设的问题。
随机双盲对照实验(randomizeddoubleblindcontroltrial):
在随机对照试验的基础上再采用双盲法。
配对设计(paireddesign):
将实验对象按一定条件配成对子,如将年龄、体重一致的动物配成对子。
再将每对中的两个受试对象随机分配到不同处理组。
据以配对的因素为可能影响实验结果的主要混杂因素。
系统误差:
由于受试对象,研究者,仪器设备,研究方法等非实验因素影响等确定性原因造成,有一定倾向性或规律性的误差,可以避免。
偏倚:
指在实验中由于某些非实验因素的干扰而形成的系统误差,歪曲了处理因素的真实效应。
选择性偏倚selectivebias:
由于纳入观察对象的方法不正确而产生的偏倚。
测量性偏倚measurementbias:
实验过程中对研究对象进行观察或测量而造成的偏倚。
沾染contamination:
对照组实验对象接受实验组的处理措施,提高了对照组的有效率,结果导致了实验组和对照组的差异。
干扰cointervention:
实验组从实验外接受了对实验因素有效的药物或措施(非处理措施),提高了实验的有效率,结果扩大了实验组和对照组的差异。
依从性:
compliance受试者对于干预措施及实验过程的执行程度。
非依从性noncompliance:
受试者为按照研究人员的规定方案执行称为非依从性。
失访losttofollowup:
受试者在实验过程中由于各种原因退出实验称为失访。
双盲法(doubleblindmethod):
课题主持人采取措施使研究者和研究对象均不知道接受实验措施或对照措施。
单盲法:
singleblindmethod:
只有患者不知道处理措施的内容。
三盲法:
tripleblindmethod:
主持人/研究者/患者均不知道处理措施的内容。
混杂偏倚confoundingbias:
在总结分析阶段,由某些非实验因素与实验因素同时并存的作用影响到观察的结果,造成混杂因素的偏倚。
实验设计的基本原则:
随机化、对照、重复。
对照原则的目的:
实验研究的目的是验证研究假设是否正确,只有经过比较才能鉴别其真伪,设对照组是比较的基础,没有对照很难说明研究假设是否正确;
设立对照也是控制实验过程中非实验因素的影响和偏倚的一种有力措施。
常用的对照有:
空白对照,安慰剂对照,实验对照,标准对照,自身对照,相互对照。
重复原则:
含义为1足够的样本含量;
2实验的次数。
实验设计的三要素:
处理因素、实验效应、受试对象。
确定受试对象纳入标准应注意:
1应纳入对处理因素的效应反应灵敏的患者。
2某些处理措施对一些特殊人群产生有害作用,应排除实验之外。
常用的实验设计方法:
随机对照实验,配对设计,交叉设计,配伍组设计。
随机对照试验有点(随机化的目的)1有效避免非实验因素的影响,使实验因素充分显示2增强各比较组间的可比性,使研究结论更可靠。
3更好地控制非实验因素对实验因素的影响,有效地控制了偏倚和误差。
4满足了随机化原则,使检验结果反映真实差异。
交叉设计的优点:
1节约样本含量2能控制时间因素及个体差异对处理因素方式的影响3从医德观点出发,均等考虑每个患者的利益。
交叉设计的注意事项:
1前提是两种处理方式不能相互影响。
2不适用于病程较短急性病效果的研究3应尽可能采用盲法。
确定样本含量的意义:
正确确定样本含量是实验设计的一个重要组成部分,估计样本含量应克服两种倾向:
1片面追求增大样品含量导致人力、物力和时间的浪费,还可能引入更多的混杂因素。
2样本含量偏少,检验效能偏低,导致总体本来存在的差异未能检出,导致非真实的阴性结果。
样本含量大小还受个体差异和研究实验要求的精神有关。
阅读专业文献时,对假设检验阴性结果有必要复核样本含量和检验效能是否偏低。
以正确分析假设检验的结论。
第X章2检验2test(Chi-squaretest)2是一种用途较广的假设性检验方法,可用于推断两个及多个总体率或总体构成比之间有无差别,两种属性或两个变量之间有无关联性,以及频数分布的拟合优度检验等。
2检验的基本思想:
2值是以理论数为基数的相对误差,它反映了实际数与理论数吻合的程度(差别的程度)。
若检验假设成立,则实际数与理论数的差别不会很大,出现大的2值的概率p是很小的,若P检验水准,就怀疑假设,因而拒绝它,若P,则无理由拒绝它。
理论数的计算:
Tic=,Ti,r第i行第c列的理论数,ni为Tic所在的行合计,nc为Tic所在的列合计:
n为总例数。
2检验的基本公式:
2=
(1)2检验的校正公式:
2=
(2)四表格专用公式四表格专用公式:
2=(3)校正公式2=(4)四格表2检验的条件:
1当n40且所有的T5时,用普通的2检验(公式1,3),若所得P,改用确切的概率法。
2当n40但又1T5,用校正的2检验(公式2,4)。
3当n40或有T1时,不能用2检验,改用确切概率法。
配对四格表资料的2检验:
2=,v=1(b+c40时使用)校正公式2=,v=1(b+c40时使用)行X列表的2检验公式2=n()无校正公式行X列表的2检验的注意事项:
1不能有理论数T1,并且1T5的格子数不超过总格子数的1/5.2当检验有统计学意义(拒绝H0)时,只能认为各总体率或构成比之间总的来说有差别,但不能说明它们彼此之间都有差别,或某两者之间有差别。
若要进一步解决此问题,可用2分割法。
3若表格有一个方向按多个等级分类,则称单向有序行列表,当等级数大于3时,一般用秩和检验分析更为适宜。
四格表的确切概率法的应用条件:
1,四格表内理论频数T12,样本含量n403,2检验后所得概率P接近检验水准。
试题:
一、名词解释:
1,coefficient(相关系数):
又称积差相关系数(product-momentcorrelation),是说明具有直线关系的两个变量间,相互关系的密切程度与相关方向的指标。
2,proportion(构成比):
又称构成指标。
说明某一事物内部的各组成部分所占的比重或分布,计算公式为:
某一组分的观察单位数除以同一事物各组分的观察单位总数*100%,表示方法有百分数等。
3,coefficientofvariation(变异系数):
常记为CV。
它被定义为标准差与算术平均数之比。
即CV=S/100%。
它描述了相对于算术均数而言。
标准差的大小,即描述数据的变异相对于其平均水平来说是大还是小。
4,population(总体):
5,standarderrorSE(标准误):
样本均数的标准差也称均数的标准误(standarderrorofmean)它反映了样本均数间的离散程度,也反映了样本均数与总体均数间的差异,说明均数抽样误差的大小。
6,incidencerate(发病率):
表示一定时期内,在可能发生某病的一定人群中新发生的某病例数。
其计算公式为:
某病发病率=该期间新发生的某病例数/一定期间内可能发生某病的平均人口数100%7,Chi-square(2值)是以理论数为基数的相对误差,它反映了实际数与理论数吻合的程度(差别的程度)。
8,Chi-squaretest(2检验):
是一种用途较广的假设检验方法,即推断两个及多个总体构成比之间有无差别,两种属性或两个变量之间有无关联性,以及频数分布的拟合优度检验等。
9,Normaldistribution(正态分布):
若X的频数曲线应用于数学上的正态分布曲线(曲线呈钟型,两头低中间高,左右对称),则称该指标服从正态分布。
10,Mortalityrate(死亡率):
指某地某年平均每千人口中的死亡数,它反映居民总的死亡水平。
死亡率=某人群某年(因某病)总死亡人数/该人群同年平均人口1000简单题1:
应用相对数应该注意什么?
计算相对数的分母一般不宜过小;
分析是不能以构成比代替率,应当注意不能用构成比的动态分析代替率的动态分析;
对观察单位不等的几个率,不能直接相加求其总率,在比较相对数时应注意可比性;
对样本率(构成比)的比较应随机抽样,并做假设检验。
2,方差分析的基本思想?
根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个或几个因素的作用加以解释,通过比较不同变异来源地均方,借助F分布做出统计推断,从而了解该因素对观测指标有无影响。
F值远大于1,表示各组均数间差别有显着性,F值远小于1,表示各组均数间差别无显着性,可查F界表确定P.3,相关和回归的区别和联系?
直线回归与相关的区别1资料要求不同:
说明两变量间依存变化的数量关系用回归,说明变量间的相关关系用相关3,意义不同:
-1=r=1;
b负无穷到正无穷大。
5单位不同,回归系数b有