统计学术语.docx

资源描述

统计学术语.docx

《统计学术语.docx》由会员分享，可在线阅读，更多相关《统计学术语.docx（25页珍藏版）》请在冰豆网上搜索。

统计学术语.docx

统计学术语

总体、样本、随机性、偏差与代表性

关于选举结果的预测研究我们都很熟悉。

在研究过程中，向所有有选举

权的人寻问“你想投谁的票”这样的问题是不实际的（尽管是有可能的）。

那

么我们就可以假设所有有选举权的人为我们感兴趣的总体，事实上我们只需

要从总体中随机抽出一部分样本（只占总体的较小比例）。

我们之所以一定要

要求随机抽选样本，是为了减少偏差，使偏差不会影响研究的结果。

换句话

说，即要保证随机抽选的样本，对所有有选举权的人组成的总体具有代表性。

个相反的典型例子是：

在预测1948年美国总统大选结果时，由于选取了不具

有代表性的样本，导致偏差增大，致使预测失败。

实际上，在那次大选中，

真正当选的是杜鲁门，而预测的却是戴维。

检验的有效性和可靠性

检验的有效性是指对所要研究的变量能准确地加以度量；检验的可靠性

是指在多次检验中，同样的结果能反复出现。

而有的时候，检验的结果可能

无效并且不可靠。

更危险的情况却是结果表明出可靠性，但实际上却是无效

的。

例如，由于社会文化等方向的影响，一些研究人员设计出对妇女地位不

公平的问卷，即使某项关于妇女的调查结果反复出现（表现出其可靠性），但

它却是无效的，因为从一开始它就有偏差，无法做到准确度量。

本章中所列举的检验方法，有助于我们分析数据并得出结论。

这些检验

都有量化的标准，如t值用于t一检验（t—test），F用于变化。

一般数理统

计书后都附有统计检验值表。

用计算结果和检验值进行比较，可以得到有用

的结论。

例如，我们可能会得出结论说，所检验的某种关系非常强或者很显

著，这个结果在某种程度上证实了我们的假设。

但是，检验的结果落在什么范围内才算是可靠的呢？

换句专业术语说就

是：

误差界限或置信区间是什么？

误差界限和置信区间通常用概率值来表

示，有三种形式：

P≤0.01，表明某结果出现的可能性不少于99％，其误差不超过1％；

P≤0.05，表明出现某结果的可能性不少于95％，其误差不会1超过5

％；

P≤0.1，表明出现某结果的可能性不少于90％，其误差不会超过10。

选择哪种置信区间要视情况而定。

例如，对探索性研究和关键性、决定

性的研究，可能选取不同的置信区间。

如果实际一些的话，前者用P≤0.05；

后者用P≤0.01。

（如果我们想提高置信度、降低误差限，就必须抽取较大的

样本，而这样做很可能会既不经济又费时间）。

相反，如果你是一个挑剔的消

费者，去小贩那里买东西，你所选择的置信区间，就要用P≤0.01，而不是

用P≤0.05了。

因为前者更符合你挑剔的目的。

频率分布

在进行数据分析时，我们感兴趣的是数据（观察值）集中或者离散、相似

或者差异的程度。

数据的波动程度是指数据的离散度，可以用图形来表示，

即图形分布。

图形分布大致可分为三类：

（1）对称分布（正态分布）

对称分布的图形如钟形（见图6—1）。

大多数观察值落在图形的中部，其

他的均匀分布在两边。

例如人的身材，过于矮小和过于高大的人，在整个人

群中所占的比例极小；较为矮小和较高大的人占较大的比例；而中等身材的

人占最大的比例。

所以，我们说，人的身材的比例分布基本上属于对称分布。

（2）偏斜分布

偏斜分布的图形如图6—2所示。

它是指大多数观察值分布在一边（或说

聚集在一边），而较少数处于另一边。

它又有两种形态：

一种是如图6—2

（a）所示的向下偏斜；另一种是图6—2（b）所示的向上偏斜。

例如，假定

两个群均以图6—2的横轴代表收入水平，收入水平从低到高排列，假设两群

体中所拿最低收入相同，最高收入也相同。

纵轴代表拿某种收入人数的话，

那么就可以看出，图6—2（b）所代表的群体；比 6—2（a）所代表的群体要富

裕。

（3）双峰分布

这种图形的形状像驼峰，见图6—3。

它表明观察值形成为两个集中区

域。

例如某班级考试的成绩，得较低分数和较高分数的人都较多，只有少数

人得中等分数，所以形成双峰分布。

一、常用的统计术语

　　统计学中常用的概念有总体与样本、随机化与概率、计量与计数、等级资料及正态与偏态分布资料、标准差与标准误等。

如某研究采用经会阴途径测定宫颈长度,以探讨不同宫颈长度与临产时间的关系。

结果显示35例宫颈长度为25～34mm者与32例宫颈长为15～24mm者临产时间的均值±标准差（x±s）各为57.6±58.1与47.3±49.1小时。

该计量资料,经t检验显示t=0.780,P>0.05,并未提示不同宫颈长度的临产时间差异有显著意义;从标准差大于均值,显示各变量值离散程度大,呈偏态分布,故不能采用x±s这一算术均数法计算均数。

经偏态转换成近似正态分布资料后结果是:

35例与32例的临产时间各为34.5±4.1与26.7±4.1小时,（t=7.778,P<0.001）,两组差异有极显著意义。

可认为随着宫颈长度的缩短、临产时间也缩短。

此外,当两组资料单位不同时,其S单位也不同;即使两组单位相同的变量值,若其均数差异较大,也都应以变异系数替代s来比较两组值的离散度的大小。

　　二、正常值范围及异常阈值的确定

　　如何选择研究对象,至少需多少例,正确统计处理和参考一定数量的病例数据,是确定正常值范围及异常阈值的四个重要因素。

　　1.研究对象:

应为“完全健康者”,可包括患有不影响待测指标疾病的患者。

如“正常妊娠”的条件:

孕前月经周期规则、单胎、妊娠过程顺利、无产科并发症及其它有关合并症,分娩孕周为37～41周+6,新生儿出生体重为2500～4000g和Apgar评分≥7分。

　　2.观察数量:

观察数量应尽可能多于100例;需分组者,各组人数也是如此（标本来源困难时酌情减少）。

有些指标值如雌三醇（E3）、甲胎蛋白（AFP）、胎盘泌乳素（HPL）等随孕周进展而变化,应按孕周分组;邻近孕周均数相近者,可合并几周计算。

若为偏态分布,应以百分位数计算,则例数应≥120例。

取各孕周对象时,应考虑到所取各孕周中的例数分布大致均衡。

显然,文稿中往往以少量例数求得正常值是欠可靠的。

　　3.统计处理:

应根据所得数据分布特征采用不同的统计处理方法。

属正态或近似正态分布的数据,可采用x±s法计算;这也适用于以一定方法能将非正态分布转换成正态或近似正态分布的资料。

对无法转换的偏态资料,应采用百分位数计算法。

具体计算（包括上下限初步制定）见文献。

　　4.对照数量:

相应观察的病例数（包括分组）应不少于30例,这对制定某指标有临床意义的异常阈值尤其重要,这一点往往易被忽视。

如在参考较多病例数据后,唾液游离E3的下限异常阈值应为第2.5百分位数,而非通常采用的5百分位数。

否则,将会导致该指标产前监护的假阳性率增加。

　　三、 t检验与校正t检验（t′检验）

　　这是文稿中极易混淆的一类计量资料统计问题。

（一）检验的注意事项

　　1.t检验的意义:

t检验与所有统计分析相同,其结果提示现有差别不仅仅是抽样误差所致,且提示犯第一类错误的可能性大小,即t0.05与t0.01犯第一类错误的可能性各为5%与1%。

　　2.统计意义与临床意义的关系:

统计学有显著意义,而在临床上可能是无意义的,提示该研究应继续深入,以明确该差异是否真有显著意义;相反,统计无显著意义,而临床上却是有意义的,不能贸然轻易地下结论。

应复查实验设计、方法、试剂及仪器性能、质控措施和实验数据等是否有问题,或尚需再进一步增加样本量进行复测等。

　　3.t检验适用范围:

t检验仅适用于正态或近似正态分布（包括偏态转换）和其方差是齐性资料的检验;t检验适用于可比性资料,即除了欲比较的因素外,其它所有可影响的因素应相似。

　　4.t检验的结果判断:

判断结果不应绝对化,P<或>0.05,分别表示可拒绝或接受原定的假设,但两者都有5%的可能性犯第一类错误;而P值越小,只能是更有理由拒绝原定的假设。

　　5.单侧与双侧检验:

应预先制定本研究的结果是需行双侧还是单侧检验。

对有把握确知某治疗措施或某指标是不会劣于现有的,才作单侧检验;若不知何者为优,应行双侧检验。

因为在同一t值的界限上,单侧检验的概率（P）仅为后者的一半,也就是说单侧检验较双侧检验更易得出差别有统计意义的结论,不可随意制定。

一般讲,绝大多数研究以采用双侧检验为妥。

（二）t′检验与t检验的区别

　　当两样本均数的方差非齐性时,应以t′替代t检验。

例如:

甲组32例血清某指标值为53.9±49.6（μmol/L）;乙组6例的结果为26.6±7.2（μmol/L）,若不考虑两样本方差大小,t检验示t=1.331,P>0.05,提示两组血清该指标的平均含量差异无显著意义。

但先作方差齐性检验,F=47.4,P<0.01,示这两样本方差差异有极显著意义。

据此应采用t′检验,t′=2.952>t′0.012.875,P<0.01。

显然,与上述结论恰恰相反。

论文撰写中常见的统计学问题及其处理来自:

免费论文网

　　四、卡方（χ2）、校正χ2与直接概率法（或精确法）检验

　　这三种检验方法为一类用途较广、但也易混淆的、适用于计数资料检验的方法。

应注意,鉴于总数与理论值的不同,应采用相适合的检验方法。

　　例1.192例出生体重≥4000g的新生儿发生难产与窒息数分别为151例与22例;3475例出生体重≥3500～4000g的新生儿发生难产与窒息数分别为185与265例;2451例出生体重≥2500～3500g的新生儿发生难产与窒息数分别为122与169例。

3组的构成比:

难产与新生儿窒息率分别为:

78.6%、5.3%、5.0%与11.4%、7.6%、6.9%。

据此贸然认为出生体重≥2500～3500g为最佳新生儿分娩体重的结论是不可靠的。

经χ2分析,后两组的难产与窒息率间和前两组窒息率间差异均无显著意义（P均>0.05）。

故可认为,单据本研究结果是难以得出上述临床上认可的结论的。

这涉及到上述“统计无显著意义,而临床却是有意义”的问题,应进一步复查或增加样本测试。

杜绝单纯根据百分率的大小贸然下结论。

　　例2.某药治疗感染衣原体（CT）的中、晚期孕妇各11例和36例,她们的新生儿感染CT数各为3例和23例。

χ2检验得χ2=4.570,P<0.05。

据此误认为,某药治疗中孕期感染CT孕妇的新生儿感染CT数少于晚孕期才开始治疗的新生儿感染数。

根据统计原则,其中一个数的理论值为4.9（<5）时,应采用校正χ2计算,得χ2=3.209,P>0.05。

显然,正确结论恰与上述相异。

　　例3.以精确法替代χ2检验。

某新技术测试8例卵巢内胚窦瘤患者,5例呈阳性反应;测试25例卵巢颗粒细胞瘤患者中6例阳性。

χ2检验得χ2=4.042,P<0.05。

误认为该新技术测前组的阳性率高于后组。

但鉴于总例数33例（<40）,且其中一个数的理论值为2.7（<5）,故应改用精确法检验,结果首次计算P值,已达0.102,>双侧检验的有显著性意义的界限0.025,故P>0.05。

结论也恰相反。

　　五、相关与回归分析

　　相关分析只是以相关系数（r）来表示两个变量间直线关系的密切程度和相关方面的统计指标。

无论是正相关（r为正值）或负相关（r为负值）,只是经相关系数的统计意义检验（如t检验）后,当P<0.05时,即示差异有显著意义时,才能依据|r|值的大小来说明两变量间相关的密切程度。

因此,表示相关性,除写出r值外,应注明P值;切不可将相关的显著性误解为相关程度;也应注意:

相关分析是不能单纯用于阐明两事物或现象间存在着本质的联系,即使两变量间存在高度相关关系（即有一定的统计联系）,也不能证明它们间存在着因果关系。

如欲证明两事物间的内在联系,必需凭借专业知识从理论上加以阐明。

　　“相关”是表示两个变量间相互关系的密切程度,而回归分析是提示两个变量间的从属关系。

在回归分析中,应注意由X变量值推算Y,与以Y变量值推算X的回归线是不一样的;直线回归方程的适用范围,一般仅适合于自变量X原测数据的范围,故绘制回归线时,X值切不能超越实测值的范围而任意延长。

可见,这两种分析,说明的问题是不同的,但相互又有联系。

在作回归分析时,一般先作相关分析,只有在相关分析有统计意义（即回归有统计意义）的前提下,求回归方程和回归线才有实际意义。

决不能把毫无实际意义的两个事物或两种现象进行相关与回归分析。

　　六、数据的正确书写

　　1.文稿内各数据的书写必须前后一致;总数应等于各分组的数据之和。

　　2.对不同指标,有其不同数据精度的要求,这应结合专业知识加以判断。

如新生儿出生体重是以公斤为单位,　记录测定数据精确到小数点后的第二位数字即可。

　　3.测定数据的书写,不能超越其测量仪器测试的精确度范围。

　　4.同一指标的前后数据应保持同一精确度。

　　5.经计算,出现比预定小数点后两位数多的数字,应采取“≤4舍、≥6入”与“5‘奇’进‘偶’出”方法,以决定小数点后第三位数字是“舍”还是“入”,即5前为单数则入,双数则舍。

　　6.未经统计检验,文稿内不宜出现推断性的比较结果的结论。

如“××结果的百分率高或低于××结果的百分率”、“本文结果较××报道的多或少或类似”等结论。

这在综述类文章撰写过程中也需注意;欲予以比较,也应注意两者的可比性。

　　上述是统计学中较为基础的概念,但又是文稿中常见的、较易出现差错的内容。

因此可以认为,统计学是医护人员必需掌握并能熟练应用的一门重要知识;藉此,可不断地从自身和他人的研究中获取更多、更新和更可靠的专业信息。

Absolutedeviation,绝对离差

Absolutenumber,绝对数

Absoluteresiduals,绝对残差

Accelerationarray,加速度立体阵

Accelerationinanarbitrarydirection,任意方向上的加速度

Accelerationnormal,法向加速度

Accelerationspacedimension,加速度空间的维数

Accelerationtangential,切向加速度

Accelerationvector,加速度向量

Acceptablehypothesis,可接受假设

Accumulation,累积

Accuracy,准确度

Actualfrequency,实际频数

Adaptiveestimator,自适应估计量

Addition,相加

Additiontheorem,加法定理

AdditiveNoise,加性噪声

Additivity,可加性

Adjustedrate,调整率

Adjustedvalue,校正值

Admissibleerror,容许误差

Aggregation,聚集性

Alphafactoring,α因子法

Alternativehypothesis,备择假设

Amonggroups,组间

Amounts,总量

Analysisofcorrelation,相关分析

Analysisofcovariance,协方差分析

AnalysisOfEffects,效应分析

AnalysisOfVariance,方差分析

Analysisofregression,回归分析

Analysisoftimeseries,时间序列分析

Analysisofvariance,方差分析

Angulartransformation,角转换

ANOVA（analysisofvariance）,方差分析

ANOVAModels,方差分析模型

ANOVAtableandeta,分组计算方差分析

Arcing,弧/弧旋

Arcsinetransformation,反正弦变换

Area区域图

Areaunderthecurve,曲线面积

AREG,评估从一个时间点到下一个时间点回归相关时的误差

ARIMA,季节和非季节性单变量模型的极大似然估计

Arithmeticgridpaper,算术格纸

Arithmeticmean,算术平均数

Arrheniusrelation,艾恩尼斯关系

Assessingfit,拟合的评估

Associativelaws,结合律

Asymmetricdistribution,非对称分布

Asymptoticbias,渐近偏倚

Asymptoticefficiency,渐近效率

Asymptoticvariance,渐近方差

Attributablerisk,归因危险度

Attributedata,属性资料

Attribution,属性

Autocorrelation,自相关

Autocorrelationofresiduals,残差的自相关

Average,平均数

Averageconfidenceintervallength,平均置信区间长度

Averagegrowthrate,平均增长率

Barchart,条形图

Bargraph,条形图

Baseperiod,基期

Bayes'theorem,Bayes定理

Bell-shapedcurve,钟形曲线

Bernoullidistribution,伯努力分布

Best-trimestimator,最好切尾估计量

Bias,偏性

Binarylogisticregression,二元逻辑斯蒂回归

Binomialdistribution,二项分布

Bisquare,双平方

BivariateCorrelate,二变量相关

Bivariatenormaldistribution,双变量正态分布

Bivariatenormalpopulation,双变量正态总体

Biweightinterval,双权区间

BiweightM-estimator,双权M估计量

Block,区组/配伍组

BMDP（Biomedicalcomputerprograms）,BMDP统计软件包

Boxplots,箱线图/箱尾图

Breakdownbound,崩溃界/崩溃点

Canonicalcorrelation,典型相关

Caption,纵标目

Case-controlstudy,病例对照研究

Categorical　variable,分类变量

Catenary,悬链线

Cauchydistribution,柯西分布

Cause-and-effectrelationship,因果关系

Cell,单元

Censoring,终检

Centerofsymmetry,对称中心

Centeringandscaling,中心化和定标

Central　tendency,集中趋势

Centralvalue,中心值

CHAID-χ2AutomaticInteractionDetector,卡方自动交互检测

Chance,机遇

Chanceerror,随机误差

Chancevariable,随机变量

Characteristicequation,特征方程

Characteristicroot,特征根

Characteristicvector,特征向量

Chebshevcriterionoffit,拟合的切比雪夫准则

Chernofffaces,切尔诺夫脸谱图

Chi-squaretest,卡方检验/χ2检验

Choleskeydecomposition,乔洛斯基分解

Circlechart,圆图

Classinterval,组距

Classmid-value,组中值

Classupperlimit,组上限

Classifiedvariable,分类变量

Clusteranalysis,聚类分析

Clustersampling,整群抽样

Code,代码

Codeddata,编码数据

Coding,编码

Coefficientofcontingency,列联系数

Coefficientofdetermination,决定系数

Coefficientofmultiplecorrelation,多重相关系数

Coefficientofpartialcorrelation,偏相关系数

Coefficientofproduction-momentcorrelation,积差相关系数

Coefficientofrankcorrelation,等级相关系数

Coefficientofregression,回归系数

Coefficientofskewness,偏度系数

Coefficientofvariation,变异系数

Cohortstudy,队列研究

Collinearity,共线性

Column,列

Columneffect,列效应

Columnfactor,列因素

Combinationpool,合并

Combinativetable,组合表

Commonfactor,共性因子

Commonregressioncoefficient,公共回归系数

Commonvalue,共同值

展开阅读全文