医学统计学知识点梳理.docx

资源描述

医学统计学知识点梳理.docx

《医学统计学知识点梳理.docx》由会员分享，可在线阅读，更多相关《医学统计学知识点梳理.docx（15页珍藏版）》请在冰豆网上搜索。

医学统计学知识点梳理.docx

医学统计学知识点梳理

Revisedasof23November2020

医学统计学知识点梳理

医学统计学:

是用统计学原理和方法研究生物医学问题的一门学科。

他包括了研究设计、数据收集、整理、分析以及分析结果的正确解释和表达。

统计描述：

用统计指标、统计图表对资料的数量特征及分布规律进行客观的描述和表达。

统计推断：

在一定的置信度和概率保证下，用样本信息推断总体特征：

①参数估计：

用样本的指标去推断总体相应的指标

②假设检验：

由样本的差异推断总体之间是否可能存在的差异

同质：

一个总体中有许多个体，他们之所以共同成为人们研究的对象，必定存在共性，我们说一些个体处于同一总体，就是指他们大同小异，具有同质性。

总体（population）是根据研究目的确定的同质的观察单位的全体，更确切的说，是同质的所有观察单位某种观察值（变量值）的集合。

总体可分为有限总体和无限总体。

总体中的所有单位都能够标识者为有限总体，反之为无限总体。

样本：

从总体中随机抽取部分观察单位，其测量结果的集合称为样本（sample）。

样本应具有代表性。

所谓有代表性的样本，是指用随机抽样方法获得的样本。

随机抽样：

随机抽样（randomsampling）是指按照随机化的原则（总体中每一个观察单位都有同等的机会被选入到样本中），从总体中抽取部分观察单位的过程。

随机抽样是样本具有代表性的保证。

变异：

在自然状态下，个体间测量结果的差异称为变异（variation）。

变异是生物医学研究领域普遍存在的现象。

严格的说，在自然状态下，任何两个患者或研究群体间都存在差异，其表现为各种生理测量值的参差不齐。

（1）计量资料：

对每个观察单位用定量的方法测定某项指标量的大小，所得的资料称为计量资料（measurementdata）。

计量资料亦称定量资料、测量资料。

.其变量值是定量的，表现为数值大小，一般有度量衡单位。

（2）计数资料：

将观察单位按某种属性或类别分组，所得的观察单位数称为计数资料（countdata）。

计数资料亦称定性资料或分类资料。

其观察值是定性的，表现为互不相容的类别或属性。

（3）等级资料：

将观察单位按测量结果的某种属性的不同程度分组，所得各组的观察单位数，称为等级资料（ordinaldata）。

概率：

概率（probability）又称几率，是度量某一随机事件A发生可能性大小的一个数值，记为P（A），P（A）越大，说明A事件发生的可能性越大。

0﹤P（A）﹤1。

频率：

在相同的条件下，独立重复做n次试验，事件A出现了m次，则比值m/n称为随机事件A在n次试验中出现的频率（freqency）。

当试验重复很多次时P（A）=m/n。

随机误差（randomerror）又称偶然误差，是指排除了系统误差后尚存的误差。

它受多种因素的影响，使观察值不按方向性和系统性而随机的变化。

误差变量一般服从正态分布。

随机误差可以通过统计处理来估计。

抽样误差（samplingerror）是指样本统计量与总体参数的差别。

在总体确定的情况下，总体参数是固定的常数，统计量是在总体参数附近波动的随机变量。

系统误差：

系统误差（systematicerror）是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因，使观察值不是分散在真值的两侧，而是有方向性、系统性或周期性地偏离真值。

系统误差可以通过实验设计和完善技术措施来消除或使之减少。

随机变量：

随机变量（randomvariable）是指取指不能事先确定的观察结果。

随机变量的具体内容虽然是各式各样的，但共同的特点是不能用一个常数来表示，而且，理论上讲，每个变量的取值服从特定的概率分布。

参数：

参数（paramater）是指总体的统计指标，如总体均数、总体率等。

总体参数是固定的常数。

多数情况下，总体参数是不易知道的，但可通过随机抽样抽取有代表性的样本，用算得的样本统计量估计未知的总体参数。

统计量：

统计量（statistic）是指样本的统计指标，如样本均数、样本率等。

样本统计量可用来估计总体参数。

总体参数是固定的常数，统计量是在总体参数附近波动的随机变量。

频数表（frequencytable）用来表示一批数据各观察值或在不同取值区间的出现的频繁程度（频数）。

算术均数（arithmeticmean）描述一组数据在数量上的平均水平。

总体均数用μ表示，样本均数用X表示。

几何均数（geometricmean）用以描述对数正态分布或数据呈倍数变化资料的水平。

记为G。

中位数（median）Md将一组观察值由小到大排列，n为奇数时取位次居中的变量值；为偶数时，取位次居中的两个变量的平均值。

反映一批观察值在位次上的平均水平。

极差（range）亦称全距，即最大值与最小值之差，用于资料的粗略分析，其计算简便但稳定性较差。

百分位数（percentile）是将n个观察值从小到大依次排列，再把它们的位次依次转化为百分位。

百分位数的另一个重要用途是确定医学参考值范围。

四分位数间距（inter-quartilerange）是由第3四分位数和第1四分位数相减计算而得，常与中位数一起使用，描述偏态分布资料的分布特征，较极差稳定。

方差（variance）：

方差表示一组数据的平均离散情况，由离均差的平方和除以样本个数得到。

标准差（standarddeviation）是方差的正平方根，使用的量纲与原量纲相同，适用于近似正态分布的资料，大样本、小样本均可，最为常用。

变异系数（coefficientofvariation）用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。

用CV表示。

计算：

标准差/均数*100%

统计推断：

通过样本指标来说明总体特征，这种从样本获取有关总体信息的过程称为统计推断（statisticalinference）。

抽样误差：

由个体变异产生的，抽样造成的样本统计量与总体参数的差异，称为抽样误差（samplingerror）。

标准误及Xs：

通常将样本统计量的标准差称为标准误（standarderrorofmean，SEM），它反映了样本均数间的离散程度，也反映了样本均数与总体均数的差异，说明均数抽样误差的大小。

可信区间：

按预先给定的概率确定的包含未知总体参数的可能范围。

该范围称为总体参数的可信区间（confidenceinterval，CI）。

参数估计：

指用样本指标值（统计量）估计总体指标值（参数）。

假设检验中P的含义：

指从H0规定的总体随机抽得等于及大于（或等于及小于）现有样本获得的检验统计量值的概率。

型错误（typeIerror），指拒绝了实际上成立的H0，这类“弃真”的错误称为I型错误，其概率大小用α表示。

II?

型错误（typeIIerror），指接受了实际上不成立的H0，这类“存伪”的误称为II型错误，其概率大小用β表示。

检验效能：

1-β称为检验效能（poweroftest），它是指当两总体确有差别，按规定的检验水准a所能发现该差异的能力。

率（rate）又称频率指标，说明一定时期内某现象发生的频率或强度。

计算公式为：

发生某现象的观察单位数/可能发生某现象的观察单位总数*100%，表示方式有：

百分率（%）、千分率（‰）等。

构成比（proportion）又称构成指标，说明某一事物内部各组成部分所占的比重或分布。

计算公式为：

某一组成部分的观察单位数/同一事物各组成部分的观察单位总数*100%，表示方式有：

百分数等。

比（ratio）又称相对比，是A、B两个有关指标之比，说明A是B的若干倍或百分之几。

计算公式为：

A/B，表示方式有：

倍数或分数等。

非参数统计：

针对某些资料的总体分布难以用某种函数式来表达，或者资料的总体分布的函数式是未知的，只知道总体分布是连续型的或离散型的，用于解决这类问题的一种不依赖总体分布的具体形式的统计分析方法。

参数统计：

通常要求样本来自总体分布型是已知的（如正态分布），在这种假设的基础上，对总体参数（如总体均数）进行估计和检验，称为参数统计（parametricstatistics）

秩次：

变量值按照从小到大顺序所编的秩序号称为秩次（rank）。

秩和：

各组秩次的合计称为秩和（ranksum），是非参数检验的基本统计量。

直线回归（linearregression）建立一个描述应变量依自变量变化而变化的直线方程，并要求各点与该直线纵向距离的平方和为最小。

直线回归是回归分析中最基本、最简单的一种，故又称简单回归（simpleregression）。

回归系数（regressioncoefficient）即直线的斜率（slope），在直线回归方程中用b表示，b的统计意义为X每增（减）一个单位时，Y平均改变b个单位。