中医药统计学与软件应用笔记重点Word文档下载推荐.docx
《中医药统计学与软件应用笔记重点Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《中医药统计学与软件应用笔记重点Word文档下载推荐.docx(61页珍藏版)》请在冰豆网上搜索。
例①河北省18岁男性的身高和体重分布②某性红地2005年健康成年男细胞数
③河北省18岁身高在170-175cm男性的体重分布
⑴有限总体:
指总体限定于特定的空间、时间范围内有限个观察单位。
⑵无限总体:
指没有空间和时间范围限制的总体。
:
从总体中随机抽取的有代表性的一部分观察单位的集合。
(sample)样本.2.
样本的可靠性:
指总体确定后,样本中的每一个观察单位确属预先规定的同质总体。
样本的代表性:
即样本能够充分反映总体的真实情况。
3.随机(random):
即在抽样、分组、安排试验顺序时,让总体中每个受试者或观察单位都有同等的机会被抽中、被分配或被安排,而不受研究者的主观意愿驱使。
不能将随机理解为随便。
4.事件(event):
指事物发生某种情况或在调查、观察和实验中获得的某种结果。
⑴确定性事件是可预言在一定条件下必然发生的事件,发生的概率为1。
⑵随机事件:
指一定条件下可能发生也可能不发生的不确定性事件,发生的概率介于0~1之间。
⑶模糊事件:
事物本身的含义不确定的现象。
5.频率(frequency):
对于随机事件A,在相同的条件下进行了n次实验,事件A发生的次数为m,比值m/n为频率,记为fn(A);
概率(probability):
描述某随机事件A发生的可能性大小,统计符号为P,0≤P≤1,记为P(A)。
当n→∝时,频率fn(A)→概率P(A)。
小概率事件:
表示某事件发生的可能性很小,在医学研究中,习惯上把P≤0.05或P≤0.01的事件称为小概率事件。
6.变异(variation):
总体中各个体之间的差异性。
同质是相对的,研究对象只是在某一方面是性质相同的,同类的观察对象之间往往也存在着变异。
变异是绝对的、客观存在的。
7.误差(error):
指测量值与真值之差。
⑴过失误差:
也叫粗差。
观测者粗心大意造成的误差。
⑵系统误差:
由于仪器未校准、试剂未标定、观测标准未统一等固定原因造成的误差。
⑶测量误差:
由事先难于预料的实验或观察条件的随机波动造成的误差。
⑷抽样误差:
由抽样引起的样本指标(统计量)与总体指标(参数)的差别。
8.统计量(statistical):
是反映样本特征的统计指标。
统计符号为小写的英文字母。
如样本均数、样本标准差s、样本率p等。
x(parameter):
是描述总体特征的统计指标。
9.参数等。
如总体均数μ、总体标准差σ、总体率π统计符号为小写的希腊字母。
10.统计资料的类型。
根据研究目的,对研究对象的某些特征进行观测,将这些观测指标或项目称为变量。
构成了统计数据或统计资料变量值变量的具体数值()统计资料分为两类:
(numericalvariable):
亦称定量资料。
是指对每个观察单位用计量方法测得某项⑴值变量数值大小所获得的资料。
特点为其变量值大多有度量衡单位,其具体取值通常是正实数(零、正整数和小数)。
如身高1.75m、体重68kg、血压9.6kPa、血糖6.8mmol/L。
⑵分类变量(categoricalvariable):
又称定性资料。
指对每个观察单位按某一方面的特征、性质或等级分组计数而得到的资料。
特点是变量值表现为互不相容的属性或类别,无度量衡单位。
分类变量又可分为两类:
①序分类变量:
又称为名义资料。
具体取值通常是具有某种属性或特征的个数。
特点是可在非数字中取值,各类之间具有性质上的差异。
可分为二分变量和多分变量。
二分变量是按互不相容的属性分成两类的资料。
多分变量是按某种属性或特征分成两类以上的资料。
②序分类变量:
亦称等级资料或半定量资料。
具体取值也是具有某种属性或特征的个数,
但不同取值之间有半定量的关系。
特点是其各类别间有等级、程度或量的差异,即可按数量的相对大小或程度的高低排出顺序。
四、学习中医统计学的目的
1.顺应中医药学的发展趋势。
2.强化中医科研的计划性和科学性。
3.拓宽研究思路。
4.学会正确地运用统计方法和合理地解释统计结果。
五、学习中医统计学的注意事项
1.理解和领会基本概念和原理,切忌死记硬背。
2.不追究公式的来源和推导,但要掌握其应用条件。
3.重视分析问题和解决问题能力的培养。
4.学会使用统计软件。
数值变量资料的统计描述
统计描述——概念:
即利用原始数据,选择适宜的统计指标及统计图表,简明准确地探察数据的分布类型和数量特征的基本统计方法。
目的:
是根据样本中所包含的信息,客观、正确地推论出其总体规律。
第一节频数分布
频数:
相同观察值或观察结果出现的次数。
分布:
指随着随机变量取值的变化,其相应的概率变化的规律性。
频数分布:
观察值(变量值)按大小分组,各个组段内观察值个数(频数)的分布,是了解数据分布形态特征与规律的基础。
一、频数分布的特征
1.集中趋势:
指一组变量值的集中倾向或中心位置。
即一组变量值的离散倾向。
离散趋势:
2.
二、频数分布的类型
1.对称分布:
指集中位置居中、左右两侧的2.非对称分布:
亦称偏态分布,是集中位置
频数分布基本对称的频数分布。
偏倚、两侧频数的分布不对分为正态分布和非正态分布两称的频数分布,可分为正
种类型。
偏态和负偏态分布。
三、频数分布表/图的作用
1.直观地揭示数据的分布类型和特征。
2.便于发现资料中某些远离群体的特大或特小的可疑值。
3.描述频数分布的集中趋势与离散趋势。
4.便于进一步计算统计指标。
四、频数表
概念:
频数分布表的简称。
指观察值或某些类别及其相应的频数按一定顺序排列的表格。
例题:
随机抽取某地120例正常人,测得血清铜的含量(μmol/L)如下表,试编制频数表。
13.8412.5313.7014.8917.5313.1918.82
14.7317.4413.9914.1012.2912.6114.78
14.5914.7118.6219.0410.9513.8110.53
13.5611.4813.0716.8817.0417.9812.67
11.039.2315.0414.0915.9011.4814.64
13.6414.3915.7413.9911.3117.6116.26
13.5311.6813.2511.8814.2115.2115.29
13.7014.4511.2319.8413.1115.1511.70
频数表的编制方法:
1.找极值:
Xmax=19.84,Xmin=9.23
2.求全距:
R=Xmax-Xmin,R=19.84-9.23=10.61
3.定组数:
K=8~15。
4.求组距:
i=R/(K–1)(i为组距,k为组段数,R为全距)i=10.61/(11-1)=1.061≈1
5.确定各组段的上下限:
6.归纳计数:
某地120名正常成年人血清铜含量频数表
组段频数f频率P(%)fCPC(%)
9.00~32.532.5
5.8
73.34~10.00.
.
欢迎下载支持版本可编辑.文档来源为:
从网络收集整理.word15.81910.011.00~12
26.63212.00~1310.8
40.84913.00~1714.2
59.17114.00~2218.3
74.1891815.015.00~
84.910210.816.00~13
94.19.211317.00~11
98.311818.00~54.2
100.01201.7~19.002
100.0120合计
五、频数图亦称直方图,是以直方的宽度代表组距,以直方的面积大小表示频数的多少、以直方:
概念面积在总面积中的比例表示频率大小的图形。
等距分组——以横轴表示变量,以纵轴表示频数。
。
不等距分组——以横轴表示变量,但纵轴是频数除以组距
数值变量资料集中趋势的描述第二节
是度量变量值集中位置和平均水平的数量指标,其代表值为平均数。
集中趋势:
是对同质基础上的样本或总体一般特征的表达是描述一组观测值平均水平的指标,平均数:
指标。
算术平均数、几何平均数、中位数、众数一、算术平均数算术平均数简称均数。
是一组观察值的和与观察值个数之商。
是数量上的平均。
用定义:
1.表示样本均数,表示总体均数。
于说明一组观测值的趋中位置或平均水平。
2.适用条件:
正态或近似正态分布的资料。
如生理指标。
3.计算方法:
⑴直接法:
有n个观察值,分别为X1,X2,……Xn,
式中Σ是求和的符号。
10名12岁男孩身高(cm)分别为125.5,126.0,127.0,128.5,147.0,131.0,132.0,141.5,122.5,140.0。
求平均数。
⑵加权法:
用于观察值中相同数据较多或频数表资料。
mol/L)
μ14.48(=1737.00/120=
二、几何均数
1.定义:
n个数值连乘积的n次方根。
是比例或倍数上的平均。
统计符号G。
2.应用条件:
等比数列资料。
如抗体滴度。
6份血清抗体滴度为1:
2,1:
4,1:
8,1:
16,1:
32,求平均数。
平均滴度为1:
8。
三、中位数
将一组观察值按由小到大的顺序排列,位次居中的数值即中位数。
是位次上的平均。
统计符号M。
不拘分布、分布类型不明或一端无界的资料。
如潜伏期、治愈时间和发病年龄。
n为偶数时n为奇数时
式中均为下标,表示有序数列中观察值的位次。
、及例题:
某医院用大黄粉治疗胃热血瘀型血证病人9例,其大便转阴天数分别为1、1、2、2、3、4、5、7、10,求其中位数。
本例n=9,M=X5=3(天)。
如果本例n=10,第10个数值为16天,则M=(3+4)/2=3.5(天)。
⑵数表法
用于观察值例数较多或频数表资料。
L为M所在组段的下限;
i为该组段的组距;
fm为该组段的f;
n为总例数;
ΣfL为小于L的各组段的fC。
905例男性银屑病病人的发病年龄
年龄频数f累计频数fC累计频率pC(%)
<1054545.97
10~252306(ΣfL)33.81
20~346(fM)65272.04
30~12878086.19
40~8486495.47
98.67
89329~50.
60~589899.23
≥707905(n)100.00
M=20+(10/346)(905/2-306)=24.23(岁)
第三节数值变量资料的离散趋势描述
亦称变异性,是描述一组同质观察值的变异程度大小的指标。
不但反映研究指标数值的稳定性和均匀性,而且反映集中性指标的代表性。
极差、四分位数间距、方差、标准差、变异系数。
变异指标示意(两个学生五门成绩分布)
学生科目变异指标
RS2S12345CV
A78798081828042.51.581.98
B60708090100804025015.8119.76
A、B两个学生五门课程成绩的均数都是80,但各科成绩分布情况却不相同。
A较集中,变异较小;
B较分散,变异较大。
一、全距(R)
亦称极差,是一组观察值中最小值与最大值之差,反映个体差异的范围。
R=xmax-xmin
优点:
1.意义明确、计算简便。
2.稳定性较差。
3.受n大小的影响。
4.可应用于任何分布。
二、百分位数和四分位间距
1.百分位数:
是把一组观察值从小到大排列,分为100等份,与x%位次所对的数值即为第百分之x位数。
以Px表示。
一个Px将全部观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。
是一种位置指标。
M即P50。
2.四分位数间距:
是上四分位数QU(P75)与下四分位数QL(P25)之差,符号为QR。
是中间50%观察值的极差。
QR=QU-QL=P75-P25
用途:
⑴常用来描述偏态分布资料分布以及分布的一端或两端无确切数值资料的离散程度。
⑶表示参考值范围百分位数的另一个重要用途是表示偏态分布资料的参考值范围。
例男性银屑病病人的发病年龄(同前)905例题:
计算方法:
P25=10+(10/252)×
(905×
0.25-54)=16.84(岁)
P75=30+(10/128)×
0.75-652)=32.09(岁)
QR=P75-P25=32.09-16.84=15.25(岁)
三、方差
方差即离均差平方和的均值。
总体方差的符号为σ2,样本方差符号为s2。
由于s2利用了每个观察值的信息,反映一批数据变异程度的稳定性和精确性好。
缺点:
但在运算时需将各个离均差平方,使原度量单位变成平方单位,不便于进行比较。
应用条件:
要求资料服从正态或近似正态分布。
四、标准差
方差的平方根。
除了具有方差的优点外,还克服了度量单位被平方的不足,运用较方便。
总体标准差的符号为σ,样本标准差的符号为s;
英文缩写为SD。
A学生:
n=5,ΣX=78+79+80+81+82=400;
ΣX2=782+792+802+812+822=32010
B学生:
n=5,ΣX==400;
ΣX2==33000
(
⑴表示正态或近似正态分布的离散程度。
⑵描述数值变量的频数分布特征±
s)。
⑶制定医学参考值范围。
⑷与均数结合计算变异系数。
⑸与样本含量结合计算标准误。
五、变异系数
一组观察值的标准差与均数的百分比。
是相对离散量,无单位。
统计符号CV
⑴比较度量单位不同或均数相差悬殊时几组样本资料的离散性。
⑵比较实验指标的稳定性及测定方法的精密度。
(1)某单位测得28例成年脾虚病人的红细胞数为3.10土0.86×
1012/L;
血红蛋白值为87.2土33.3g/L,试比较该两项指标的变异程度。
CVRBC=(0.86/3.10)×
100%=27.74%;
CVHb=(33.3/87.2)×
100%=38.19%
可认为Hb的变异程度比RBC大。
(2)某单位测得大鼠的血清谷丙转氨酶(ALT)为29.4土1.4,家兔的ALT为52.8土1.5,试比较两种实验动物ALT指标的实验稳定性。
CV大鼠=(1.4/29.4)×
100%=4.76%;
CV家兔=(1.5/52.8)×
100%=2.84%
可认为家兔ALT的实验稳定性较好,应优先考虑以家兔为实验对象进行ALT的有关研究。
由该例可知,CV对于改进实验方法,选择最佳实验对象、指标等,都具有一定的实际意义。
变异指标:
1.极差较粗,适用于任何分布;
标准差与均数单位相同,最常用,适用于正态及近似正态分布的统计描述;
3.集中指标和离散指标分别反映资料的特征,常配套使用:
正态分布:
算术平均数标准差偏态分布:
中位数四分位数间距
等比资料:
G
正态分布及其应用
第一节正态分布
某地120例正常人血清铜含量的直方图。
设想观察人数逐渐增多组、距不断细分,作直方图。
将各直方顶端的中点连接,形成一条光滑的曲线,该曲线即频数曲线或频率曲线,近似于数学上的正态分布曲线。
一、正态分布:
又称Gauss分布或常态分布,是一种最重要的连续型分布。
正态分布曲线:
是高峰位于中央,两侧逐渐下降,左右对称,永远不与横轴相交的曲线。
二、正态分布的密度函数
(–∞<x<∞)
f(x)为与x对应的正态曲线的纵坐标高度;
μ为总
;
体均数;
σ为总体标准差;
π为圆周率,即3.141592.71828。
e为自然对数的底,即三、正态分布的特征1.在X轴上方,均数所在处最高。
集中性、对称性和均匀变动性。
2.3.正态分布有两个参数μ和σ。
四、标准正态分布落在某个区间内的概率x由于不同的正态分布有不同的μ和σ,用公式计算的随机变量
/x-μ)u=(u显得非常麻烦。
为寻求一个通用的方法,进行标准正态变换(即变换):
、σ。
此变换实质上是作了一个坐标轴的平移和尺度变换,使原来的正态分布变换为μ=0。
(0,1),记为N1的标准正态分布(亦称u分布)σ=五、标准正态分布的密度函数
(–∞<
u<
∞)
(u)为标准正态分布的密度函数,即纵坐标高度。
式中六、正态曲线下面积分布的规律:
七、正态分布的应用分布都是建立在正态分布的基础上。
1.统计分析方法的基础:
很多抽样分布,如卡方分布、t
s作为上下控制。
3±
s作为上下警戒线;
2±
常以为了控制检测误差,质量控制:
3.估计医学参考值范围。
4.进行参数估计和假设检验。
第二节正态分布的应用
一、可根据正态分布的规律估计观察值的频数分布范围。
例题已知某地120名正常人血浆铜含量(μmol/L)的均数=14.48、s=2.27,估计该地120名正常人血浆铜含量在14.20~15.60(μmol/L)范围内的人数。
-)/s。
u=(xu值当μ和σ未知时,1.计算x1=14.20,u1=(14.20-14.48)/2.27=-0.12
x2=15.60,u2=(15.60-14.48)/2.27=0.49
2.查表-0.12左侧的面积就是0.12右侧的面积。
当u=0.12时,在表的左侧找到0.1,在表的上方找到0.02,二者相交处为0.5478,Ф(-0.12)=1-0.5478=0.4522,即标准正态变量u值小于-0.12的概率为0.4522;
当u=0.49时,Ф(0.49)=0.6879,即u值小于0.49的概率为0.6879。
3.确定概率
u值在-0.12~0.49范围内的面积为:
Ф(0.49)-Ф(-0.12)=0.6879-0.4522=0.2357,
即血浆铜含量在14.20~15.60(μmol/L)范围内的概率为23.57%。
4.估计区间内人数
120名正常人血清铜含量在14.20~15.60(μmol/L)范围的人数为120×
23.57%=28人
二、制定医学参考值范围
1、医学参考值的意义
医学参考值:
是指包括绝大多数正常人的解剖、生理、生化、免疫、组织或排泄物中成分○1的测量值。
医学参考值范围虑到变异的影响,○提高参考值作为判定正常或异常的可靠性所确定的绝大2多数正常人医学参考值的波动范围。
使用“参考值范围”的目的:
个体—临床上划分正常人与异常人的参考。
人群—制订不同○3性别、年龄儿童某项发育指标的等级标准,用来评价儿童的发育水平等。
2、制定参考值范围的步骤
选定健康人作为调查对象。
○控制测量误差。
○确定样本含量。
○根据实际意义分组。
○423.1决定取单侧还是双侧界限。
○选定适当的百分界限。
常用95%、80%、90%、99%等。
○65.制定医学参考值范围。
○73、制定参考值范围的常用方法
表达式为○,α为正态适用于正态或近似正态分布的资料。
正态分布法1u曲线下单侧或双侧尾部的面积,为α相应的标准正态离差。
α.
%的界限值为:
95双侧%的上限值为:
单侧95单侧95%的下限值为:
某地调查正常成年男子144人的红细胞数,得均数5.38(1012/L),标准差0.44(1012/L),试估计该地成年男子红细胞数的95%参考值范围。
因红细胞数过多或过少均为异常,用双侧界值。
下限:
-1.96s=5.38-1.96×
0.44=4.52
上限:
+1.96s=5.38+1.96×
0.44=6.24
该地成年男子红细胞数的95%参考值范围(4.52—6.24)1012/L。
百分位数法:
○是利用两个百分位数作为双侧参考值范围的上、下限,或者用一个百分位数2作为参考值的上限或下限。
适用于非正态分布或分布未知的资料。
1)双侧95%参考值范围:
P2.5~P97.52)单侧95%参考值范围上限值:
P95
3)单侧95%参考值范围下限值:
P5
总体均数的估计
参数估计:
是通过样本信息估计其总体相应指标的数值及数值范围的统计分析方法,即用统计量估计总体参数的方法,是统计推断的一个重要方面。
第一节抽样分布与抽样误差
抽样研究。
◆医学科研的常用方法是◆由于个体差异的存在,测算的样本指标值很难恰好等于总体指标值。
这种由个体差异和抽样