ImageVerifierCode 换一换
格式:DOCX , 页数:61 ,大小:169.66KB ,
资源ID:16949353      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/16949353.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(中医药统计学与软件应用笔记重点Word文档下载推荐.docx)为本站会员(b****4)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

中医药统计学与软件应用笔记重点Word文档下载推荐.docx

1、例 河北省18岁男性的身高和体重分布 某性红地2005年健康成年男细胞数 河北省18岁身高在170-175cm男性的体重分布 有限总体:指总体限定于特定的空间、时间范围内有限个观察单位。无限总体:指没有空间和时间范围限制的总体 。 :从总体中随机抽取的有代表性的一部分观察单位的集合。(sample)样本2样本的可靠性:指总体确定后,样本中的每一个观察单位确属预先规定的同质总体。样本的代表性:即样本能够充分反映总体的真实情况。3随机(random):即在抽样、分组、安排试验顺序时,让总体中每个受试者或观察单位都有同等的机会被抽中、被分配或被安排,而不受研究者的主观意愿驱使。不能将随机理解为随便。

2、4事件(event):指事物发生某种情况或在调查、观察和实验中获得的某种结果。确定性事件是可预言在一定条件下必然发生的事件,发生的概率为1。随机事件:指一定条件下可能发生也可能不发生的不确定性事件,发生的概率介于01之间。模糊事件:事物本身的含义不确定的现象。5频率(frequency):对于随机事件,在相同的条件下进行了n 次实验,事件发生的次数为,比值/n 为频率,记为fn(A);概率(probability):描述某随机事件发生的可能性大小,统计符号为, 01,记为P(A)。当 时,频率fn(A)概率 P(A)。小概率事件:表示某事件发生的可能性很小,在医学研究中,习惯上把P0.05或P

3、0.01的事件称为小概率事件。6变异(variation):总体中各个体之间的差异性。同质是相对的,研究对象只是在某一方面是性质相同的,同类的观察对象之间往往也存在着变异。 变异是绝对的、客观存在的。7误差(error):指测量值与真值之差。过失误差:也叫粗差。观测者粗心大意造成的误差。系统误差:由于仪器未校准、试剂未标定、观测标准未统一等固定原因造成的误差。测量误差:由事先难于预料的实验或观察条件的随机波动造成的误差。抽样误差:由抽样引起的样本指标(统计量)与总体指标(参数)的差别。8统计量(statistical):是反映样本特征的统计指标。统计符号为小写的英文字母。 如样本均数 、样本标

4、准差s 、样本率p 等。 x (parameter):是描述总体特征的统计指标。9参数 等。 如总体均数、总体标准差、总体率 统计符号为小写的希腊字母。 10.统计资料的类型 。根据研究目的,对研究对象的某些特征进行观测,将这些观测指标或项目称为变量 。构成了统计数据或统计资料变量值变量的具体数值() 统计资料分为两类: (numerical variable):亦称定量资料。是指对每个观察单位用计量方法测得某项 值变量 数值大小所获得的资料。特点为其变量值大多有度量衡单位,其具体取值通常是正实数(零、正整数和小数)。如身高1.75m、体重68kg、血压9.6kPa、血糖6.8mmol/L。分

5、类变量(categorical variable):又称定性资料。指对每个观察单位按某一方面的特征、性质或等级分组计数而得到的资料。特点是变量值表现为互不相容的属性或类别,无度量衡单位。分类变量又可分为两类: 序分类变量:又称为名义资料。具体取值通常是具有某种属性或特征的个数。特点是可在非数字中取值,各类之间具有性质上的差异。可分为二分变量和多分变量。二分变量是按互不相容的属性分成两类的资料。多分变量是按某种属性或特征分成两类以上的资料。 序分类变量:亦称等级资料或半定量资料。具体取值也是具有某种属性或特征的个数, 但不同取值之间有半定量的关系。特点是其各类别间有等级、程度或量的差异,即可按数

6、量的相对大小或程度的高低排出顺序。四、学习中医统计学的目的 1.顺应中医药学的发展趋势。2.强化中医科研的计划性和科学性。3.拓宽研究思路。4.学会正确地运用统计方法和合理地解释统计结果。五、学习中医统计学的注意事项 1理解和领会基本概念和原理,切忌死记硬背。2不追究公式的来源和推导,但要掌握其应用条件。3重视分析问题和解决问题能力的培养。4学会使用统计软件。数值变量资料的统计描述 统计描述概念:即利用原始数据,选择适宜的统计指标及统计图表,简明准确地探察数据的分布类型和数量特征的基本统计方法。目的:是根据样本中所包含的信息,客观、正确地推论出其总体规律。第一节 频数分布 频数:相同观察值或观

7、察结果出现的次数。分布:指随着随机变量取值的变化,其相应的概率变化的规律性。频数分布:观察值(变量值)按大小分组,各个组段内观察值个数(频数)的分布,是了解数据分布形态特征与规律的基础。一、 频数分布的特征 1.集中趋势:指一组变量值的集中倾向或中心位置。 即一组变量值的离散倾向。离散趋势:2.二、频数分布的类型 1.对称分布:指集中位置居中、左右两侧的 2.非对称分布:亦称偏态分布,是集中位置 频数分布基本对称的频数分布。 偏倚、两侧频数的分布不对分为正态分布和非正态分布两 称的频 数分布,可分为正 种类型。 偏态和负偏态分布。三、频数分布表/图的作用 1.直观地揭示数据的分布类型和特征。2

8、.便于发现资料中某些远离群体的特大或特小的可疑值。3.描述频数分布的集中趋势与离散趋势。4.便于进一步计算统计指标。四、频数表 概念:频数分布表的简称。指观察值或某些类别及其相应的频数按一定顺序排列的表格。例题:随机抽取某地120例正常人,测得血清铜的含量(mol/L)如下表,试编制频数表。13.84 12.53 13.70 14.89 17.53 13.19 18.82 14.73 17.44 13.99 14.10 12.29 12.61 14.78 14.59 14.71 18.62 19.04 10.95 13.81 10.53 13.56 11.48 13.07 16.88 17.0

9、4 17.98 12.67 11.03 9.23 15.04 14.09 15.90 11.48 14.64 13.64 14.39 15.74 13.99 11.31 17.61 16.26 13.53 11.68 13.25 11.88 14.21 15.21 15.29 13.70 14.45 11.23 19.84 13.11 15.15 11.70 频数表的编制方法:1.找极值:Xmax 19.84,X min 9.23 2.求全距: XmaxX min ,19.849.2310.61 3.定组数:K=815。4.求组距:i=/( K1)(i为组距,k为组段数,R为全距)i=10.6

10、1/(11-1)=1.0611 5.确定各组段的上下限:6.归纳计数:某地120名正常成年人血清铜含量频数表 组段 频数 频率() () 9.00 3 2.5 3 2.5 5.8 7 3.3 4 10.00 . 欢迎下载支持版本可编辑.文档来源为:从网络收集整理.word15.8 19 10.0 11.00 12 26.6 32 12.00 13 10.8 40.8 49 13.00 17 14.2 59.1 71 14.00 22 18.3 74.1 89 18 15.0 15.00 84.9 102 10.8 16.00 13 94.1 9.2 113 17.00 11 98.3 118

11、18.00 5 4.2 100.0 120 1.7 19.00 2 100.0 120 合 计 五、频数图亦称直方图,是以直方的宽度代表组距,以直方的面积大小表示频数的多少、以直方:概念 面积在总面积中的比例表示频率大小的图形。 等距分组以横轴表示变量,以纵轴表示频数。 。不等距分组以横轴表示变量,但纵轴是频数除以组距 数值变量资料集中趋势的描述第二节 是度量变量值集中位置和平均水平的数量指标,其代表值为平均数。集中趋势:是对同质基础上的样本或总体一般特征的表达是描述一组观测值平均水平的指标,平均数: 指标。 算术平均数、几何平均数、中位数、众数 一、算术平均数算术平均数简称均数。是一组观察值

12、的和与观察值个数之商。是数量上的平均。用定义:1. 表示样本均数,表示总体均数。 于说明一组观测值的趋中位置或平均水平。2.适用条件:正态或近似正态分布的资料。如生理指标。3.计算方法:直接法:有n个观察值,分别为X1,X2,Xn, 式中是求和的符号 。10名12岁男孩身高(cm)分别为125.5,126.0,127.0,128.5,147.0,131.0,132.0,141.5,122.5,140.0。求平均数。加权法:用于观察值中相同数据较多或频数表资料。 mol/L) 14.48(1737.00/120二、几何均数 1.定义:个数值连乘积的次方根。是比例或倍数上的平均。统计符号。2.应用

13、条件:等比数列资料。如抗体滴度。6份血清抗体滴度为1:2,1:4,1:8,1:16,1:32,求平均数。 平均滴度为1:8。三、中位数 将一组观察值按由小到大的顺序排列,位次居中的数值即中位数。是位次上的平均。统计符号。不拘分布、分布类型不明或一端无界的资料。如潜伏期、治愈时间和发病年龄。 n为偶数时 n为奇数时 式中均为下标,表示有序数列中观察值的位次。 、 及例题:某医院用大黄粉治疗胃热血瘀型血证病人9例,其大便转阴天数分别为1、1、2、2、3、4、5、7、10,求其中位数。本例n = 9, M = X5 = 3(天)。如果本例n=10,第10个数值为16天,则 M=(3+4)/2=3.5

14、(天)。 数表法 用于观察值例数较多或频数表资料。为所在组段的下限;i为该组段的组距;m为该组段的;n为总例数;fL为小于的各组段的。905例男性银屑病病人的发病年龄 年龄 频数f 累计频数f 累计频率p() 10 54 54 5.97 10 252 306(f) 33.81 20 346(f) 652 72.04 30 128 780 86.19 40 84 864 95.47 98.67 893 29 5060 5 898 99.23 70 7 905(n) 100.00 20(10/346)(905/2306)24.23(岁) 第三节 数值变量资料的离散趋势描述 亦称变异性,是描述一组同

15、质观察值的变异程度大小的指标。不但反映研究指标数值的稳定性和均匀性,而且反映集中性指标的代表性。极差、四分位数间距、方差、标准差、变异系数。变异指标示意(两个学生五门成绩分布) 学生 科 目 变异指标 S S CV 78 79 80 81 82 80 4 2.5 1.58 1.98 60 70 80 90 100 80 40 250 15.81 19.76 、两个学生五门课程成绩的均数都是80,但各科成绩分布情况却不相同。 较集中,变异较小;较分散,变异较大。一、 全距() 亦称极差,是一组观察值中最小值与最大值之差,反映个体差异的范围。 优点:1.意义明确、计算简便。2.稳定性较差。3.受n

16、大小的影响。4.可应用于任何分布。二、百分位数和四分位间距 1.百分位数:是把一组观察值从小到大排列,分为100等份,与位次所对的数值即为第百分之位数。以x表示。 一个x将全部观察值分为两部分,理论上有的观察值比它小,有(100)的观察值比它大。是一种位置指标。M 即。2.四分位数间距:是上四分位数Q()与下四分位数Q()之差,符号为QR。是中间50观察值的极差。QRQQ 用途:常用来描述偏态分布资料分布以及分布的一端或两端无确切数值资料的离散程度。 表示参考值范围 百分位数的另一个重要用途是表示偏态分布资料的参考值范围。 例男性银屑病病人的发病年龄(同前)905例题:计算方法:10(10/2

17、52)(9050.2554)16.84(岁) 30(10/128)0.75652)32.09(岁) QR32.0916.8415.25(岁) 三、方差 方差即离均差平方和的均值。总体方差的符号为,样本方差符号为2。由于2利用了每个观察值的信息,反映一批数据变异程度的稳定性和精确性好。缺点:但在运算时需将各个离均差平方,使原度量单位变成平方单位,不便于进行比较。应用条件:要求资料服从正态或近似正态分布。四、标准差 方差的平方根。除了具有方差的优点外,还克服了度量单位被平方的不足,运用较方便。总体标准差的符号为,样本标准差的符号为;英文缩写为SD。A学生:n=5,X78+79+80+81+82=4

18、00;X2782+792+802+812+82232010 B学生:n=5,X=400;X233000 ( 表示正态或近似正态分布的离散程度。描述数值变量的频数分布特征 )。制定医学参考值范围。与均数结合计算变异系数。与样本含量结合计算标准误。五、变异系数 一组观察值的标准差与均数的百分比。是相对离散量,无单位。统计符号CV 比较度量单位不同或均数相差悬殊时几组样本资料的离散性。 比较实验指标的稳定性及测定方法的精密度。(1)某单位测得28例成年脾虚病人的红细胞数为3.10土0.861012L;血红蛋白值为87.2土33.3gL,试比较该两项指标的变异程度。CVRBC(0.863.10)100

19、27.74;CVHb(33.387.2)10038.19 可认为Hb的变异程度比RBC大。(2)某单位测得大鼠的血清谷丙转氨酶(ALT)为29.4土1.4,家兔的ALT为52.8土1.5,试比较两种实验动物ALT指标的实验稳定性。CV大鼠(1.429.4)1004.76;CV家兔(1.552.8)1002.84 可认为家兔ALT的实验稳定性较好,应优先考虑以家兔为实验对象进行ALT的有关研究。由该例可知,CV对于改进实验方法,选择最佳实验对象、指标等,都具有一定的实际意义。变异指标:1.极差较粗,适用于任何分布; 标准差与均数单位相同,最常用,适用于正态及近似正态分布的统计描述;3.集中指标和

20、离散指标分别反映资料的特征,常配套使用:正态分布:算术平均数 标准差 偏态分布:中位数 四分位数间距 等比资料:G 正态分布及其应用 第一节 正态分布 某地120例正常人血清铜含量的直方图。设想观察人数逐渐增多组、距不断细分,作直方图。将各直方顶端的中点连接,形成一条光滑的曲线,该曲线即频数曲线或频率曲线,近似于数学上的正态分布曲线。一、 正态分布:又称Gauss分布或常态分布,是一种最重要的连续型分布。正态分布曲线:是高峰位于中央,两侧逐渐下降,左右对称,永远不与横轴相交的曲线。二、正态分布的密度函数 (x) f(x)为与x对应的正态曲线的纵坐标高度;为总 ;体均数;为总体标准差;为圆周率,

21、即3.14159 2.71828。e 为自然对数的底,即 三、正态分布的特征 1.在X轴上方,均数所在处最高。 集中性、对称性和均匀变动性。2. 3.正态分布有两个参数和。 四、标准正态分布落在某个区间内的概率x 由于不同的正态分布有不同的和,用公式计算的随机变量 /x -) u(u显得非常麻烦。为寻求一个通用的方法,进行标准正态变换 (即变换):、。此变换实质上是作了一个坐标轴的平移和尺度变换,使原来的正态分布变换为0 。(0,1),记为1的标准正态分布(亦称u分布) 五、标准正态分布的密度函数 ( u ) (u)为标准正态分布的密度函数,即纵坐标高度。式中 六、正态曲线下面积分布的规律:

22、七、正态分布的应用 分布都是建立在正态分布的基础上。1.统计分析方法的基础:很多抽样分布,如卡方分布、t 作为上下控制。3 作为上下警戒线;2 常以为了控制检测误差,质量控制:3.估计医学参考值范围。 4.进行参数估计和假设检验。第二节正态分布的应用 一、 可根据正态分布的规律估计观察值的频数分布范围。 例题 已知某地120名正常人血浆铜含量(mol/L)的均数14.48、2.27,估计该地120名正常人血浆铜含量在14.2015.60(mol/L)范围内的人数。)/s。u(x u值 当和未知时, 1.计算x114.20,u1(14.2014.48)/2.27-0.12 x215.60,u2(

23、15.6014.48)/2.270.49 2.查表 -0.12左侧的面积就是 0.12右侧的面积。当u0.12时,在表的左侧找到0.1,在表的上方找到0.02,二者相交处为0.5478,(-0.12)10.54780.4522,即标准正态变量u值小于-0.12的概率为0.4522; 当u0.49时,(0.49)0.6879,即u值小于0.49的概率为0.6879。3.确定概率 u值在-0.120.49范围内的面积为:(0.49)(-0.12) 0.68790.45220.2357, 即血浆铜含量在14.2015.60(mol/L)范围内的概率为23.57。4.估计区间内人数 120名正常人血清

24、铜含量在14.2015.60(mol/L)范围的人数为12023.5728人 二 、制定医学参考值范围 1、医学参考值的意义 医学参考值:是指包括绝大多数正常人的解剖、生理、生化、免疫、组织或排泄物中成分1的测量值。医学参考值范围虑到变异的影响,提高参考值作为判定正常或异常的可靠性所确定的绝大2多数正常人医学参考值的波动范围。使用“参考值范围”的目的:个体临床上划分正常人与异常人的参考。人群制订不同3性别、年龄儿童某项发育指标的等级标准,用来评价儿童的发育水平等。2、制定参考值范围的步骤 选定健康人作为调查对象。控制测量误差。确定样本含量。根据实际意义分组。 423.1决定取单侧还是双侧界限。

25、选定适当的百分界限。常用95、80 、90、99等。 65.制定医学参考值范围。 73、制定参考值范围的常用方法 表达式为 ,为正态 适用于正态或近似正态分布的资料。 正态分布法 1u 曲线下单侧或双侧尾部的面积,为相应的标准正态离差。的界限值为:95 双侧 的上限值为:单侧95 单侧95的下限值为:某地调查正常成年男子144人的红细胞数,得均数5.38(1012/L),标准差0.44(1012/L),试估计该地成年男子红细胞数的95%参考值范围。 因红细胞数过多或过少均为异常,用双侧界值。 下限: - 1.96s=5.38-1.96 0.44 =4.52 上限: + 1.96s=5.38+1

26、.960.44 =6.24 该地成年男子红细胞数的95%参考值范围(4.526.24)1012/L 。百分位数法:是利用两个百分位数作为双侧参考值范围的上、下限,或者用一个百分位数2作为参考值的上限或下限。 适用于非正态分布或分布未知的资料。 1)双侧95参考值范围: P2.5P97.5 2)单侧95参考值范围上限值:P95 3)单侧95参考值范围下限值:P5 总体均数的估计 参数估计:是通过样本信息估计其总体相应指标的数值及数值范围的统计分析方法,即用统计量估计总体参数的方法,是统计推断的一个重要方面。第一节 抽样分布与抽样误差 抽样研究。医学科研的常用方法是由于个体差异的存在,测算的样本指标值很难恰好等于总体指标值。这种由个体差异和抽样

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1