ImageVerifierCode 换一换
格式:PPT , 页数:59 ,大小:11.07MB ,
资源ID:15492512      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/15492512.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据统计学处理方法与选择_精品文档优质PPT.ppt)为本站会员(b****2)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据统计学处理方法与选择_精品文档优质PPT.ppt

1、录人数据时,应遵循便于录入,便于核查,便于转换,便于分析的原则。便于录入是指尽可能地减少录入工作量,录入时,用数值变量取代了字符变量,可以大大节约录入的时间和费用。便于核查是指一定要设有标识变量,以方便数据核查。便于转换是指录入数据时要考虑不同软件对字节和字符的要求,便于分析是指每项研究最好录成一个数据文件,录入的格式满足各种统计分析的需要,这样才能保证分析数据时的高效和全面。,冯启明,2022/11/2,二、输入数据的质量控制,1、数据核查 数据录入后,首先须对录入的数据进行核查,以确保录入数据的准确性和真实性。核查准确性可分两步进行。第一步逻辑检查,通过运行统计软件中的基本统计量过程,列出

2、每个变量的最大值与最小值,如果某变量的最大值或最小值不符合逻辑,则数据有误;第二步将原始数据与输入数据进行核对,更正错误。在一些大型数据的录入过程中,为保证数据的质量,往往采用对同一资料进行双人重复录入的方法,然后应用程序对两个数据库进行比对,如有录入结果不符,则进行核查,找出其错误所在。,二、输入数据的质量控制,2、缺失值的处理 在资料收集过程中,特别是大型数据的收集,不可避免的会有一些缺失值产生,这主要来自于资料收集中的漏填和漏报。通常认为,缺失值应控制在数据记录总量的10以内。在计算机的数据录入过程中,要注意把缺失值和“0”区分开来,“0”通常用来表示“无”,即该事件未发生,具有确切的含

3、义,表明该数据已收集到;而缺失值表示该数据未填或未收集,两者要注意区分,以免混淆。在一般的数据库软件中,缺失值通常都用“”表示。,二、输入数据的质量控制,2、缺失值的处理 在资料分析中,如一例记录的某个变量有缺失值,统计分析软件都会自动把该例作删除处理。因此,当资料可避免地产生了缺失值,而该例记录由于其他的变量仍有统计分析的价值,或者当删除该例记录后样本例数太少,不能保证数据分析结果的可靠性时,则可用一些统计学方法对缺失值进行填补。对缺失值进行估计填补具体方法,可参阅有关文献。,二、输入数据的质量控制,3、离群数据的处理 当个别数据与群体数据严重偏离时,被称为离群数据(outlier)。判断离

4、群数据的方法可通过观察数据的频数表或直方图进行初步判断;统计软件一般都有判断离群数据的方法,例如,SPSS软件对其的定义为:观察值距箱式图(boxplot)的箱体底线(第25百分位数)或顶线(第75百分位数)的距离为箱体高度(四分位数间距)的1.5倍至3倍时被视为离群点,观察值距箱体底线或顶线的距离超过3倍的箱体高度时被视为极端值。,二、输入数据的质量控制,3、离群数据的处理 若有离群数据出现,可分为两种情况处理:(1)如果确认数据有逻辑错误,又无法纠正,可直接删除该数据。例如,若某一数据中某病例的身高变量为“1755”cm,且原始记录亦如;又无法再找到该病例时,显然这是一个错误的记录,只能删

5、除。(2)若数据并无明显的逻辑错误,可将该数据剔除前后各做一次分析,若结果不矛盾,则不剔除;若结果矛盾,并需要剔除,必须给以充分合理的解释,例如用何种方法确定偏离数据,该数据在实验中何种干扰下产生等。,第二部分 数据统计描述方法的选择,总体,样本,统计推断,抽样,抽样误差,一、计量资料的描述,某市抽查187名宾馆女性服务人员年龄资料如下 25 40 33 18 22 25 33 30 35 18 24 20 22 22 25 26 24 28 18 40 21.19 22 20 22 33 29 38 40 22 1819 20 25 24 29 31 32 28 26 25 19,计量资料统

6、计描述,集中趋势,离散趋势,均数几何均数中位数,全距四分位数间距方差标准差变异系数,计量资料描述的常用统计指标选择,某市抽查187名宾馆女性服务人员年龄资料如下 25 40 33 18 22 25 33 30 35 18 24 20 22 22 25 26 24 28 18 40 21.19 22 20 22 33 29 38 40 22 1819 20 25 24 29 31 32 28 26 25 19,现检测出11名梅毒患者的血清梅毒抗体滴度如下,请计算其平均抗体滴度。1:5 1:20 1:40 1:80 1:160 1:320 1:640,数据之间呈倍数关系几何均数,艾滋病患者月均收入

7、的频数表,偏态分布与开口资料,采用中位数(M)与四分位数间距(Q75-Q25)描述,某人收集到如下的统计资料,从资料表达方式的角度看,存在的主要错误是什么?该资料应如何进行表达?艾滋病患者某药治疗前后CD4测定结果,明显偏态资料采用中位数描述平均水平,由于例数太少,采用最大值最小值反映离散。,标准差大于均数,提示明显偏态。,二、分类资料的统计描述,案例1,请选择适当指标描述该两组资料结果。,资料类型,多项无序分类资料,案例2,请选择适当指标描述两组结果。,两项分类资料,案例3,等级资料(多项有序分类资料),请选择适当指标描述两组结果。,资料统计描述方法,计量资料,分类资料,集中趋势,离散趋势,

8、计数资料,等级资料,均数几何均数中位数,全距四分位数间距方差标准差变异系数,二项分类 资料,多项无序分类资料,率,构成比,构成比,据表中某地、某年梅毒监测资料,计算各年龄的构成比和梅毒报告发病率,第三部分 统计学假设检验方法的选择,选择统计方法的基本思路:反应变量是单变量、双变量或多变量 数据属于哪种类型资料:计量资料、计数资料或等级资料(针对单变量数据)数据所属的设计类型:完全随机设计、配对设计、随机区组设 计或其他设计 影响因素是单因素还是多因素 数据是单一样本、两组样本还是多组样本 数据是否符合拟采用的统计分析方法的应用条件,(一)单变量计量资料的分析,1、样本均数于已知总体均数比较,1

9、、一般健康孕妇生产男孩的出生体重为3kg。随机抽样调查某地某年15名梅毒感染孕妇生产男孩的出生体重,得如下数据,问:问梅毒感染孕妇与健康孕妇生产男孩的出生体重是否有差异?,样本均数与总体均数比较,15名梅毒感染孕妇生产男孩的出生体重(kg):1.8 2.2 2.5 2.6 1.6 1.8 1.9 2.6 2.2 1.9 2.0 2.5 2.6 1.7 2.0,冯启明,2022/11/2,(一)单变量计量资料的分析,2、配对样本均数比较,3、两样本均数比较,40名艾滋病患者随机分为两组,分别给予A药和B药治疗,治疗后艾滋病患者血液CD4含量如下,请比较两组患者治疗后CD4差异。,完全随机设计两样

10、本均数比较,两种方法检测7名艾滋病患者的血液CD4含量,所得结果如下。问:甲乙两法检出CD4含量是否相同,用何统计方法?,样本号 1 2 3 4 5 6 7 乙 法 270 540 125 500 485 185 650 甲 法 329 602 101 625 508 175 761,配对设计计量资料,(一)单变量计量资料的分析,4、多个样本均数比较,某研究者将27只感染艾滋病雄性猩猩随机分成三组(每组9只),给予不同处理,观察12周。测定。处理前后血液中的CD4升高值见下表。问三组的CD4升高值是否相同?,完全随机设计多样本比较,按性别相同、年龄相近、病情相近把33例艾滋病患者配成11个区组

11、,每区组3个患者,分别给予A药、B药和C药治疗。治疗后患者血浆中的IGA含量见表。问经三种不同药物治疗后该病患者血浆中IGA含量有无差别?,随机区组设计计量资料,某医院用某中药给8名吸毒者戒毒,在治疗前、治疗后一周、二周、三周和四周分别测定患者的血清谷丙转氨酶SGPT的变化,其数据如表5-2所示,试分析各周SGPT值的差别是否有显著性意义。,单因素重复测量数据方差分析,将12名吸毒者随机分为两组,每组6名,采用某种药物进行治疗戒毒,一组服用胶囊,另一组服用片剂。分别于服药后1,2,3,4小时测定血药浓度,血药浓度检测结果见下表。试比较两种剂型服用后血药浓度有无差别?,两因素重复测量数据方差分析

12、,22例艾滋病患者随机分成两组:A药组,B药组。从治疗开始日开始随访,随访时间(月)如下。试比较两组的疗效有无差异,(带者为截尾数据)。A组 1,2,3,5,6,9,11,13,16,26,37B组:10,11,14,18,22,22,26,32,38,40,42,生存数据,宜用Log-rank检验,(二)单变量计数资料的分析,1、两个率比较,据以往调查数据,某地女性梅毒发病率一般为1.2。某人在当地女性服务人员中抽查400名,检测出8例梅毒。问该地女性服务人员梅毒发病率是否高于一般女性?,样本率与总体率比较基于二项分布的直接概率法,根据以往观察,一般35岁以上孕妇有10发生流产。现某医院观察

13、35岁以上患梅毒孕妇254例,有60例发生流产。问35岁以上梅毒患者是否较容易流产?,样本率与总体率比较基于二项分布的u检验法,某医院将376例淋病患者随机分为两组,分别用中药和西药治疗,结果见表7-1。问两种药物疗效的差别有无意义?,两样本率比较四格表X2检验,(二)单变量计数资料的分析,2、行列表资料比较,当生殖器出现异常时,外展服务干预前后女性服务从业人员求医行为见下表,请比较干预前后女性服务从业人员求医行为差异有统计学意义。,行列表X2检验,干预前后女性从业人员求医行为比较(),采用两种方法检测女性服务人员梅毒感染率,结果如表所示,问两种方法的检出率差别有无统计学意义?,配对设计计数资

14、料X2检验,某医院用三种方案治疗淋病254例,结果如下,问三组疗效有无差别?,不宜用X2检验,要采用秩和检验,(三)单变量等级资料的分析,1、两组等级资料比较,有9个艾滋病血液样品分成两份,分别在温度为80和20的条件下加入相同显色剂,结果如下,请比较两种温度下的显色效应差异,配对设计等级资料配对设计秩和检验,某医院对比两种疗法对梅毒治疗效果,结果如下,问两组的疗法是否有差别?,两样本等级资料,不宜用X2检验,要采用秩和检验,(三)单变量等级资料的分析,2、多组等级资料比较,某医院用三种方案治疗淋病254例,结果如下,问三组疗效有无差别?,完全随机设计多组秩和检验,(四)双变量资料的分析,某医

15、师测定7名吸毒男性戒毒1个月后的血清蛋白含量(g/L)和血红蛋白含量(g/L)数据如下。请问这两项指标有无相关?,直线相关分析,某医生研究艾滋病患者血小板数与出血症状程度有无相关,结果如下。请作分析,有一个变量为等级资料,宜用等级相关(Spearman),(五)多变量资料的分析,1、有因变量的多变量资料,(1)因变量 y为计量资料,并服从正态分布,作多元回归分析,(2)因变量y为分类资料(二分类或多分类),以判别分类为主要目的,作判别分析,(3)因变量y为生存时间,并含有截尾数据,作COX模型分析;如自变量只有1个,作 K-M法生存分析。(4)因变量y为分类资料(二分类或多分类),以分析危险因素为主要目的,如资料为 配比设计,作条件Logistic回归;如资料无配比设计,作非条件Logistic回归。,(五)多变量资料的分析,2、无因变量的多变量资料,(1)如将变量或观察单位划分为性质相近的k类,作聚类分析。(2)如以降低变量维度,并对变量进行分类的目的,作主成分分析或因子分析,

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1