选择正确的统计方法_精品文档.ppt

上传人:b****2 文档编号:2574011 上传时间:2022-11-02 格式:PPT 页数:47 大小:287.50KB
下载 相关 举报
选择正确的统计方法_精品文档.ppt_第1页
第1页 / 共47页
选择正确的统计方法_精品文档.ppt_第2页
第2页 / 共47页
选择正确的统计方法_精品文档.ppt_第3页
第3页 / 共47页
选择正确的统计方法_精品文档.ppt_第4页
第4页 / 共47页
选择正确的统计方法_精品文档.ppt_第5页
第5页 / 共47页
点击查看更多>>
下载资源
资源描述

选择正确的统计方法_精品文档.ppt

《选择正确的统计方法_精品文档.ppt》由会员分享,可在线阅读,更多相关《选择正确的统计方法_精品文档.ppt(47页珍藏版)》请在冰豆网上搜索。

选择正确的统计方法_精品文档.ppt

选择正确的统计方法,一、概述,什么时候开始考虑选择统计方法:

应在研究设计的时候考虑,而不应是一切结束之后的结果“修饰”常见的现象:

无科学设计、数据量不够、统计结果与专业结论自相矛盾、无法得出期望的统计结果此刻,才考虑用什么统计方法得到想要的结果,统计成了“数字游戏”,正确运用统计方法的前提:

良好完善的研究设计如果没有科学的设计、良好的数据质量那么无论用什么方法和软件都无法获得真实的结果,甚至得出错误的结论。

例:

20世纪30-40年代,金的化合物普遍用于治疗结核病,视作特效药,为此发表过数以百计的文章,并作为定论写入教科书。

40年代末,随机对照临床试验,否定了这种结论。

并用几个月的时间肯定了链霉素、对氨柳酸、异烟肼的疗效。

二、科研中的资料类型,某疫苗皮下注射免疫结果,计量资料,有序多分类,二分类,数据类型的相互转换如年龄(岁),为何类资料?

转换为“未成年、成人”,是何类资料?

再转换为“婴幼儿、青年、中年、老年”则又是何类资料?

如治疗效果分类“无效、好转、显效、痊愈”为何类资料?

分别给予编码0,1,2,3后又为何类资料?

年龄(岁)为计量资料,转换为“未成年、成人”,就是二分类的计数资料,再转换为“婴幼儿、青年、中年、老年”则为多分类有序的计数资料(等级资料),如治疗效果分类“无效、好转、显效、痊愈”为多分类有序的计数资料,分别给予编码0,1,2,3后即便为计量资料了,三、统计方法选用,各种情形下最常用的统计方法索引(张文彤整理)应变量:

连续单个自变量:

二分类T检验多分类单因素方差分析连续相关分析,回归分析多个自变量:

分类变量为主方差分析模型连续变量为主线性回归模型,应变量:

有序分类单个自变量:

二分类秩和检验多分类秩和检验连续Logistic回归分析多个自变量:

分类变量为主Logistic回归分析连续变量为主判别分析、Logistic回归分析,应变量:

无序分类(含二分类)单个自变量:

二分类卡方检验多分类卡方检验连续Logistic回归分析多个自变量:

分类变量为主:

Logistic回归分析、最优尺度分析连续变量为主判别分析、Logistic回归分析,希望将变量/纪录分成若干个类别,但类别数不清楚,或各类别的特征不明:

聚类分析希望建立判别方程,对以后新进入的案例进行所属类别的预测:

判别分析需要探索多个变量间的内在联系或内在结构:

因子分析、对应分析生存时间和生存结局都是需要关心的因素,同时数据中存在大量的失访:

生存分析得到的是时间序列数据,需要对以后的情形加以预测:

时间序列模型考察的特征需要有多个应变量来表示,同时研究多个自变量对他们的影响:

多元方差分析模型,多变量统计方法选用指导,统计应用错误的实例分析,实例1,某研究小组对围手术期老年人头孢唑啉钠的合理用法进行研究,得结果如下表,存在的问题,老年组变异较小,60岁以下组变异较大:

可能60岁以下年龄变动较大而变异加大个别超常值的存在也可能存在年龄增大个体差异减小T检验要求:

个体独立、正态性、方差相等。

后两个条件得不到满足,正态性经验判断:

所有观测值为正值时,如为正态分布,S不会大于均值,更不会是均值的若干倍,60岁以下组k10的s为均数的若干倍,不符合正态性要求方差齐显然指标、k10的两组间方差不齐。

解决的办法,变量变换:

对数变换、开方变换非参数检验:

秩和检验、符号检验等,实例二,某医院为了解昏迷时血清甲状腺素的变化分别测定了昏迷病人和普通病人的血清T3、T4、rT3.,研究者采用t检验对每两组的均值进行比较,分别比较昏迷病人与对照组、浅昏迷与中昏迷、中昏迷与深昏迷比,分析,这是一个单因素(昏迷)、四水平(无、浅、中、高)设计误用t检验代替单因素方差分析如果要同时比较三项指标,应当采用多元方差分析,实例三,研究大豆黄酮对sp2/0肿瘤细胞DNA合成的影响,在大豆黄酮组中加入3HTdr后0.5h,1h,2h,4h分别测量Cpm值。

每次试验均设空白对照,每个大豆黄酮剂量均设一式3份,取平均值。

用t检验,差异显著,大豆黄酮作用于肿瘤细胞后,其3HTdr掺入量随时间的延长而增加,但抑制率下降。

分析,随时间变化,肿瘤细胞数目的变化有较强的自相关性,而且同时涉及两个因素,资料与设计类型不满足t检验的要求。

统计结果不可信。

此资料是重复测量的两因素设计资料重复测量资料的方差分析常采用轮廓分析方法。

轮廓分析通常进行组间轮廓相似性或平行性、组间平均水平差异显著性和组内条件变异显著性三方面的假设检验进行分析。

实例四定性资料的分析,双向无序RC资料2检验或Fisher检验,单向有序RC资料,不适合使用2检验因为2检验与“疗效”的有序性间没有任何联系应该采用与“有序性”有联系的秩和检验或Ridit分析,双向有序且属性不同的资料,也不适合采用2检验2检验与两变量的有序性没有任何联系应采用等级相关分析典则相关分析线性趋势检验,双向有序且属性相同的资料,研究目的是考察两种测定方法的测定结果间是否有一致性不适合使用2检验应当采用一致性检验或Kappa检验,实例五综合分析

(一),某研究者将直肠癌根治术后会阴伤口感染42例,按随机法分为喷氧组(A组)21例,常规换药组(B组)21例,经治疗后观察伤口愈合的时间:

A组:

2例5天,5例7天,6例9天,4例11天,4例14天B组:

7天、9天各1例,3例11天,7例14天,9例28-103天。

T检验结果:

A组伤口愈合时间平均9.48天B组伤口愈合时间平均22.57天P0.001,有显著差异,错误:

资料不符合t检验的要求正态性方差齐,将原资料转化为有序列联表因B组中有9例的时间不具体,无法按定量资料来分析两组例数都较少,故采用秩和检验,HC=15.9495,p0.0001,实例五综合分析

(二),某研究者收集了103例冠心病与100例正常对照的多项指标组别(G)性别(X1)年龄(X2)高血压史(X3)吸烟史(X4)胆固醇含量(X5)甘油三脂含量(X6)低密度脂蛋白(X7)高密度脂蛋白(X8)脂蛋白(X9)载脂蛋白1(X10)载脂蛋白1(X11)基因型XbaI(X12)基因型EcoRI(X13)用药情况(X14),该研究者采用的方法,求一组定量指标的均值、标准差T检验分析某定量指标的某两水平的差异简单直线相关、回归分析两定量指标间关系等,这样做,会牺牲大量有用的信息,得到一些支离破碎的甚至错误的结论。

推荐的做法:

列出希望达到的目的,逐一选用相应的统计分析方法。

目的一、对冠心病人而言,直接分析某种基因型取不同水平时7项血脂指标的均值和均值向量间差别有无统计学差异?

基因型X12或X13是定性分组变量,7项血脂指标是定量资料。

通常把定性的分组变量称为“试验因素或影响因素”,将定量的观测指标称为“反应变量”。

每次只分析一个反应变量当分析水平为2,影响因素为1时,t检验当分析水平2,影响因素为1时,方差分析每次分析反应变量1时当分析水平为2,影响因素为1时,T2检验影响因素个数=2或虽影响因素=1但其水平数=3,多元方差分析,目的二、对冠心病人而言,“性别、吸烟史、高血压史、基因型”等因素对血脂指标有无影响?

性别、吸烟史、高血压史、基因型等因素都是“影响因素”。

需采用四因素析因设计的方差分析或多元方差分析,目的三、对冠心病人而言,同时分析“性别、吸烟史、高血压史、用药情况”等因素的影响的前提下,分析某种基因型取不同水平时7项血脂指标均之间的差别有无显著意义?

所谓设法排除相关因素的影响,就是要将前述诸因素的作用化为相等,以便比较评价不同基因型对血脂指标的影响。

影响因素中既有定性、又有定量,故采用多元协方差分析,目的四、对冠心病人而言,试对7项血脂指标的内部从属性做客观评价?

要研究一组冠心病人“7项血脂指标的内部从属性”,显然不涉及任何分组变量,此时可采用主成分分析、因子分析。

目的五、对冠心病人而言,试对7项血脂指标的亲疏关系做客观评价?

指标间的亲疏关系,应当采用变量聚类分析,目的六、假定病情的轻重可以通过7项血脂指标很好的反映出来,试根据7项血脂指标的数据,将他们划分为3组,以便作为关于病情“轻、中、重”评判,可有的放矢的采取不同方案进行治疗,根据7项血脂指标的数量大小对病人进行分类,当然采用样本聚类的方法。

目的七:

利用正常人与冠心病人的7项血脂指标,建立一种方法,用来对一个怀疑患有冠心病的就诊者进行辅助诊断。

欲实现对就诊者进行辅助诊断,就必须有能区分冠心病患者与正常人的判别函数,故应选用判别分析,目的八:

利用冠心病人与正常人的全部资料,建立一种方法,筛选出冠心病的危险因素,并且,当各危险因素在其取值范围内分别取某确定值时,预报某人患冠心病的概率有多大?

想要筛选冠心病的危险因素,又要进行预测预报。

这就需要进行回归分析。

由于现在的因变量是一个二值变量,可以进行Logistic回归分析方法。

谢谢!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 材料科学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1