1、SAS学习系列20用PROCFREQ计算频数及卡方检验20.用PROC FREQ计算频数及卡方检验(一)卡方检验一、卡方分布k个相互独立的标准正态分布变量的平方和服从自由度为 k的卡方分布。Jr i ji *11 j HpJ TT 4 A.卡方检验概述卡方检验,由英国统计学家 Karl Pearson得到,主要应用于计数 数据(定性变量中的无序分类变量)的分析,对于总体的分布不作任 何假设,因此它属于非参数检验法。理论证明,实际观察频数(fo)与理论频数(fe,又称期望频数)之差的平方再除以理论频数所得的统计量, 近似服从卡方分布,可表示为:(fo fe)2fe2(n)这是卡方检验的原始公式,
2、其中当 fe越大,近似效果越好。显然 fo 与fe相差越大,卡方值就越大;fo与fe相差越小,卡方值就越小;因 此它能够用来表示fo与fe相差的程度。根据这个公式,卡方检验的一般问题是要检验名义型变量的实际 观测频数和理论频数分布之间是否存在显著差异。一般卡方检验要求: 分类相互排斥,互不包容; 观察值相 互独立; 样本容量不宜太小,理论频数5,否则需要进行校正。 如果个别单元格的理论频数小于 5,处理方法有四种:(1)单元格合并法;(2)增加样本数;(3)去除样本法;(4)使用校正公式。当期望次数小于5时,应该用校正公式计算卡方值:2 (|fo fe| 0.5)2二、卡方检验的原理1.卡方检
3、验所检测的是样本观察频数与理论(或总体)频数的差异性;2.理论或总体的分布状况,可用统计的期望值(理论值)来体 现;3.卡方的统计原理,是取观察频数与期望频数相比较。当观察 频数与期望频数完全一致时, 2 值为 0;观察频数与期望频数越接近, 两者之间的差异越小, 2 值越小;观察频数与期望频数差别越大, 两者之间的差异越大, 2值越大。一旦 2 值大于某一个临界值,即 可获得显著的统计结论。4.步骤:原假设Ho: 2= 0;备择假设Hi: 2工0;根据数据计算卡方值、 P 值(右尾面积);若P值Wa,则拒绝Ho;若P值 a,则接受Ho.三、卡方检验的应用1. 拟合优度检验检验单个多项分类名义
4、型变量的各分类间的实际观测次数 (根据 样本数据得到的实计数) 与理论次数 (根据理论或经验得到的期望次 数)之间是否一致、 或者服从理论上的某种分布?这一类检验称为拟 合性检验。其自由度通常为分类数减去 1。2. 各变量间的独立性检验(定性变量列联表) 两个或两个以上因素多项分类的计数资料分析, 也就是研究两类 变量之间的关联性和依存性问题。 如果两变量无关联即相互独立, 说 明对于其中一个变量而言, 另一变量多项分类次数上的变化是在无差范围之内;如果两变量有关联即不独立,说明二者之间有交互作用存 在。独立性检验一般采用列联表的形式记录观察数据 ,列联表是由 两个以上的变量进行交叉分类的频数
5、分布表,是用于提供基本调查结 果的最常用形式,可以清楚地表示定类变量之间是否相互关联。其自由度是:(行数-1)X(列数-1)(二) PROC FREQ 过程步一、基本语法:PROC FREQ data =数据集;TABLES 行变量*列变量/ options;vWEIGHT权重变量;说明:结果将以表格形式(频数表)输出,TABLES a 单向频数表;TABLES a*b a为行,b为列的双向频数表;TABLES a*b*c a为分层,b为行,c为列的三维频数表;TABLES a*(b c)等价于“ TABLES a*b a*c ”;可选项:(1) AGREE做配对卡方检验;(2) CHISQ做
6、独立性和关联度的卡方检验;(3)CL输出关联度的置信限;(4)CMH输出Cochran-Mantel-Haenszel统计量,特别对分层二维表;(5)EXACT做Fisher精确检验;(6)MEASURES输出 Pears on and Spearma 相关系数、gammaKendalls tau-b、Stuarts tai-c、Somers D lambda、odds ratios risk ratios、置信区间的关联度;(7)RELRISK输出2X 2表的相对风险度;(8)TREND对趋势做Cochran-Armitage检验;(9)NOROW, NOCOL, NOPERCENT不输出行
7、百分比、列百分比、百分比;、绘制PROC FREQ的图表默认也会输出PROC FREQ的图表,若要输出指定图表,需要在TABLES语句中,使用绘图可选项“ PLOTS = (plot-list); ”即可。可以 绘制频数图、优势比图、Agreeme nt图、偏差图、以及两类带 Kappa 统计量和置信限的图。基本语法:PROC FREQ data =数据集;TABLES variablel * variable2 / options PLOTS = (plot-list); 可选绘图类型:AGREEPLOT 双向(配对)表CUMFREQPLOT单向表DEVIATIONPLOT单向(卡方检验)表
8、 FREQPLOT(任意)KAPPAPLOT三维表ODDSRATIOPLOT hx2X 2 (MEASURES or RELRISK ) RELREISKPLOT hx 2x 2 (MEASURES or RELRISK ) RISKDIFFPLOT hx 2x 2 (RELRISK) WTKAPPAPLOT hx rx r (r2)(配对表)注:FREQPLOT可以加选项,例如分组条形图默认是竖直排列, 若要改用水平排列,可以用:TABLES variable1 * variable2 / PLOTS = FREQPLOT(TWOWAY=GROUPHORIZONTAL);若要堆叠分组条形,用
9、“ TWOWA丫二STACKED ”。例1 一组常规公交车(R: Regular)和快速公交车(E: Express)的延误(L: Late)或准时(O: On Time)的数据(C:MyRawDataBus.dat):Busdat -记事本-叵S文件(F)鋼劉E)梏式(0査看(V)EOELELROEOEOEORLRORLROEORLEORLROEO EORLELEORLEORLEORLEOROELEOEOEOEOEL EOEORLRLRORLELEORLROEO EDE 0 E L R 0 R L读入数据,用PROC FREQ过程步计算频数,并做卡方检验代码:databus;in filec
10、:MyRawDataBus.dat ;in putBusType $ On TimeOrLate $ ;run ;procformatJvalue$typeR =RegularE =Express ;value$lateO =On TimeL =Late;run ;proc freq data = bus;tables BusType * OnTimeOrLate / NOROWNOCOL CHISQPLOTS=FREQPLOT(TWOWAY=GROUPHORIZONTAL);format BusType $Type. On TimeOrLate $Late.;运行结果:FREQ过程频数jfc
11、 DusTypt! * OnT i nieOr LaLe百分比OnT i meOrLateHusypeLateOn Ii me合计Expr ess121?2911.004.0058. 00Regu1 ar138212国0016. 0042. 00合计20305040. 0060 00100. 00分布:BusTveiq * OrT Late表 wOnT i meOrLate DusType 的统计量统计呈自由度值旣率卡去17.23860. 0071愎然比卡方检粉17 3364U. 0068连续调整卡方15.75050. 0165Manto IHHaenszo 1 卡方17. 09390. (MH7Phi系数-0. 3805列联系数0. 3666Cramor V0. 3805Fi shar精确检骑单元格(1.1)频数(门1左侧Pr - F0, 0081冇侧Pr 二F0. 9987表概率9)t). U06/双侧Pr - P0. 0097样本大小二50程序说明:( 1)常规公交车延迟率为 61.9%, 快速公交车延迟率为 24.14%;(2)卡方检验的卡方值为 7.2386, P值为0.0071a =0.05;说明 两种公交车的延迟率有着明显差异, 结果具有统计学意义; 同时也说 明“延误或准时与否”与选择哪种公交车是有关系的;另外, Fisher 精确检验的结果也支持这一结论。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1