SAS学习系列20用PROCFREQ计算频数及卡方检验.docx
《SAS学习系列20用PROCFREQ计算频数及卡方检验.docx》由会员分享,可在线阅读,更多相关《SAS学习系列20用PROCFREQ计算频数及卡方检验.docx(7页珍藏版)》请在冰豆网上搜索。
SAS学习系列20用PROCFREQ计算频数及卡方检验
20.用PROCFREQ计算频数及卡方检验
(一)卡方检验
一、卡方分布
k个相互独立的标准正态分布变量的平方和服从自由度为k的
卡方分布。
Jriji*11jHpJTT^4A.
卡方检验概述
卡方检验,由英国统计学家KarlPearson得到,主要应用于计数数据(定性变量中的无序分类变量)的分析,对于总体的分布不作任何假设,因此它属于非参数检验法。
理论证明,实际观察频数(fo)与理论频数(fe,又称期望频数)
之差的平方再除以理论频数所得的统计量,近似服从卡方分布,可表
示为:
(fofe)2
fe
2(n)
这是卡方检验的原始公式,其中当fe越大,近似效果越好。
显然fo与fe相差越大,卡方值就越大;fo与fe相差越小,卡方值就越小;因此它能够用来表示fo与fe相差的程度。
根据这个公式,卡方检验的一般问题是要检验名义型变量的实际观测频数和理论频数分布之间是否存在显著差异。
一般卡方检验要求:
①分类相互排斥,互不包容;②观察值相互独立;③样本容量不宜太小,理论频数》5,否则需要进行校正。
如果个别单元格的理论频数小于5,处理方法有四种:
(1)单元格合并法;
(2)增加样本数;
(3)去除样本法;
(4)使用校正公式。
当期望次数小于5时,应该用校正公式计算卡方值:
2(|fofe|0.5)2
二、卡方检验的原理
1.卡方检验所检测的是样本观察频数与理论(或总体)频数的
差异性;
2.理论或总体的分布状况,可用统计的期望值(理论值)来体现;
3.卡方的统计原理,是取观察频数与期望频数相比较。
当观察频数与期望频数完全一致时,2值为0;观察频数与期望频数越接近,两者之间的差异越小,2值越小;观察频数与期望频数差别越大,两者之间的差异越大,2值越大。
一旦2值大于某一个临界值,即可获得显著的统计结论。
4.步骤:
原假设Ho:
2=0;备择假设Hi:
2工0;
根据数据计算卡方值、P值(右尾面积);
若P值Wa,则拒绝Ho;若P值>a,则接受Ho.
三、卡方检验的应用
1.拟合优度检验
检验单个多项分类名义型变量的各分类间的实际观测次数(根据样本数据得到的实计数)与理论次数(根据理论或经验得到的期望次数)之间是否一致、或者服从理论上的某种分布?
这一类检验称为拟合性检验。
其自由度通常为分类数减去1。
2.各变量间的独立性检验(定性变量列联表)两个或两个以上因素多项分类的计数资料分析,也就是研究两类变量之间的关联性和依存性问题。
如果两变量无关联即相互独立,说明对于其中一个变量而言,另一变量多项分类次数上的变化是在无差
范围之内;如果两变量有关联即不独立,说明二者之间有交互作用存在。
独立性检验一般采用列联表的形式记录观察数据,列联表是由两个以上的变量进行交叉分类的频数分布表,是用于提供基本调查结果的最常用形式,可以清楚地表示定类变量之间是否相互关联。
其自由度是:
(行数-1)X(列数-1)
(二)PROCFREQ过程步
一、基本语法:
PROCFREQdata=数据集;
TABLES行变量*列变量/options;
vWEIGHT权重变量>;
说明:
结果将以表格形式(频数表)输出,
TABLESa—单向频数表;
TABLESa*b—a为行,b为列的双向频数表;
TABLESa*b*c—a为分层,b为行,c为列的三维频数表;
TABLESa*(bc)—等价于“TABLESa*ba*c”;
可选项:
(1)AGREE
做配对卡方检验;
(2)CHISQ
做独立性和关联度的卡方检验;
(3)CL
输出关联度的置信限;
(4)CMH
输出Cochran-Mantel-Haenszel统计量,特别对分层二维表;
(5)EXACT
做Fisher精确检验;
(6)MEASURES
输出PearsonandSpearma相关系数、gamma
Kendall'stau-b、Stuart'stai-c、Somer'sDlambda、
oddsratiosriskratios、置信区间的关联度;
(7)RELRISK
输出2X2表的相对风险度;
(8)TREND
对趋势做Cochran-Armitage检验;
(9)NOROW,NOCOL,NOPERCENT
不输出行百分比、列百分比、百分比;
、绘制PROCFREQ的图表
默认也会输出PROCFREQ的图表,若要输出指定图表,需要在
TABLES语句中,使用绘图可选项“PLOTS=(plot-list);”即可。
可以绘制频数图、优势比图、Agreement图、偏差图、以及两类带Kappa统计量和置信限的图。
基本语法:
PROCFREQdata=数据集;
TABLESvariablel*variable2/optionsPLOTS=(plot-list);可选绘图类型:
AGREEPLOT——双向(配对)表
CUMFREQPLOT——单向表
DEVIATIONPLOT——单向(卡方检验)表FREQPLOT——(任意)
KAPPAPLOT——三维表
ODDSRATIOPLOT——hx2X2(MEASURESorRELRISK)RELREISKPLOT——hx2x2(MEASURESorRELRISK)RISKDIFFPLOT——hx2x2(RELRISK)WTKAPPAPLOT——hxrxr(r>2)(配对表)
注:
FREQPLOT可以加选项,例如分组条形图默认是竖直排列,若要改用水平排列,可以用:
TABLESvariable1*variable2/PLOTS=FREQPLOT(TWOWAY
=GROUPHORIZONTAL);
若要堆叠分组条形,用“TWOWA丫二STACKED”。
例1一组常规公交车(R:
Regular)和快速公交车(E:
Express)的延
误(L:
Late)或准时(O:
OnTime)的数据(C:
\MyRawData\Bus.dat):
Busdat-记事本
-叵S
文件(F)鋼劉E)梏式(0]査看(V)
EOELELROEOEOEORLRORLROEORLEORLROEOEORLELEORLEORLEORLEOROELEOEOEOEOELEOEORLRLRORLELEORLROEOEDE0ELR0RL
读入数据,用PROCFREQ过程步计算频数,并做卡方检验
代码:
data
bus;
infile
'c:
\MyRawData\Bus.dat';
input
BusType$OnTimeOrLate$@@;
run;
proc
format
J
value
$type
'R'='Regular'
'E'='Express';
value
$late
'O'='OnTime'
'L'='Late';
run;
procfreqdata=bus;
tablesBusType*OnTimeOrLate/NOROWNOCOLCHISQ
PLOTS=FREQPLOT(TWOWAY=GROUPHORIZONTAL);
formatBusType$Type.OnTimeOrLate$Late.;
运行结果:
FREQ过程
频数
jfcDusTypt!
*OnTinieOrLaLe
百分比
OnTimeOrLate
Hus[ype
Late
OnIime
合计
Express
1
21?
29
11.00
4^.00
58.00
Regu1ar
13
8
21
2国00
16.00
42.00
合计
20
30
50
40.00
6000
100.00
分布:
BusTveiq*OrTLate
表wOnTimeOrLateDusType"的统计量
统计呈
自由度
值
旣率
卡去
1
7.2386
0.0071
愎然比卡方检粉
1
73364
U.0068
连续调整卡方
1
5.7505
0.0165
MantoIHHaenszo1卡方
1
7.0939
0.(MH7
Phi系数
-0.3805
列联系数
0.3666
CramorV
■0.3805
Fishar精确检骑
单元格(1.1)频数(门
1
左侧Pr<-F
0,0081
冇侧Pr>二F
0.9987
表概率9)
t).U06/
双侧Pr<-P
0.0097
样本大小二50
程序说明:
(1)常规公交车延迟率为61.9%,快速公交车延迟率为24.14%;
(2)卡方检验的卡方值为7.2386,P值为0.0071