SAS学习系列20用PROCFREQ计算频数及卡方检验.docx

上传人:b****3 文档编号:3651079 上传时间:2022-11-24 格式:DOCX 页数:7 大小:45.23KB
下载 相关 举报
SAS学习系列20用PROCFREQ计算频数及卡方检验.docx_第1页
第1页 / 共7页
SAS学习系列20用PROCFREQ计算频数及卡方检验.docx_第2页
第2页 / 共7页
SAS学习系列20用PROCFREQ计算频数及卡方检验.docx_第3页
第3页 / 共7页
SAS学习系列20用PROCFREQ计算频数及卡方检验.docx_第4页
第4页 / 共7页
SAS学习系列20用PROCFREQ计算频数及卡方检验.docx_第5页
第5页 / 共7页
点击查看更多>>
下载资源
资源描述

SAS学习系列20用PROCFREQ计算频数及卡方检验.docx

《SAS学习系列20用PROCFREQ计算频数及卡方检验.docx》由会员分享,可在线阅读,更多相关《SAS学习系列20用PROCFREQ计算频数及卡方检验.docx(7页珍藏版)》请在冰豆网上搜索。

SAS学习系列20用PROCFREQ计算频数及卡方检验.docx

SAS学习系列20用PROCFREQ计算频数及卡方检验

20.用PROCFREQ计算频数及卡方检验

(一)卡方检验

一、卡方分布

k个相互独立的标准正态分布变量的平方和服从自由度为k的

卡方分布。

Jriji*11jHpJTT^4A.

卡方检验概述

卡方检验,由英国统计学家KarlPearson得到,主要应用于计数数据(定性变量中的无序分类变量)的分析,对于总体的分布不作任何假设,因此它属于非参数检验法。

理论证明,实际观察频数(fo)与理论频数(fe,又称期望频数)

之差的平方再除以理论频数所得的统计量,近似服从卡方分布,可表

示为:

(fofe)2

fe

2(n)

这是卡方检验的原始公式,其中当fe越大,近似效果越好。

显然fo与fe相差越大,卡方值就越大;fo与fe相差越小,卡方值就越小;因此它能够用来表示fo与fe相差的程度。

根据这个公式,卡方检验的一般问题是要检验名义型变量的实际观测频数和理论频数分布之间是否存在显著差异。

一般卡方检验要求:

①分类相互排斥,互不包容;②观察值相互独立;③样本容量不宜太小,理论频数》5,否则需要进行校正。

如果个别单元格的理论频数小于5,处理方法有四种:

(1)单元格合并法;

(2)增加样本数;

(3)去除样本法;

(4)使用校正公式。

当期望次数小于5时,应该用校正公式计算卡方值:

2(|fofe|0.5)2

二、卡方检验的原理

1.卡方检验所检测的是样本观察频数与理论(或总体)频数的

差异性;

2.理论或总体的分布状况,可用统计的期望值(理论值)来体现;

3.卡方的统计原理,是取观察频数与期望频数相比较。

当观察频数与期望频数完全一致时,2值为0;观察频数与期望频数越接近,两者之间的差异越小,2值越小;观察频数与期望频数差别越大,两者之间的差异越大,2值越大。

一旦2值大于某一个临界值,即可获得显著的统计结论。

4.步骤:

原假设Ho:

2=0;备择假设Hi:

2工0;

根据数据计算卡方值、P值(右尾面积);

若P值Wa,则拒绝Ho;若P值>a,则接受Ho.

三、卡方检验的应用

1.拟合优度检验

检验单个多项分类名义型变量的各分类间的实际观测次数(根据样本数据得到的实计数)与理论次数(根据理论或经验得到的期望次数)之间是否一致、或者服从理论上的某种分布?

这一类检验称为拟合性检验。

其自由度通常为分类数减去1。

2.各变量间的独立性检验(定性变量列联表)两个或两个以上因素多项分类的计数资料分析,也就是研究两类变量之间的关联性和依存性问题。

如果两变量无关联即相互独立,说明对于其中一个变量而言,另一变量多项分类次数上的变化是在无差

范围之内;如果两变量有关联即不独立,说明二者之间有交互作用存在。

独立性检验一般采用列联表的形式记录观察数据,列联表是由两个以上的变量进行交叉分类的频数分布表,是用于提供基本调查结果的最常用形式,可以清楚地表示定类变量之间是否相互关联。

其自由度是:

(行数-1)X(列数-1)

(二)PROCFREQ过程步

一、基本语法:

PROCFREQdata=数据集;

TABLES行变量*列变量/options;

vWEIGHT权重变量>;

说明:

结果将以表格形式(频数表)输出,

TABLESa—单向频数表;

TABLESa*b—a为行,b为列的双向频数表;

TABLESa*b*c—a为分层,b为行,c为列的三维频数表;

TABLESa*(bc)—等价于“TABLESa*ba*c”;

可选项:

(1)AGREE

做配对卡方检验;

(2)CHISQ

做独立性和关联度的卡方检验;

(3)CL

输出关联度的置信限;

(4)CMH

输出Cochran-Mantel-Haenszel统计量,特别对分层二维表;

(5)EXACT

做Fisher精确检验;

(6)MEASURES

输出PearsonandSpearma相关系数、gamma

Kendall'stau-b、Stuart'stai-c、Somer'sDlambda、

oddsratiosriskratios、置信区间的关联度;

(7)RELRISK

输出2X2表的相对风险度;

(8)TREND

对趋势做Cochran-Armitage检验;

(9)NOROW,NOCOL,NOPERCENT

不输出行百分比、列百分比、百分比;

、绘制PROCFREQ的图表

默认也会输出PROCFREQ的图表,若要输出指定图表,需要在

TABLES语句中,使用绘图可选项“PLOTS=(plot-list);”即可。

可以绘制频数图、优势比图、Agreement图、偏差图、以及两类带Kappa统计量和置信限的图。

基本语法:

PROCFREQdata=数据集;

TABLESvariablel*variable2/optionsPLOTS=(plot-list);可选绘图类型:

AGREEPLOT——双向(配对)表

CUMFREQPLOT——单向表

DEVIATIONPLOT——单向(卡方检验)表FREQPLOT——(任意)

KAPPAPLOT——三维表

ODDSRATIOPLOT——hx2X2(MEASURESorRELRISK)RELREISKPLOT——hx2x2(MEASURESorRELRISK)RISKDIFFPLOT——hx2x2(RELRISK)WTKAPPAPLOT——hxrxr(r>2)(配对表)

注:

FREQPLOT可以加选项,例如分组条形图默认是竖直排列,若要改用水平排列,可以用:

TABLESvariable1*variable2/PLOTS=FREQPLOT(TWOWAY

=GROUPHORIZONTAL);

若要堆叠分组条形,用“TWOWA丫二STACKED”。

例1一组常规公交车(R:

Regular)和快速公交车(E:

Express)的延

误(L:

Late)或准时(O:

OnTime)的数据(C:

\MyRawData\Bus.dat):

Busdat-记事本

-叵S

文件(F)鋼劉E)梏式(0]査看(V)

EOELELROEOEOEORLRORLROEORLEORLROEOEORLELEORLEORLEORLEOROELEOEOEOEOELEOEORLRLRORLELEORLROEOEDE0ELR0RL

读入数据,用PROCFREQ过程步计算频数,并做卡方检验

代码:

data

bus;

infile

'c:

\MyRawData\Bus.dat';

input

BusType$OnTimeOrLate$@@;

run;

proc

format

J

value

$type

'R'='Regular'

'E'='Express';

value

$late

'O'='OnTime'

'L'='Late';

run;

procfreqdata=bus;

tablesBusType*OnTimeOrLate/NOROWNOCOLCHISQ

PLOTS=FREQPLOT(TWOWAY=GROUPHORIZONTAL);

formatBusType$Type.OnTimeOrLate$Late.;

运行结果:

FREQ过程

频数

jfcDusTypt!

*OnTinieOrLaLe

百分比

OnTimeOrLate

Hus[ype

Late

OnIime

合计

Express

1

21?

29

11.00

4^.00

58.00

Regu1ar

13

8

21

2国00

16.00

42.00

合计

20

30

50

40.00

6000

100.00

分布:

BusTveiq*OrTLate

 

表wOnTimeOrLateDusType"的统计量

统计呈

自由度

旣率

卡去

1

7.2386

0.0071

愎然比卡方检粉

1

73364

U.0068

连续调整卡方

1

5.7505

0.0165

MantoIHHaenszo1卡方

1

7.0939

0.(MH7

Phi系数

-0.3805

列联系数

0.3666

CramorV

■0.3805

 

Fishar精确检骑

单元格(1.1)频数(门

1

左侧Pr<-F

0,0081

冇侧Pr>二F

0.9987

表概率9)

t).U06/

双侧Pr<-P

0.0097

样本大小二50

程序说明:

(1)常规公交车延迟率为61.9%,快速公交车延迟率为24.14%;

(2)卡方检验的卡方值为7.2386,P值为0.0071

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 计算机软件及应用

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1