R语言论文范文.docx
《R语言论文范文.docx》由会员分享,可在线阅读,更多相关《R语言论文范文.docx(10页珍藏版)》请在冰豆网上搜索。
R语言论文范文
R语言论文范文
统计计算
分类数据的列联表分析
信计1002班王秋燕xx20310216
分类数据的列联表分析
第一部分:
统计学中根据变量取值类型的不同,把变量分为两大类:
离散型变量和连续型变量。
离散型变量又称为定量变量,可分为区间变量和比率变量。
称变量为名义变量,如果变量的可能取值是没有次序之分的几个水平或状态。
称变量为有序变量,如果变量的可能去只是有次序之分的几个水平或状态。
称变量为连续型变量,如果变量的可能取值是某个连续区间。
对离散型变量进行抽样取得的数据称为分类数据,也称为属性数据。
统计运用于我们日常生活的方方面面,尤其是在社会科学中,常常采用列联表来记录我们所获得资料,列联表的资料看起来只是一个一个的资料,但这些由两个或两个以上的类别交叉组合得出的格子,行变量的类别用r表示,ri表示第
i个类别,列变量的类别用c
表示,cj表示第j个类别,每种组合的观察频次用fij
表示,表中列出了行变量和列变量的所有可能的组合,所以称为列联表,一个r行
c列的列联表称为r?
c列联表。
通过运用统计检验方法,能够帮助我们更清晰地
分析社会现象。
列联表独立性检验是卡方拟合优度检验的一个特例,人们将两个或多个特征分类数据即交叉分类数据以表格形式列出即列联表,从而利用这些数据用来研究两种或多种分类之间是否有某种联系。
第二部分:
我们用统计理论来解决这个问题。
方法一:
我们采用独立性的?
2检验。
?
2检验(Chi-squaretest)是现代统计学的创始人之一,K.Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,可用于两个或多个率(或者构成比)之间的比较,计数资料的关联度分析,拟合优度检验等。
①?
2检验用途:
比较称名变量的次数,具体来讲,就是比较实际次数与期望次数(或理论次数)之间是否有相助差异,或研究检验观察值与理论值之间的紧密程度。
?
2拟合检验就是用来确定事件出现的频数分布与某一理论分布之间的差别是否是随
机性的。
②?
2分布基本思想:
第一,属连续型分布,第二,可加性是其基本性质,第三,唯一参数,即自由度。
(1)自由度为1的?
2分布,若Z~N(0,1),则Z2的分布称为自由度为1的?
2
2(Chi-squaredistribution),记为?
(1)或?
2
(1)。
(2)Z1,Z2......Zv互相独立,均服从N(0,1),则Z12?
Z22?
......?
Zv2的分布称自由度为V的?
2?
(2v)近
的正态分布。
图一
2
③?
2检验(chi-squaredistribution)基本公式:
?
?
?
T,
(A?
T)
2
?
?
(R?
1)(C?
1)
上述基本公式由K.Pearson提出,因此许多统计软件上常称这种检验为Pearson’sChi-squaretest,其他卡方检验都是在此基础上发展起来的\。
④?
2检验主要有三个:
适应性检验,正态性检验以及独立性检验。
(1)适合性检验为单样本卡方检验,它只是记一个变量,但数据要分成若干相互排斥的组和范畴。
其目的是检验时间次数与期望次数是否吻合。
?
np(实统计量:
2(ni),实质是:
测频数?
理论频数)2
?
?
?
i?
?
?
npi理论频数i?
1i?
1
k
2
k
2
适合性检验是用样本提供的信息去推断总体分布是否适合某种已知的规律。
(2)正态性检验,用卡方检验进行正态性检验其实也是一种适合性检验,即检验实际次数分布与期望次数分布是否有显著性差异。
(3)独立性检验就是检验两个特征或两个分类标准是互相独立的还是互有联系的。
用于独立性检验的数据一般成“列联表”的形式,即一个分类标准把
数据分为若干列,另一个分类标准把数据分为若干行,行列交叉形成一个个的方格。
每一行和每一列都有一个总计,书写在一行或一列的末尾,称为“边际总和”。
所有边际和加起来就是全部数据的个数或样本容量(N)。
独立性检验的分析步骤:
第一步:
建立假设与备择假设:
H0:
pij=pi?
pj(行变量与列变量独立);H1:
pij=pi?
pj(行变量与列变量不独立)。
第二步:
确定适当的检验统计量为chi-square;
第三步:
规定显著性水平?
,查表得出拒绝域和临界值;第四步:
运用R语言命令运行;?
第五步:
作出判断将检验统计量的值与?
水平的临界值进行比较,得出接受或拒绝原假设的结论:
若样本统计量的值落入拒绝域,则拒绝原假设,接受备择假设
H1;否则,接受H0。
?
2统计量用于检验列联表中变量之间是否存在显著性差异,或者用于检验变量之间是否独立。
当n很大,每格eij都不太小时,服从自由度k?
(r?
1)(c?
1)的
?
分布,计算公式为:
,其自由度为(r?
1)(c?
1),nij一列联
2
eij一列联表只第表中第i行第j列类别的实际频数,i行第j列类别的实际频数。
2rc
方法二:
Fisher精准检验
?
?
2
?
?
i?
1
j?
1
(nij?
eij)
eij
Fisher精准检验是列联表行变量和列变量独立性的另一种检验方法,Fisher精准检验是在行与列边际总数固定的假设下,利用超几何分布,用枚举法计算列联表可能出现情况的概率,此时要检验的问题仍是
HO:
行变量和列变量相互独立。
(1)首先介绍多元几何的多元推广,它是超几何分布的多元推广。
定义:
设随机向量X=(x1,x2,?
?
?
xr)满足条件:
(1)0?
Xi?
Ni(i=1,2,...,r),且N1?
N2?
...?
Nr?
N,
r
(2)m1,m2,...,mr为r个非负整数,o?
mi?
Ni且?
mi?
m(0?
m?
N),事件概率
i?
1
由下式给出:
(
P((X1,X2,...XR)?
(m1,m2,...mr))?
N1m1
)(
N2m2(N
)...()
Nrmr
r
)?
m!
(N?
m)!
?
Ni!
i?
1
r
,则称X
m
N!
?
mi!
(Ni?
mi)!
i?
1
服从多元超几何分布,记为X~MH(N1,N2,...Nr;m).
多元超几何分布的背景如下,共有N个个体分为r类,其中第i(i?
1,2,...,r)类有Ni个,现从总体中等可能无放回的抽取m个个体,用Xi表示m个个体中属于第i类的个数,则X?
(X1,X2,...,Xr)服从多元超几何分布。
特别当r?
2时,多元超几何分布就是超几何分布。
①2?
2表Fisher精准检验:
观测表(Table)概率,双侧(Twosided)p值,左侧(Leftsided)p值,右侧(Rightsided)p值。
观测表概率是按超几何分布计算的所观测到表格的概率。
较小的双侧p值有利于行变量和列变量有关联的备择假设。
对于2?
2表,当行列边际总数固定时,如表1,n11的数值完全决定了整个表格,n11记为(1,1)单元格可能出现的频数,则Fisher精准检验的左侧p值是事件{n11?
F}的概率,右侧值是事件{n11?
F}的概率。
表1
n11?
FLeftsidedp=
p(n11)?
p(n11?
F)
P(n11)?
n11?
F
p(n11),Rightsidedp=
?
n11?
F
p(n11)。
如表1,在行边际总数固定条件下,可以把row1和row2两行看成两个独立的二项分布总体,则检验问题
(1)中的H0相当于row1和row2有相同的二项分布,所以检验问题
(1)写成
H0:
p(Y?
coll)?
p(Y?
collX?
row1)?
p(Y?
collX?
row2),结合表1,则
HO:
p?
1?
p1p1?
1
?
p
21
p2?
。
(2)
由此不难理解,在Fisher精准检验中,与检验水平?
相比较,小的左侧p值有利于备择假设:
对于row1总体,观测属于coll的概率,小于其期望概率;小的右侧p值有利于备择假设:
对于row1总体,观测属于coll的概率,大于其期望概率。
即左侧p值和右侧p值分别对应检验问题
(2)的如下备择假设;
?
H1:
p11p1?
?
p?
1,Leftside?
?
H2:
P11P1?
?
P?
1,Rightside
p,p,
,
综上所述,对2?
2表,Fisher精准检验的左侧p值小于检验水平,说明row1的coll风险小于row2的coll风险,即p?
p12,又等价于OR(OddsRatio,优比比率)大于1。
右侧p值小于检验水平,说明row1的coll风险大于row2的coll风险,即p?
p12。
第三部分:
用R语言解决
>xdim(x)rclrcl(输出结果)V1v22436
>dimnames(rcl)[[1]]dimnames(rcl)[[2]]rcl(输出结果)b1b2a126a257
>Chisq.test(rcl)(用皮尔松卡方检验)
Pearson'sChi-squaredtestwithYates'continuitycorrectiondata:
rcl
X-squared=0.0824,df=1,p-value=0.774(输出结果)
最后看p-value值,p-value0.05,接受原假设,两者是独立的,没有关系。
从结论看,p-value=0.774,接受原假设,两者是独立没有关系的。
第四部分
例子:
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:
人)。
>dim(s)=c(2,2)>s
[,1][,2][1,]777542[2,]209949>rclrclV1V217775422209949
>dimnames(rcl)[[1]]
>dimnames(rcl)[[2]]rcl
donotgetlungcancerlungcancerdonotsmoke777542smoke209949>chisq.test(rcl)
Pearson'sChi-squaredtestwithYates'continuitycorrectiondata:
rcl
X-squared=54.721,df=1,p-value=1.389e-13
从最后的p-value可以看出,p-value
内容仅供参考