经典的统计学分析报告 恋爱和单身.docx
《经典的统计学分析报告 恋爱和单身.docx》由会员分享,可在线阅读,更多相关《经典的统计学分析报告 恋爱和单身.docx(23页珍藏版)》请在冰豆网上搜索。
经典的统计学分析报告恋爱和单身
话说呢,这其实是我们概统小组(褚君、刘畅、韩冰、李铖)的小组作业,应广大人民同志的要求,特意发上来~~
特别鸣谢:
褚君、刘畅两位技术大牛!
!
!
没有你们就没有这篇惊天地泣鬼神的报告!
!
有木有!
!
还有冰哥!
!
@起人来灰常给力!
!
一、问题提出
从古到今,青年男女的恋爱总是大家评论的热门话题。
在中国古代,青年男女秉承父母之命、媒妁之言,通过媒婆相互共同,最终达成秦晋之好。
时至今日,社会风气自由开放,人们更加推崇给予当事人更大自主权的“婚姻自由,恋爱自由”之原则。
因此,选择伴侣的过程由一家之言逐渐演化成为多因素共同决定、相互影响的过程。
具体到大学生而言,由于绝大部分大学生基本已步入成年,对选择伴侣一事已具有一定的自主权与自由,如何能找到最佳的伴侣也成为不少大学生,尤其是男生所考虑的一件事。
而对于究竟何种特质左右着男生“脱光”与否一事,则是仁者见仁,智者见智。
因此,基于以上现状,我们觉得有必要影响对大学男生“脱光”的特质进行探究,以为广大寄希望于在大学生活中收获美满爱情的男生提供具有一定价值与说服力的指导。
二、研究设计
(一)实验变量
在进行待探究变量的选取时,我们从个人基本信息、生活习惯及恋爱预期三个方面出发进行变量的筛选,其中囊括了连续变量与离散变量,具体如下。
1.连续变量:
身高(cm)体重(kg)当前平均绩点意愿为恋爱活动花费的金额上限
2.离散变量:
年级、现在恋爱状态(是或否)、是否具有恋爱经历(是或否)、进入大学的途径(正常高考、竞赛保送、自主招生)、每周花费在课程学习上的小时数(分段计量)、每周花费在社团活动方面的小时数(分段计量)、在电子游戏方面花费的小时数(分段计量)、各类社交网络方面花费的小时数(分段计量)、每周洗澡的次数每学期剪发的次数、平均每餐饭需要的米饭量、体质健康测试的成绩、《思想道德修养与法律基础》总评成绩、平均每月所需的生活费(分段计量)
(二)问卷研究
1.问卷目的:
充分收集现象,为对总体进行估计提供基础。
2.问卷设计
问卷主要由三部分构成:
其一,向被调查者说明本组研究目的,并向其承诺问卷调查结果将被严格保密。
其二,个人信息部分,针对被调查者个人的基本状况的调查部分。
其三,主要问题部分,针对被调查者对于各问题偏好的调查部分。
3.问卷测试、发放与回收
在正式发放问卷之前,我们首先打印了15份纸质版问卷在私下进行小范围的发放,通过被调查者的反馈与建议,我们对问卷中的措辞及选项设计的不当进行了更正。
正式问卷的发放采用专业的问卷网站“问卷星”进行。
问卷发放采取在人人网等社交网站平台上对符合条件的被调查者(男生)进行邀请的方法。
据统计,本组问卷页面的访问人次达到449次(其中独立IP数为262),最终有效答卷为137份,完成率为30.51%。
三、数据统计与分析
(一)统计结果描述
1.性别分布
由于本研究针对男生进行,因此本次问卷回答者均为男性。
2.年级分布
本次接受调查者普遍为本科全日制在校大学生(除两人为研究生),其中,各年级人数分布如下:
Figure1年级分布
由上图可以看出,本次调查中大二年级的同学占绝大多数,达51.2%,其次为大一同学,占23.36%,大三与大四同学分别占到14.6%与9.49%,本科以上学历者仅占到1.46%。
3.现在所处感情状态与感情经历
Figure2目前感情状态
Figure3感情经历
由上图可以看出,在本次的被调查人群中,目前无伴侣者约占到总人数的3/4,而有伴侣者仅占到1/4。
在目前无伴侣的调查者中,约1/2(总样本的3/8)的调查者曾有过感情经历,而另外1/2(总样本的3/8)还未曾有过感情经历。
4.入学途径
Figure4入学途径
在关于入学途径的调查中,通过普通高考进入大学的被调查者占绝大多数,达到67.15%;其次为自主招生,占到19.71%;竞赛保送的同学占到13.14%。
5.身高
本次被调查者的总体身高分布情况,及对应正态分布图线如上图所示。
据统计,本次调查中,被调查者身高的样本均值为175.86cm,标准差为5.38。
其中,中位数为176cm,众数为170cm,最大值与最小值分别为192cm与160cm。
6.体重
本次被调查者总体体重分布情况,及正态分布图线如上图所示
据统计,本次调查中,被调查者体重的样本均值为66.56kg,标准差为8.01。
其中,中位数与众数均为65kg,最大值与最小值分别为87kg与50kg。
7.平均绩点
本次被调查者总体绩点分布情况,及正态分布图线如上图所示(由于被调查人群中大一年级同学尚未得知其平均绩点,因此仅选择了非大一年级同学的剩余92份调查结果)
据统计,本次调查中,被调查者体重的样本均值为3.33,标准差为0.31。
其中,中位数为3.37,众数为3.25,最大值与最小值分别为3.85与2.39。
(二)交叉分析
1.年级与平均身高
方差分析:
单因素方差分析(年级对于平均身高的影响)
SUMMARY
组(年级)
观测数
求和
平均
方差
4
12
2117
176.4167
26.62879
3
19
3351
176.3684
36.80117
2
61
10564.72
173.1921
527.7598
1
31
5429
175.129
26.31613
方差分析
差异源
SS
df
MS
F
P-value
Fcrit
组间
226.9944
3
75.66481
0.2695
0.84728
2.680811
组内
33410.41
119
280.7597
总计
33637.4
122
以上为通过ANOVA法,对获得的身高值与所在年级的数据处理之后的结果。
我们发现,观测到的数据的p-value=0.84728,非常大,因此我们可以认为,原假设“μ1=μ2=μ3=μ4”可以被接受。
这个同样可以通过F值的比较看出来。
由上表我们看出,在α=0.05的条件下,F3,119,0.05=2.680811,而观测到的F值为0.2695,远小于前者,因此我们同样可以得出结论,原假设应当被接受。
所以,我们得出结论,年级对于男生的身高没有很大的影响。
2.年级与平均体重的影响
方差分析:
单因素方差分析(年级对于平均体重的影响)
SUMMARY
组(年级)
观测数
求和
平均
方差
4
12
809
67.41667
68.08333
3
19
1249
65.73684
44.64912
2
61
4078
66.85246
65.3362
1
31
2051
66.16129
77.47312
方差分析
差异源
SS
df
MS
F
P-value
Fcrit
组间
31.82613
3
10.60871
0.161914
0.921786
2.680811
组内
7796.967
119
65.52073
总计
7828.793
122
同样的,P-value明显高于显著性水平,因此我们得出结论:
年级对于男生的体重没有显著影响。
3.出生地与绩点
方差分析:
单因素方差分析(地域对于绩点的影响)
SUMMARY
组(地区)
观测数
求和
平均
方差
1
17
56.99
3.352353
0.042132
2
76
250.34
3.293947
0.163931
方差分析
差异源
SS
df
MS
F
P-value
Fcrit
组间
0.04739
1
0.04739
0.332526
0.565599
3.945694
组内
12.96892
91
0.142516
总计
13.01631
92
类似的,我们做出了不同地域的同学的平均绩点的差异比较。
组1是来自一线城市的同学的数据,组2是来自其他地区城市的同学的相应数据。
我们在本次研究中把“一线城市”定义为:
北京,上海,广州,重庆,天津,香港,台北。
通过ANOVA表我们看出,“一线城市”同学的平均绩点要比其他城市同学的要稍微高一点点,可是差别并不显著,因为P-value也较大。
因此我们认为,来自不同地区的同学的成绩并不存在显著的差异。
4.身高与体重
SUMMARYOUTPUT
回归统计
MultipleR
0.568158
RSquare
0.322804
AdjustedRSquare
0.317207
标准误差
6.614726
观测值
123
方差分析
df
SS
MS
F
SignificanceF
回归分析
1
2523.673
2523.673
57.6779
7.18273E-12
残差
121
5294.306
43.7546
总计
122
7817.98
Coefficients
标准误差
tStat
P-value
Lower95%
Upper95%
Intercept
-81.7943
19.54877
-4.18411
5.45E-05
-120.4962165
-43.0923
height
0.843665
0.111088
7.594597
7.18E-12
0.62373806
1.063592
由上表及残差图我们可以看出,由回归得出的β0以及β1的P-value的值都很小,说明身高与体重是具有显著的线性相关关系的。
F检验的显著性水平和残差图都让我们相信,这个回归模型是可行且有效的。
因此,该结果检验了一个大家公认的道理,体重与身高水平间是具有明显的相关性的。
(三)针对影响脱光与否的变量的探究
1.样本数据的整理
由于大一新生缺乏体侧和GPA等数据,而我们推测这些数据应该与是否脱光有一定联系,所以做出了两个样本,Sample1包含大二至大四的93位同学的数据,包括体测与GPA等数据,Sample2包括大一到大四所有有效问卷的所有变量数据。
由于问卷设计的问题,对于恋爱史这个问题的回答,如果已经脱光的人这个问题就直接跳转了,所以所有已经脱光的同学的第三题回答都是“跳过”,造成做Logistic回归时,百分百匹配的错误结果。
2.logistic回归模型理论回顾及应用
1)Logistic回归理论:
Logistic回归模型是一种概率模型,适合于病例—对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类。
可用影响结果变量发生的因素为自变量与因变量,建立回归方程。
令:
y=1 发病(阳性、死亡、治愈等),y=0 未发病(阴性、生存、未治愈等)
发病的概率记为P,它与自变量x1,x2,…,xp之间的Logistic回归模型为:
可知,不发病的概率为:
经数学变换得:
定义:
Logistic变换即为:
流行病学的常用指标优势比(oddsratio,OR)或称比数比,定义为:
暴露人群发病优势与非暴露人群发病优势之比。
即Xi的优势比为:
2)Logistic回归模型在本研究中的应用
A.Sample1分析:
l 变量说明
y(因变量)
是否脱光
x1
入学途径
x2
眼镜度数
x3
身高
x4
体重
x5
出生地城市等级
x6
填写问卷所用时间
x7
年级
x8
学习时间
x9
社交活动时间
x10
游戏时间
x11
社交网络时间
x12
每周洗澡次数
x13
每学期剪发次数
x14
每餐饭饭量
x15
月平均生活费
x16
恋爱活动花销上限
l Logisticregression
Numberofobs=
127
LR chi2(15)=
4.90
Prob>chi2=
0.9930
Loglikelihood=-71.335948
PseudoR2=0.0332
y
OddsRatio
Std.Err.
z
P>|z|
95%Conf.Interval
x1
0.999396
0.27427
0
0.998
0.583629
1.711347
x2
0.999729
0.000877
-0.31
0.757
0.998012
1.001448
x3
1.019669
0.040322
0.49
0.622
0.943624
1.101842
x4
1.012096
0.031398
0.39
0.698
0.952391
1.075545
x5
0.837097
0.519101
-0.29
0.774
0.248272
2.82243
x7
1.094433
0.265786
0.37
0.71
0.679943
1.761592
x8
0.920306
0.158984
-0.48
0.631
0.655973
1.291156
x9
1.114203
0.167649
0.72
0.472
0.829637
1.496374
x10
1.081307
0.158682
0.53
0.594
0.811026
1.441661
x11
1.013538
0.150495
0.09
0.928
0.757617
1.35591
x12
0.936543
0.229368
-0.27
0.789
0.57951
1.513544
x13
1.191193
0.372359
0.56
0.576
0.645509
2.198174
x14
1.140432
0.380887
0.39
0.694
0.592626
2.194611
x15
1.041715
0.237615
0.18
0.858
0.666178
1.628951
x16
1.000107
0.0003
0.36
0.721
0.999519
1.000695
Sample1的伪R方很低,说明模型对数据的解释程度很小,没有发现显著的相关性。
B.Sample2分析
l 变量说明
Y(因变量)
是否脱光
x1
入学途径
x2
眼镜度数
x3
身高
x4
体重
x5
出生地城市等级
x6
平均绩点
x7
学习时间
x8
社团活动时间
x9
游戏时间
x10
社交网络时间
x11
每周洗澡次数
x12
每学期剪发次数
x13
每餐饭饭量
x14
体质健康测试成绩
x15
《思想品德修养》成绩
x16
月平均生活费
x17
恋爱活动花销上限
x18
填写问卷所用时间
x19
年级
l Logisticregression
Numberofobs=
93
LR chi2(19)=
19.76
Prob>chi2=
0.4091
Loglikelihood=-44.253338
PseudoR2=0.1825
y
OddsRatio
Std.Err.
z
P>|z|
95%Conf.Interval
x1
0.759095
0.319925
-0.65
0.513
0.332317
1.733965
x2
0.998395
0.001208
-1.33
0.184
0.996031
1.000764
x3
1.008557
0.028756
0.3
0.765
0.953743
1.066522
x4
0.993813
0.040715
-0.15
0.88
0.917133
1.076905
x5
1.303468
0.958247
0.36
0.718
0.308559
5.506333
x6
10.43962
13.1499
1.86
0.063
0.884094
123.2738
x7
0.677543
0.18384
-1.43
0.151
0.398087
1.153176
x8
0.960636
0.193426
-0.2
0.842
0.647393
1.425442
x9
1.348398
0.263897
1.53
0.127
0.918815
1.978828
x10
0.944803
0.196065
-0.27
0.784
0.629072
1.418997
x11
1.830184
0.692775
1.6
0.11
0.871549
3.843243
x12
0.863524
0.385489
-0.33
0.742
0.359987
2.071391
x13
0.862981
0.35367
-0.36
0.719
0.386508
1.92683
x14
1.014208
0.025802
0.55
0.579
0.964877
1.066061
x15
0.97647
0.049797
-0.47
0.641
0.883589
1.079113
x16
0.870935
0.31608
-0.38
0.703
0.427629
1.773797
x17
0.999315
0.000541
-1.27
0.206
0.998255
1.000376
x18
0.990483
0.004934
-1.92
0.055
0.98086
1.000201
x19
1.042927
0.401648
0.11
0.913
0.490278
2.218532
C.回归结果分析
观察伪R方,为0.1825,因为是取实际数据而且对于总的人口来说,大小为93的样本略小,所以模型拟合度较低也是在接受范围之内。
观察P值,可以发现x6和x18是显著的,分别代表GPA和填写问卷用时,他们的OddsRatio均为正,分别是10.43962和.9904828,Oddsratio代表的是自变量对因变量变化率的关联程度,由此我们发现相比于其他的变量GPA显著与是否脱光具有正相关性,但是由于不清楚因果顺序,我们并不能断定是“是否脱光”导致高GPA,还是高GPA导致了更容易脱光。
对于填写问卷时间,这里由于不是所有人都填写了这份问卷,所以这个变量的说明性不强,但是我们可以做出假设填写问卷的时间有可能反映了这个人的耐心程度,一定程度上是个人特质的反映。
所以也和是否脱光有正相关。
我们删掉变量x18(即问卷填写用时)后,重新对Sample2进行logistic回归:
l Logisticregression
Numberofobs=
93
LR chi2(19)=
15.26
Prob>chi2=
0.6439
Loglikelihood=-46.502035
PseudoR2=0.1410
y
OddsRatio
Std.Err.
z
P>|z|
95%Conf.Interval
x1
0.966567
0.389683
-0.08
0.933
0.438591
2.13012
x2
0.998552
0.001221
-1.18
0.236
0.996163
1.000948
x3
1.004375
0.023902
0.18
0.854
0.958604
1.052332
x4
1.000338
0.039711
0.01
0.993
0.925456
1.081279
x5
1.118968
0.762385
0.16
0.869
0.294354
4.253692
x6
9.875414
11.59249
1.95
0.051
0.989355
98.57315
x7
0.657345
0.171125
-1.61
0.107
0.394641
1.094927
x8
0.988415
0.188748
-0.06
0.951
0.679819
1.437095
x9
1.247821
0.231837
1.19
0.233
0.866971
1.795973
x10
0.998727
0.200802
-0.01
0.995
0.673451
1.481112
x11
1.994701
0.729849
1.89
0.059
0.973707
4.086274
x1