经典的统计学分析报告恋爱和单身.docx
《经典的统计学分析报告恋爱和单身.docx》由会员分享,可在线阅读,更多相关《经典的统计学分析报告恋爱和单身.docx(22页珍藏版)》请在冰豆网上搜索。
经典的统计学分析报告恋爱和单身
话说呢,这其实是我们概统小组(褚君、刘畅、韩冰、李铖)的小组作业,应广大人民同志的要求,特意发上来~~
特别鸣谢:
褚君、刘畅两位技术大牛!
!
!
没有你们就没有这篇惊天地泣鬼神的报告!
!
有木有!
!
还有冰哥!
!
@起人来灰常给力!
!
一、问题提出
从古到今,青年男女的恋爱总是大家评论的热门话题。
在中国古代,青年男女秉承父母之命、媒妁之言,通过媒婆相互共同,最终达成秦晋之好。
时至今日,社会风气自由开放,人们更加推崇给予当事人更大自主权的“婚姻自由,恋爱自由”之原则。
因此,选择伴侣的过程由一家之言逐渐演化成为多因素共同决定、相互影响的过程。
具体到大学生而言,由于绝大部分大学生基本已步入成年,对选择伴侣一事已具有一定的自主权与自由,如何能找到最佳的伴侣也成为不少大学生,尤其是男生所考虑的一件事。
而对于究竟何种特质左右着男生“脱光”与否一事,则是仁者见仁,智者见智。
因此,基于以上现状,我们觉得有必要影响对大学男生“脱光”的特质进行探究,以为广大寄希望于在大学生活中收获美满爱情的男生提供具有一定价值与说服力的指导。
二、研究设计
(一)实验变量
在进行待探究变量的选取时,我们从个人基本信息、生活习惯及恋爱预期三个方面出发进行变量的筛选,其中囊括了连续变量与离散变量,具体如下。
1.连续变量:
身高(cm)体重(kg)当前平均绩点意愿为恋爱活动花费的金额上限
2.离散变量:
年级、现在恋爱状态(是或否)、是否具有恋爱经历(是或否)、进入大学的途径(正常高考、竞赛保送、自主招生)、每周花费在课程学习上的小时数(分段计量)、每周花费在社团活动方面的小时数(分段计量)、在电子游戏方面花费的小时数(分段计量)、各类社交网络方面花费的小时数(分段计量)、每周洗澡的次数每学期剪发的次数、平均每餐饭需要的米饭量、体质健康测试的成绩、《思想道德修养与法律基础》总评成绩、平均每月所需的生活费(分段计量)
(二)问卷研究
1.问卷目的:
充分收集现象,为对总体进行估计提供基础。
2.问卷设计
问卷主要由三部分构成:
其一,向被调查者说明本组研究目的,并向其承诺问卷调查结果将被严格保密。
其二,个人信息部分,针对被调查者个人的基本状况的调查部分。
其三,主要问题部分,针对被调查者对于各问题偏好的调查部分。
3.问卷测试、发放与回收
在正式发放问卷之前,我们首先打印了15份纸质版问卷在私下进行小范围的发放,通过被调查者的反馈与建议,我们对问卷中的措辞及选项设计的不当进行了更正。
正式问卷的发放采用专业的问卷网站“问卷星”进行。
问卷发放采取在人人网等社交网站平台上对符合条件的被调查者(男生)进行邀请的方法。
据统计,本组问卷页面的访问人次达到449次(其中独立IP数为262),最终有效答卷为137份,完成率为30.51%。
word
编辑版.
三、数据统计与分析
(一)统计结果描述
1.性别分布
由于本研究针对男生进行,因此本次问卷回答者均为男性。
2.年级分布
本次接受调查者普遍为本科全日制在校大学生(除两人为研究生),其中,各年级人数分布如下:
Figure1年级分布
由上图可以看出,本次调查中大二年级的同学占绝大多数,达51.2%,其次为大一同学,占23.36%,大三与大四同学分别占到14.6%与9.49%,本科以上学历者仅占到1.46%。
3.现在所处感情状态与感情经历
Figure2目前感情状态
word
编辑版.
感情经历Figure3
,而有伴侣者3/4由上图可以看出,在本次的被调查人群中,目前无伴侣者约占到总人数的)的调查者曾有过感情经历,3/81/2(总样本的仅占到1/4。
在目前无伴侣的调查者中,约3/8)还未曾有过感情经历。
而另外1/2(总样本的入学途径4.
入学途径Figure4
;在关于入学途径的调查中,通过普通高考进入大学的被调查者占绝大多数,达到67.15%。
19.71%;竞赛保送的同学占到13.14%其次为自主招生,占到身高5.
word
编辑版.
本次被调查者的总体身高分布情况,及对应正态分布图线如上图所示。
。
其中,中位数5.38据统计,本次调查中,被调查者身高的样本均值为175.86cm,标准差为160cm。
,最大值与最小值分别为,众数为170cm192cm与为176cm6.体重
本次被调查者总体体重分布情况,及正态分布图线如上图所示。
其中,中位数,标准差为66.56kg8.01据统计,本次调查中,被调查者体重的样本均值为50kg与。
87kg65kg与众数均为,最大值与最小值分别为平均绩点7.word
编辑版.
(由于被调查人群中大一年级及正态分布图线如上图所示本次被调查者总体绩点分布情况,份调查结果)同学尚未得知其平均绩点,因此仅选择了非大一年级同学的剩余92,3.37其中,中位数为3.33被调查者体重的样本均值为,标准差为0.31。
据统计,本次调查中,。
与2.39众数为3.25,最大值与最小值分别为3.85
(二)交叉分析年级与平均身高1.方差分析:
单因素方差分析(年级对于平均身高的影响)
SUMMARY
方差求和平均组(年级)观测数
26.628792117176.4167412
36.80117176.36843193351
527.7598173.192126110564.72
26.31613175.1291315429
方差分析FcritFMSP-valueSSdf差异源2.6808110.26950.84728226.9944375.66481组间33410.41119280.7597组内
33637.4122总计
法,对获得的身高值与所在年级的数据处理之后的结果。
我们发现,以上为通过ANOVA,非常大,因此我们可以认为,原假设“μ1=μ2=μ3=μ4”可p-value=0.84728观测到的数据的的条件下,α=0.05F值的比较看出来。
由上表我们看出,在以被接受。
这个同样可以通过因此我们同样可以得出结论,远小于前者,值为0.2695,F,F3,119,0.05=2.680811而观测到的原假设应当被接受。
所以,我们得出结论,年级对于男生的身高没有很大的影响。
word
编辑版.
2.年级与平均体重的影响
方差分析:
单因素方差分析(年级对于平均体重的影响)
SUMMARY
平均方差组(年级)观测数求和80967.4166768.08333412
65.7368444.649123191249
65.3362261407866.85246
131205166.1612977.47312
方差分析
SSdfMSFP-valueFcrit差异源31.82613310.608710.1619140.9217862.680811组间7796.96711965.52073组内
7828.793122总计
同样的,P-value明显高于显著性水平,因此我们得出结论:
年级对于男生的体重没有显著影响。
3.出生地与绩点
方差分析:
单因素方差分析(地域对于绩点的影响)
SUMMARY
组(地区)观测数求和平均方差
11756.993.3523530.042132
276250.343.2939470.163931
方差分析SSdfMSFP-valueFcrit差异源
0.0473910.047390.3325260.5655993.945694组间
12.96892910.142516组内
13.0163192总计
类似的,我们做出了不同地域的同学的平均绩点的差异比较。
组1是来自一线城市的同学的数据,组2是来自其他地区城市的同学的相应数据。
我们在本次研究中把“一线城市”定义为:
北京,上海,广州,重庆,天津,香港,台北。
通过ANOVA表我们看出,“一线城市”同学的平均绩点要比其他城市同学的要稍微高一点点,可是差别并不显著,因为P-value也较大。
因此我们认为,来自不同地区的同学的成绩并不存在显著的差异。
4.身高与体重
SUMMARYOUTPUT回归统计
word
编辑版.
0.568158MultipleR0.322804RSquare
R
Adjusted0.31720795%Conf.IntervalP>|z|zOddsRatioyStd.Err.
1.7113470.9980x10.5836290.274270.999396
1.001448-0.31x20.0008770.7570.9997290.998012是否脱光(因变量)Y
Square
6.614726标准误差123观测值
方差分析
FdfMSSignificanceFSS
2523.6732523.67317.18273E-1257.6779回归分析5294.30612143.7546残差7817.98122总计
Upper95%P-valueCoefficientsLower95%tStat标准误差19.54877-81.7943-43.09235.45E-05-4.18411-120.4962165Intercept
0.1110880.8436651.0635927.5945970.623738067.18E-12height
y(因变量)是否脱光
x1入学途径
x2眼镜度数
x3身高
x4体重1.1018420.6220.040322x30.490.9436241.019669
1.0755450.0313980.39x40.6980.9523911.012096
2.82243-0.290.519101x50.8370970.7740.248272
1.7615920.71x70.370.2657860.6799431.094433
1.2911560.6310.655973x80.9203060.158984-0.48
1.4963741.114203x90.8296370.720.4720.167649
1.4416611.081307x100.530.5940.8110260.158682
1.35591x110.9280.1504950.090.7576171.013538
1.513544x120.7890.2293680.9365430.57951-0.27
2.1981740.3723590.5760.560.645509x131.191193
2.1946110.3808870.390.592626x140.6941.140432
1.6289510.2376150.18x150.8581.0417150.666178
1.000695
x160.0003
0.721
0.36
0.999519
1.000107
的值都很小,说明身高P-value以及β1的由上表及残差图我们可以看出,由回归得出的β0这个回检验的显著性水平和残差图都让我们相信,与体重是具有显著的线性相关关系的。
F体重与身高水平间是具该结果检验了一个大家公认的道理,归模型是可行且有效的。
因此,有明显的相关性的。
(三)针对影响脱光与否的变量的探究1.样本数据的整理等数据,而我们推测这些数据应该与是否脱光有一定联系,由于大一新生缺乏体侧和GPA等数位同学的数据,包括体测与GPA所以做出了两个样本,Sample1包含大二至大四的93Sample2包括大一到大四所有有效问卷的所有变量数据。
据,如果已经脱光的人这个问题就直接跳转对于恋爱史这个问题的回答,由于问卷设计的问题,回归时,百分百Logistic了,所以所有已经脱光的同学的第三题回答都是“跳过”,造成做匹配的错误结果。
回归模型理论回顾及应用2.logistic回归理论:
)Logistic1回归模型是一种概率模型,适合于病例—对照研究、随访研究和横断面研究,且结Logistic可用影响结果变量发生的因素为自变量与因变果发生的变量取值必须是二分的或多项分类。
量,建立回归方程。
未发病(阴性、生存、未治愈等)发病(阳性、死亡、治愈等),y=0令:
y=1
回归模型为:
之间的P,它与自变量x1,x2,…,xpLogistic发病的概率记为
可知,不发病的概率为:
word
编辑版.
经数学变换得:
定义:
Logistic变换即为:
流行病学的常用指标优势比(oddsratio,OR)或称比数比,定义为:
暴露人群发病优势与非暴露人群发病优势之比。
即Xi的优势比为:
2)Logistic回归模型在本研究中的应用
A.Sample1分析:
l变量说明
x5出生地城市等级
x6填写问卷所用时间
x7年级
x8学习时间
x9社交活动时间
x10游戏时间
x11社交网络时间
x12每周洗澡次数
x13每学期剪发次数
x14每餐饭饭量
x15月平均生活费
x16
恋爱活动花销上限
Logisticregressionl
127Numberofobs=
4.90chi2(15)=LR
0.9930
Prob>chi2=
PseudoR2=0.0332
Loglikelihood=-71.335948
word
编辑版.
方很低,说明模型对数据的解释程度很小,没有发现显著的相关性。
的伪RSample1分析B.Sample2变量说明l
x1入学途径
x2眼镜度数
x3身高
x4体重
x5出生地城市等级
x6平均绩点
x7学习时间
x8社团活动时间
x9游戏时间
x10社交网络时间
x11每周洗澡次数
x12每学期剪发次数
x13每餐饭饭量
x14体质健康测试成绩
x15《思想品德修养》成绩
x16月平均生活费
x17恋爱活动花销上限
x18填写问卷所用时间
x19
年级
lLogisticregressionword
编辑版.
Numberofobs=93
19.76LRchi2(19)=
0.4091
Prob>chi2=
PseudoR2=0.1825
Loglikelihood=-44.253338
yOddsRatioStd.Err.
P>|z|z
0.759095x10.319925
-0.650.513
0.001208x20.998395
-1.330.184
0.028756x31.008557
0.30.765
0.0407150.993813x4
-0.150.88
0.958247x51.303468
0.360.718
13.1499x610.43962
1.860.063
0.18384x70.677543
-1.430.151
0.1934260.960636x8
-0.20.842
0.263897x91.348398
1.530.127
0.1960650.944803x10
-0.270.784
0.6927751.830184x11
0.111.6
0.3854890.863524x12
0.742-0.33
0.353670.862981x13
0.719-0.36
0.025802x141.014208
0.5790.55
0.049797x150.97647
-0.470.641
0.316080.870935x16
0.703-0.38
0.0005410.999315x17
-1.270.206
0.004934x180.990483
0.055-1.92
0.4016481.042927x19
0.110.913
95%Conf.Interval1.7339650.3323171.0007640.9960310.9537431.0665221.0769050.9171335.5063330.308559123.27380.8840940.3980871.1531760.6473931.4254420.9188151.9788280.6290721.4189973.8432430.8715492.0713910.3599870.3865081.926830.9648771.0660610.8835891.0791130.4276291.7737971.0003760.9982550.980861.0002010.490278
2.218532
C.回归结果分析
观察伪R方,为0.1825,因为是取实际数据而且对于总的人口来说,大小为93的样本略小,所以模型拟合度较低也是在接受范围之内。
观察P值,可以发现x6和x18是显著的,分别代表GPA和填写问卷用时,他们的OddsRatio均为正,分别是10.43962和.9904828,Oddsratio代表的是自变量对因变量变化率的关联程度,由此我们发现相比于其他的变量GPA显著与是否脱光具有正相关性,但是由于不清楚因果顺序,我们并不能断定是“是否脱光”导致高GPA,还是高GPA导致了更容易脱光。
对于填写问卷时间,这里由于不是所有人都填写了这份问卷,所以这个变量的说明性不强,但是我们可以做出假设填写问卷的时间有可能反映了这个人的耐心程度,一定程度上是个人特质的反映。
所以也和是否脱光有正相关。
我们删掉变量x18(即问卷填写用时)后,重新对Sample2进行logistic回归:
lLogisticregression
Numberofobs=93
15.26LRchi2(19)=
0.6439
Prob>chi2=
word
编辑版.
Loglikelihood=-46.502035PseudoR2=0.1410
y
OddsRatio
Std.Err.
z
P>|z|
95%Conf.Interval
x1
0.966567
0.389683
-0.08
0.933
0.438591
2.13012
x2
0.998552
0.001221
-1.18
0.236
0.996163
1.000948
x3
1.004375
0.023902
0.18
0.854
0.958604
1.052332
x4
1.000338
0.039711
0.01
0.993
0.925456
1.081279
x5
1.118968
0.762385
0.16
0.869
0.294354
4.253692
x6
9.875414
11.59249
1.95
0.051
0.989355
98.57315
x7
0.657345
0.171125
-1.61
0.107
0.394641
1.094927
x8
0.988415
0.188748
-0.06
0.951
0.679819
1.437095
x9
1.247821
0.231837
1.19
0.233
0.866971
1.795973
x10
0.998727
0.200802
-0.01
0.995
0.673451
1.481112
x11
1.994701
0.729849
1.89
0.059
0.973707
4.086274
x12
0.870734
0.379475
-0.32
0.751
0.370615
2.045727
x13
1.046934
0.405072
0.12
0.906
0.490432
2.234909
x14
1.024493
0.025059
0.99
0.323
0.976536
1.074805
x15
0.968472
0.048457
-0.64
0.522
0.878006
1.068258
x16
0.860198
0.308118
-0.42
0.674
0.426288
1.735777
x17
0.999382
0.00048
-1.29
0.198
0.998442
1.000324
x19
1.06663
0.394124
0.17
0.861
0.517002
2.200574
发现除x6显著的同时,x11也显著p值为0.059,OddsRatio为1.994701,说明洗澡次数的多少和是否脱光有显著正相关,但是在交叉分析的时候也可以看见,并不是洗澡次数越多越好,而是在洗澡次数为一周5-6次的人群中脱光比率最高。
同时观察到P值较小的x7(学习时间),我们猜测GPA和学习时间之间是否有相关性,所以对绩点和学习时间做了相关性分析:
由相关性分析得出,绩点与学习时间的相关系数为0.2356,相关性显著水平为0.0230,说明他们是显著相关的,于是我们再调整logistic回归模型,去掉学习时间后再做回归:
lLogisticregression
Numberofobs=93
12.45chi2(19)=LR
0.7724