经典的统计学分析报告恋爱和单身.docx

资源描述

经典的统计学分析报告恋爱和单身.docx

《经典的统计学分析报告恋爱和单身.docx》由会员分享，可在线阅读，更多相关《经典的统计学分析报告恋爱和单身.docx（23页珍藏版）》请在冰豆网上搜索。

经典的统计学分析报告恋爱和单身.docx

经典的统计学分析报告恋爱和单身

话说呢，这其实是我们概统小组（褚君、刘畅、韩冰、李铖）的小组作业，应广大人民同志的要求，特意发上来~~

特别鸣谢：

褚君、刘畅两位技术大牛！

！

没有你们就没有这篇惊天地泣鬼神的报告！

！

有木有！

！

还有冰哥！

！

@起人来灰常给力！

！

一、问题提出

从古到今，青年男女的恋爱总是大家评论的热门话题。

在中国古代，青年男女秉承父母之命、媒妁之言，通过媒婆相互共同，最终达成秦晋之好。

时至今日，社会风气自由开放，人们更加推崇给予当事人更大自主权的“婚姻自由，恋爱自由”之原则。

因此，选择伴侣的过程由一家之言逐渐演化成为多因素共同决定、相互影响的过程。

具体到大学生而言，由于绝大部分大学生基本已步入成年，对选择伴侣一事已具有一定的自主权与自由，如何能找到最佳的伴侣也成为不少大学生，尤其是男生所考虑的一件事。

而对于究竟何种特质左右着男生“脱光”与否一事，则是仁者见仁，智者见智。

因此，基于以上现状，我们觉得有必要影响对大学男生“脱光”的特质进行探究，以为广大寄希望于在大学生活中收获美满爱情的男生提供具有一定价值与说服力的指导。

二、研究设计

（一）实验变量

在进行待探究变量的选取时，我们从个人基本信息、生活习惯及恋爱预期三个方面出发进行变量的筛选，其中囊括了连续变量与离散变量，具体如下。

1.连续变量：

身高（cm）体重（kg）当前平均绩点意愿为恋爱活动花费的金额上限

2.离散变量：

年级、现在恋爱状态（是或否）、是否具有恋爱经历（是或否）、进入大学的途径（正常高考、竞赛保送、自主招生）、每周花费在课程学习上的小时数（分段计量）、每周花费在社团活动方面的小时数（分段计量）、在电子游戏方面花费的小时数（分段计量）、各类社交网络方面花费的小时数（分段计量）、每周洗澡的次数每学期剪发的次数、平均每餐饭需要的米饭量、体质健康测试的成绩、《思想道德修养与法律基础》总评成绩、平均每月所需的生活费（分段计量）

（二）问卷研究

1.问卷目的：

充分收集现象，为对总体进行估计提供基础。

2.问卷设计

问卷主要由三部分构成：

其一，向被调查者说明本组研究目的，并向其承诺问卷调查结果将被严格保密。

其二，个人信息部分，针对被调查者个人的基本状况的调查部分。

其三，主要问题部分，针对被调查者对于各问题偏好的调查部分。

3.问卷测试、发放与回收

在正式发放问卷之前，我们首先打印了15份纸质版问卷在私下进行小范围的发放，通过被调查者的反馈与建议，我们对问卷中的措辞及选项设计的不当进行了更正。

正式问卷的发放采用专业的问卷网站“问卷星”进行。

问卷发放采取在人人网等社交网站平台上对符合条件的被调查者（男生）进行邀请的方法。

据统计，本组问卷页面的访问人次达到449次（其中独立IP数为262），最终有效答卷为137份，完成率为30.51%。

三、数据统计与分析

（一）统计结果描述

1.性别分布

由于本研究针对男生进行，因此本次问卷回答者均为男性。

2.年级分布

本次接受调查者普遍为本科全日制在校大学生（除两人为研究生），其中，各年级人数分布如下：

Figure1年级分布

由上图可以看出，本次调查中大二年级的同学占绝大多数，达51.2%，其次为大一同学，占23.36%，大三与大四同学分别占到14.6%与9.49%，本科以上学历者仅占到1.46%。

3.现在所处感情状态与感情经历

Figure2目前感情状态

Figure3感情经历

由上图可以看出，在本次的被调查人群中，目前无伴侣者约占到总人数的3/4，而有伴侣者仅占到1/4。

在目前无伴侣的调查者中，约1/2（总样本的3/8）的调查者曾有过感情经历，而另外1/2（总样本的3/8）还未曾有过感情经历。

4.入学途径

Figure4入学途径

在关于入学途径的调查中，通过普通高考进入大学的被调查者占绝大多数，达到67.15%；其次为自主招生，占到19.71%；竞赛保送的同学占到13.14%。

5.身高

本次被调查者的总体身高分布情况，及对应正态分布图线如上图所示。

据统计，本次调查中，被调查者身高的样本均值为175.86cm，标准差为5.38。

其中，中位数为176cm，众数为170cm，最大值与最小值分别为192cm与160cm。

6.体重

本次被调查者总体体重分布情况，及正态分布图线如上图所示

据统计，本次调查中，被调查者体重的样本均值为66.56kg，标准差为8.01。

其中，中位数与众数均为65kg，最大值与最小值分别为87kg与50kg。

7.平均绩点

本次被调查者总体绩点分布情况，及正态分布图线如上图所示（由于被调查人群中大一年级同学尚未得知其平均绩点，因此仅选择了非大一年级同学的剩余92份调查结果）

据统计，本次调查中，被调查者体重的样本均值为3.33，标准差为0.31。

其中，中位数为3.37，众数为3.25，最大值与最小值分别为3.85与2.39。

（二）交叉分析

1.年级与平均身高

方差分析：

单因素方差分析（年级对于平均身高的影响）

SUMMARY

组（年级）

观测数

求和

平均

方差

2117

176.4167

26.62879

3351

176.3684

36.80117

10564.72

173.1921

527.7598

5429

175.129

26.31613

方差分析

差异源

P-value

Fcrit

组间

226.9944

75.66481

0.2695

0.84728

2.680811

组内

33410.41

119

280.7597

总计

33637.4

122

以上为通过ANOVA法，对获得的身高值与所在年级的数据处理之后的结果。

我们发现，观测到的数据的p-value=0.84728，非常大，因此我们可以认为，原假设“μ1=μ2=μ3=μ4”可以被接受。

这个同样可以通过F值的比较看出来。

由上表我们看出，在α=0.05的条件下，F3,119,0.05=2.680811，而观测到的F值为0.2695，远小于前者，因此我们同样可以得出结论，原假设应当被接受。

所以，我们得出结论，年级对于男生的身高没有很大的影响。

2.年级与平均体重的影响

方差分析：

单因素方差分析（年级对于平均体重的影响）

SUMMARY

组（年级）

观测数

求和

平均

方差

809

67.41667

68.08333

1249

65.73684

44.64912

4078

66.85246

65.3362

2051

66.16129

77.47312

方差分析

差异源

P-value

Fcrit

组间

31.82613

10.60871

0.161914

0.921786

2.680811

组内

7796.967

119

65.52073

总计

7828.793

122

同样的，P-value明显高于显著性水平，因此我们得出结论：

年级对于男生的体重没有显著影响。

3.出生地与绩点

方差分析：

单因素方差分析（地域对于绩点的影响）

SUMMARY

组（地区）

观测数

求和

平均

方差

56.99

3.352353

0.042132

250.34

3.293947

0.163931

方差分析

差异源

P-value

Fcrit

组间

0.04739

0.332526

0.565599

3.945694

组内

12.96892

0.142516

总计

13.01631

类似的，我们做出了不同地域的同学的平均绩点的差异比较。

组1是来自一线城市的同学的数据，组2是来自其他地区城市的同学的相应数据。

我们在本次研究中把“一线城市”定义为：

北京，上海，广州，重庆，天津，香港，台北。

通过ANOVA表我们看出，“一线城市”同学的平均绩点要比其他城市同学的要稍微高一点点，可是差别并不显著，因为P-value也较大。

因此我们认为，来自不同地区的同学的成绩并不存在显著的差异。

4.身高与体重

SUMMARYOUTPUT

回归统计

MultipleR

0.568158

RSquare

0.322804

AdjustedRSquare

0.317207

标准误差

6.614726

观测值

123

方差分析

SignificanceF

回归分析

2523.673

57.6779

7.18273E-12

残差

121

5294.306

43.7546

总计

122

7817.98

Coefficients

标准误差

tStat

P-value

Lower95%

Upper95%

Intercept

-81.7943

19.54877

-4.18411

5.45E-05

-120.4962165

-43.0923

height

0.843665

0.111088

7.594597

7.18E-12

0.62373806

1.063592

由上表及残差图我们可以看出，由回归得出的β0以及β1的P-value的值都很小，说明身高与体重是具有显著的线性相关关系的。

F检验的显著性水平和残差图都让我们相信，这个回归模型是可行且有效的。

因此，该结果检验了一个大家公认的道理，体重与身高水平间是具有明显的相关性的。

（三）针对影响脱光与否的变量的探究

1.样本数据的整理

由于大一新生缺乏体侧和GPA等数据，而我们推测这些数据应该与是否脱光有一定联系，所以做出了两个样本，Sample1包含大二至大四的93位同学的数据，包括体测与GPA等数据，Sample2包括大一到大四所有有效问卷的所有变量数据。

由于问卷设计的问题，对于恋爱史这个问题的回答，如果已经脱光的人这个问题就直接跳转了，所以所有已经脱光的同学的第三题回答都是“跳过”，造成做Logistic回归时，百分百匹配的错误结果。

2.logistic回归模型理论回顾及应用

1）Logistic回归理论：

Logistic回归模型是一种概率模型，适合于病例—对照研究、随访研究和横断面研究，且结果发生的变量取值必须是二分的或多项分类。

可用影响结果变量发生的因素为自变量与因变量，建立回归方程。

令：

y=1 发病（阳性、死亡、治愈等），y=0 未发病（阴性、生存、未治愈等）

发病的概率记为P，它与自变量x1,x2,…,xp之间的Logistic回归模型为：

可知，不发病的概率为：

经数学变换得：

定义：

Logistic变换即为：

流行病学的常用指标优势比（oddsratio,OR）或称比数比，定义为：

暴露人群发病优势与非暴露人群发病优势之比。

即Xi的优势比为：

2）Logistic回归模型在本研究中的应用

A.Sample1分析：

l 变量说明

y（因变量）

是否脱光

入学途径

眼镜度数

身高

体重

出生地城市等级

填写问卷所用时间

年级

学习时间

社交活动时间

x10

游戏时间

x11

社交网络时间

x12

每周洗澡次数

x13

每学期剪发次数

x14

每餐饭饭量

x15

月平均生活费

x16

恋爱活动花销上限

l Logisticregression

Numberofobs=

127

LR chi2（15）=

4.90

Prob>chi2=

0.9930

Loglikelihood=-71.335948

PseudoR2=0.0332

OddsRatio

Std.Err.

P>|z|

95%Conf.Interval

0.999396

0.27427

0.998

0.583629

1.711347

0.999729

0.000877

-0.31

0.757

0.998012

1.001448

1.019669

0.040322

0.49

0.622

0.943624

1.101842

1.012096

0.031398

0.39

0.698

0.952391

1.075545

0.837097

0.519101

-0.29

0.774

0.248272

2.82243

1.094433

0.265786

0.37

0.71

0.679943

1.761592

0.920306

0.158984

-0.48

0.631

0.655973

1.291156

1.114203

0.167649

0.72

0.472

0.829637

1.496374

x10

1.081307

0.158682

0.53

0.594

0.811026

1.441661

x11

1.013538

0.150495

0.09

0.928

0.757617

1.35591

x12

0.936543

0.229368

-0.27

0.789

0.57951

1.513544

x13

1.191193

0.372359

0.56

0.576

0.645509

2.198174

x14

1.140432

0.380887

0.39

0.694

0.592626

2.194611

x15

1.041715

0.237615

0.18

0.858

0.666178

1.628951

x16

1.000107

0.0003

0.36

0.721

0.999519

1.000695

Sample1的伪R方很低，说明模型对数据的解释程度很小，没有发现显著的相关性。

B.Sample2分析

l 变量说明

Y（因变量）

是否脱光

入学途径

眼镜度数

身高

体重

出生地城市等级

平均绩点

学习时间

社团活动时间

游戏时间

x10

社交网络时间

x11

每周洗澡次数

x12

每学期剪发次数

x13

每餐饭饭量

x14

体质健康测试成绩

x15

《思想品德修养》成绩

x16

月平均生活费

x17

恋爱活动花销上限

x18

填写问卷所用时间

x19

年级

l Logisticregression

Numberofobs=

LR chi2（19）=

19.76

Prob>chi2=

0.4091

Loglikelihood=-44.253338

PseudoR2=0.1825

OddsRatio

Std.Err.

P>|z|

95%Conf.Interval

0.759095

0.319925

-0.65

0.513

0.332317

1.733965

0.998395

0.001208

-1.33

0.184

0.996031

1.000764

1.008557

0.028756

0.3

0.765

0.953743

1.066522

0.993813

0.040715

-0.15

0.88

0.917133

1.076905

1.303468

0.958247

0.36

0.718

0.308559

5.506333

10.43962

13.1499

1.86

0.063

0.884094

123.2738

0.677543

0.18384

-1.43

0.151

0.398087

1.153176

0.960636

0.193426

-0.2

0.842

0.647393

1.425442

1.348398

0.263897

1.53

0.127

0.918815

1.978828

x10

0.944803

0.196065

-0.27

0.784

0.629072

1.418997

x11

1.830184

0.692775

1.6

0.11

0.871549

3.843243

x12

0.863524

0.385489

-0.33

0.742

0.359987

2.071391

x13

0.862981

0.35367

-0.36

0.719

0.386508

1.92683

x14

1.014208

0.025802

0.55

0.579

0.964877

1.066061

x15

0.97647

0.049797

-0.47

0.641

0.883589

1.079113

x16

0.870935

0.31608

-0.38

0.703

0.427629

1.773797

x17

0.999315

0.000541

-1.27

0.206

0.998255

1.000376

x18

0.990483

0.004934

-1.92

0.055

0.98086

1.000201

x19

1.042927

0.401648

0.11

0.913

0.490278

2.218532

C.回归结果分析

观察伪R方，为0.1825，因为是取实际数据而且对于总的人口来说，大小为93的样本略小，所以模型拟合度较低也是在接受范围之内。

观察P值，可以发现x6和x18是显著的，分别代表GPA和填写问卷用时，他们的OddsRatio均为正，分别是10.43962和.9904828，Oddsratio代表的是自变量对因变量变化率的关联程度，由此我们发现相比于其他的变量GPA显著与是否脱光具有正相关性，但是由于不清楚因果顺序，我们并不能断定是“是否脱光”导致高GPA，还是高GPA导致了更容易脱光。

对于填写问卷时间，这里由于不是所有人都填写了这份问卷，所以这个变量的说明性不强，但是我们可以做出假设填写问卷的时间有可能反映了这个人的耐心程度，一定程度上是个人特质的反映。

所以也和是否脱光有正相关。

我们删掉变量x18（即问卷填写用时）后，重新对Sample2进行logistic回归：

l Logisticregression

Numberofobs=

LR chi2（19）=

15.26

Prob>chi2=

0.6439

Loglikelihood=-46.502035

PseudoR2=0.1410

OddsRatio

Std.Err.

P>|z|

95%Conf.Interval

0.966567

0.389683

-0.08

0.933

0.438591

2.13012

0.998552

0.001221

-1.18

0.236

0.996163

1.000948

1.004375

0.023902

0.18

0.854

0.958604

1.052332

1.000338

0.039711

0.01

0.993

0.925456

1.081279

1.118968

0.762385

0.16

0.869

0.294354

4.253692

9.875414

11.59249

1.95

0.051

0.989355

98.57315

0.657345

0.171125

-1.61

0.107

0.394641

1.094927

0.988415

0.188748

-0.06

0.951

0.679819

1.437095

1.247821

0.231837

1.19

0.233

0.866971

1.795973

x10

0.998727

0.200802

-0.01

0.995

0.673451

1.481112

x11

1.994701

0.729849

1.89

0.059

0.973707

4.086274

展开阅读全文

经典的统计学分析报告 恋爱和单身.docx

经典的统计学分析报告恋爱和单身.docx