基于校园霸凌行为的模型的建立及分析.docx
《基于校园霸凌行为的模型的建立及分析.docx》由会员分享,可在线阅读,更多相关《基于校园霸凌行为的模型的建立及分析.docx(31页珍藏版)》请在冰豆网上搜索。
基于校园霸凌行为的模型的建立及分析
基于校园霸凌行为的模型的建立与分析
摘要
校园霸凌,又称校园欺凌或校园暴力,是各种形式校园暴力中的一种,从某种意义上说,也是危害程度较高的一种。
近年来,我国发生的多起校园霸凌事件在媒体的报道下引发了许多国人的关注。
科学技术和网络的的飞速发展,给青少年带来的不仅仅是积极的影响。
各类霸凌事件的发生经媒体和互联网报道出,让许多青少年在思想意识不健全的情况下吸收性的接收这些信息,对青少年的身心造成了更直接的伤害。
在这个问题提出时,我们已经明确,使青少年施加暴力行为的原因很多,但最主要的原因还是年龄。
青少年由于年龄较小,不知道如何应对和转化暴力性冲动,才造成对自身和他人的伤害。
所以这篇文章我们将以年龄作为最主要的自变量。
针对不同年龄段青少年的心理状况,本文第一部分,主要通过建立合理的数学模型,并以一种科学合理的方式判断评价各个年龄段的心理状况是否有显著差异的量化方法。
针对该问题,应用数理统计的相关概念,对该数据进行显著性分析、单因素方差分析,采用F检验、K-W检验对实验结果再一次检验核对,利用excel对数据结果进行绘图分析,分析得出青少年存在一些潜在心理问题的可能性。
本文第二部分,涉及生命教育、生活方式、娱乐三个领域,分别包括正向和负向两个框架,其中因变量被设计成一种二选一式的评价变量,使用A或B来表示。
自变量包括风险偏好、认知需要、决策风格(包括理智型、直觉型、依赖型、回避型、冲动型)这5个维度三个主要方面,主要分析不同框架的主要影响因素。
针对该问题,首先从变量开始着手,通过因子分析和主成分分析分析相关数据,并通过卡方检验和框架效应等方法得出科学合理的结论,用R软件,SPSS,excel等软件对数据进行分析,最后提出抑制校园霸凌事件发生的主要策略。
关键词:
校园霸凌单因子方差分析显著性检验主成分分析
一、问题重述
1.1问题背景
近年来,我国发生的多起校园霸凌事件在媒体的报道下引发了许多国人的关注。
霸凌事件对学生身体和精神上的影响是极为严重而长远的,因此对于这些情况我们应该给予高度的重视。
驱使青少年施加暴力行为的原因很多,但最主要的诱因还是年龄。
青少年由于年龄较小,不够成熟,不知道如何应对和转化暴力性冲动,才造成对自身和他人的伤害。
1.2需要解决的问题
问题一:
通过统计分析,判断各个年龄段的心理状况是否有显著的差异。
问题二:
建立合理的数学模型,分析不同框架的主要影响因素。
根据建立的数学模型,得到的不同年龄段青少年的心理状况,向当地报纸写一份500字左右的分析报告,阐述你对抑制校园霸凌事件发生的主要策略。
二、问题分析
2.1基本信息
针对校园霸凌行为,我们设计了一次针对不同年龄段青少年的心理状况的问卷调查,试图建立一个模型来判断青少年存在一些潜在心理问题的可能性。
调查分为5个年龄段,这要涉及生命教育、生活方式、娱乐三个领域,分别包括正向和负向两个框架。
其中因变量被设计成一种二选一式的评价变量,使用A或B来表示。
自变量包括风险偏好、认知需要(包括18个题目)、决策风格(包括理智型、直觉型、依赖型、回避型、冲动型,这5个维度,每个维度下包括5个题目)三个主要方面,每个方面的题目可以按照选择的答案来计算相应的得分。
2.2相关数据
依据附件给出的问卷的调查结果进行模型建立与分析。
2.3问题分析
本题主要是考察青少年的心理状况,年龄为自变量,通过9、11、13、15、17岁组别的比较,找出青少年心理状况与年龄的关系;此外,同一年龄组的人,在风险偏好、认知需要以及决策风格方面也有显著差异,必须探究这些差异对青少年心理状况的影响;最后,问卷对五个年龄段的青少年在生命教育、生活方式、娱乐三个领域,又做了评价,我们必须得出评价的结论和相关度。
为解决上述两个问题,我们将采用Excel、SPSS、MATLAB等软件来协助分析。
第一问将主要运用显著性分析和单因子方差分析,通过F检验判断各个年龄段的心理状况差异性;第二问将主要运用主成分分析、卡方检验、框架效应等方法,通过T检验分析不同框架的主要影响因素,并提出对抑制校园霸凌事件发生的主要策略。
三、模型假设
(1)本次采用抽样调查,每问卷均认真填写且数据真实可靠
(2)数据明显不符的问卷视为无效问卷
(3)青少年的心理状况仅由年龄、风险偏好、认知需要与决策风格决定
(4)同一年龄组的青少年的心理状况无显著差异
四、符号说明
SS
方差
Sig
显著性差异
df
自由度
R2
决定系数
MS
均方差
V
本征矢量矩阵
F
两个均方的比较
Y1
自定义变量,9岁综合主成分
P-value
确定某个因子是否显著
Y2
自定义变量,11岁综合主成分
Fcrit
相应水平下的F临界值
Y3
自定义变量,13岁综合主成分
K
主成分个数
Y4
自定义变量,15岁综合主成分
Y
自定义变量(F-Fcrit)
Y5
自定义变量,17岁综合主成分
Z
自定义变量
五、问题一模型的建立与求解
5.1模型准备
Ⅰ显著性检验理论
显著性检验就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(原假设)是否合理,即判断总体的真实情况与原假设是否显著地有差异。
或者说,显著性检验要判断样本与我们对总体所做的假设之间的差异是纯属机会变异,还是由我们所做的假设与总体真实情况之间不一致所引起的。
抽样实验会产生抽样误差,对实验资料进行比较分析时,不能仅凭两个结果(平均数或率)的不同就得出结论,而是要进行统计学分析,鉴别出两者差异是抽样误差引起的,还是由特定的实验处理引起的。
通常引入p值(p-value)作为检验样本观察值的原假设可被拒绝的最小显著性差异水平。
公式1P(X=x)<ρ=0.05为“显著(significant)”
公式2P(X=x)<ρ=0.01为“最高显著(extremesignificant)”
Ⅱ单因子方差分析
单因素方差分析是指对单因素试验结果进行分析,检验因素对试验结果有无显著性影响的方法。
单因素方差分析是两个样本平均数比较的引伸,它是用来检验多个平均数之间的差异,从而确定因素对试验结果有无显著性影响的一种统计方法。
完全随机设计的单因素方差分析是把总变异的离均平方和SS及自由度分别分解为组间(观察值与样本均值差异)和组(样本均值与数据总均值差异)两部分。
公式3MS组间=离均平方和/组间自由度
公式4MS组=离均平方和/组自由度
公式5SS总=SS组间+SS组
ⅢF检验
F检验(F-test)是一种在零假设(nullhypothesis,H0)之下,统计值服从F-分布的检验。
其通常是用来分析用了超过一个参数的统计模型,以判断该模型中的全部或一部参数是否适合用来估计母体。
本实验共有5个年龄段的数据,故应采用多个样本均数间两两比较的方法。
常用F检验方法的步骤为:
建立检验假设样本均数排序计算F值查F值表判断结果。
5.2模型建立
Ⅰ平均数、方差分析:
由于认知需要、决策风格的五种类型都分别涉及多个题目,且样本数据量较大,所以我们首先作了平均数分析和方差分析(Excel图表),通过曲线的重合度对各年龄段青少年的心理状况是否具有显著差异做出初步判断。
如图1至图6为平均值拟合,图7至图12为方差拟合。
(各平均值和方差见附录)
图1图2
图3图4
图5图6
图7图8
图9图10
图11图12
由上述分析可知,曲线重合度较高,拟合度较好,方差分析最大不超过3,所以,初步认为,年龄对青少年心理状态的显著性不高。
Ⅰ单因子方差分析
首先,初步处理数据,由于认知需要、理智型、直觉型等均涉及多体,为方便比较,我们将每一项的总得分做了平均值处理,然后在以这7列作为变量进行单因子方差分析,得到各年龄段的单因子方差分析表,见表1-5:
设一个变量Y,令Y=F-Fcrit,我们不难发现,随着年龄的增长,Y的值显著上升,由于Y是判断显著性差异的可靠指标,所以,我们可以知道,年龄对青少年心理状况有显著性,观察下图我们发现,随着年龄增长,青少年心理状况也逐步不稳定,校园霸凌也更为频繁。
图13
Ⅱ显著性检验:
由于上述方法只是粗略表征,下面我们使用了SPSS对数据作了进一步处理。
我们将各组的数据合并成为一表,然后以年龄作为自变量,因变量分别为风险偏好、认知需要、理智型、直觉型等七种,这里每一个因变量都取平均值计算,然后进行可靠性分析,得到表1至表7,结果如下:
表1年龄-风险偏好
ANOVA
平方和
df
均方
F
Sig
人员之间
15317.156
1203
12.732
人员部
项之间
23409.495
1
23409.495
1924.330
.000
残差
14634.505
1203
12.165
总计
38044.000
1204
31.598
总计
53361.156
2407
22.169
总均值=10.04
表2年龄-认知需要
ANOVA
平方和
df
均方
F
Sig
人员之间
6580.107
1348
4.881
人员部
项之间
54222.281
1
54222.281
10787.528
.000
残差
6775.568
1348
5.026
总计
60997.849
1349
45.217
总计
67577.955
2697
25.057
总均值=9.153035
表3年龄-理智型
ANOVA
平方和
df
均方
F
Sig
人员之间
14854.545
1203
12.348
人员部
项之间
17437.874
1
17437.874
1898.075
.000
残差
11052.126
1203
9.187
总计
28490.000
1204
23.663
总计
43344.545
2407
18.008
总均值=15.85
表4年龄-直觉型
ANOVA
平方和
df
均方
F
Sig
人员之间
11710.868
1203
9.735
人员部
项之间
4202.143
1
4202.143
497.344
.000
残差
10164.357
1203
8.449
总计
14366.500
1204
11.932
总计
26077.368
2407
10.834
总均值=14.48
表5年龄-依赖型
ANOVA
平方和
df
均方
F
Sig
人员之间
13511.556
1203
11.232
人员部
项之间
4761.211
1
4761.211
536.014
.000
残差
10685.789
1203
8.883
总计
15447.000
1204
12.830
总计
28958.556
2407
12.031
总均值=14.57
表6龄-回避型
ANOVA
平方和
df
均方
F
Sig
人员之间
13972.267
1203
11.615
人员部
项之间
78.221
1
78.221
7.209
.007
残差
13052.779
1203
10.850
总计
13131.000
1204
10.906
总计
27103.267
2407
11.260
总均值=12.98
表7年龄-冲动型
ANOVA
平方和
df
均方
F
Sig
人员之间
10592.505
1203
8.805
人员部
项之间
4.844
1
4.844
.480
.489
残差
12149.156
1203
10.099
总计
12154.000
1204
10.095
总计
22746.505
2407
9.450
总均值=13.12
通过上述分析,我们可以观察到最后一栏sig值,其代表为显著性检验的结果,这里可理解为P值,通过观察可知,风险偏好、认知需要、理智型、直觉型、依赖性均<0.01,所以我们可以认为极显著,而回避型、冲动型均>0.05,所以可得出不显著的结论。
其次,上面7表得出的总均值,可能表示在这一因素下,影响最大的年龄段。
如果上述假设成立,我们对这七个因素的总均值求平均取整为13。
结合表中数据可以看到,风险偏好、认知需要等对13岁以下的青少年影响尤为强烈,即13岁以下较显著,13岁以上无显著差异。
综上所述,青少年各年龄段的心理状况总体无显著差异。
5.3可信分析
Ⅰ数据的可信度
数据来源于一次针对不同年龄段青少年的心理状况的问卷调查,每个方面的题目按照选择的答案来计算相应的得分。
在调查问卷中,由于不同年龄的青少年在生命教育、生活方式、娱乐等领域存在差异,导致不同年龄段青少年对相同题目的评分差异很大,通过此问卷来判断青少年存在一些潜在心理问题的可能性不能完全得出正确的结论。
其次,不排除乱填问卷的可能,且样本容量有限,抽样人群可能不具备良好的代表性等,所以在初步筛选阶段,我们只能剔除不完整数据,但我们并不能剔除这些“脏数据”。
因此,实验结论可能有偏差。
Ⅱ统计结果的置信度
由于本次实验主要在SPSS环境下完成,在分析可靠度、F检验时,本身有置信区间,即对这个样本的某个总体参数的区间估计。
置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。
置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一定概率”。
这个概率被称为置信水平,通常状况下设为95%,因为在许多研究领域,0.05的p值通常被认为是可接受错误的边界水平)。
这意味着我们将95%近似认为100%,其余5%认为偶然发生,若考虑真实情况也有可能对实验结果造成影响。
Ⅲ结论具有武断性
我们认为结果无效而被拒绝接受的水平的选择具有武断性。
实践中,最后的决定通常依赖于数据比较和分析过程中结果是先验性还是仅仅为均数之间的两两>比较,依赖于总体数据集里结论一致的支持性证据的数量,依赖于以往该研究领域的惯例。
通常,许多的科学领域中产生p值的结果≤0.05被认为是统计学意义的边界线,但是这显著性水平还包含了相当高的犯错可能性。
结果0.05≥p>0.01被认为是具有统计学意义,而0.01≥p≥0.001被认为具有高度统计学意义。
但要注意这种分类仅仅是研究基础上非正规的判断常规。
六、问题二模型的建立与求解
6.1模型准备
Ⅰ因子分析
因子分析法是指从研究指标相关矩阵部的依赖关系出发,把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析方法。
基本思想是:
根据相关性大小把变量分组,使得同组的变量之间相关性较高,但不同组的变量不相关或相关性较低,每组变量代表一个基本结构,即公共因子。
Ⅱ主成分分析(PCA)
主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
其方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征向量)与它们的权值(即特征值)。
PCA是最简单的以特征量分析多元统计分布的方法。
定义一个n×m的矩阵,XT为去平均值(以平均值为中心移动至原点)的数据,其行为数据样本,列为数据类别(注意,这里定义的是XT而不是X)。
则X的奇异值分解为X=WΣVT,其中m×m矩阵W是XXT的本征矢量矩阵,Σ是m×n的非负矩形对角矩阵,V是n×n的XTX的本征矢量矩阵。
据此,
公式六
当mW是一个正交矩阵,YT是XT的转置,且YT的第一列由第一主成分组成,第二列由第二主成分组成,依此类推。
PCA提供了一种降低维度的有效办法,本质上,它利用正交变换将围绕平均点的点集中尽可能多的变量投影到第一维中去,因此,降低维度必定是失去信息最少的方法。
因子分析法与主成分分析法都属于因素分析法,都基于统计分析方法,但两者有较大的区别:
主成分分析是通过坐标变换提取主成分,也就是将一组具有相关性的变量变换为一组独立的变量,将主成分表示为原始观察变量的线性组合;而因子分析法是要构造因子模型,将原始观察变量分解为因子的线性组合。
因子分析法和主成分分析法的主要区别为:
1)主成分分析是将主要成分表示为原始观察变量的线性组合,而因子分析是将原始观察变量表示为新因子的线性组合,原始观察变量在两种情况下所处的位置不同。
2)主成分分析中,新变量Z的坐标维数j(或主成分的维数)与原始变量维数相同,它只是将一组具有相关性的变量通过正交变换转换成一组维数相同的独立变量,再按总方差误差的允许值大小,来选定q个(q
可以认为,因子分析法是主成分分析法的发展。
Ⅲ框架效应
框架效应是指一个问题两种在逻辑意义上相似的说法却导致了不同的决策判断。
本题讨论青少年的心理影响因素,从生命教育、生活方式、娱乐三个领域开始研究,每个领域分别包括正向和负向两个框架。
直观的表现了当青少年在面对某一领域问题时的选择:
当结果是正面的时候,我们更愿意选择确定的事(风险规避);当结果都是负面的时候,我们更愿意拒绝确定的事,愿意赌一把(风险偏好)。
在三个领域下的不同维度,我们可以清楚看到,不是所有的框架都是平等的,而且有些框架显然比其他相同问题的描述(或思考)的方式要好。
非常明显的可以看到数据呈现出来的结果。
6.2模型建立
Ⅰ因子分析
分析风险偏好等7个因素的因子分析,得到了解释的总方差和碎石图,当合计值大于1时,我们认为此因素为主成分分析,其次,通过碎石图的陡峭程度也能反映出主因素。
如下图为9岁组示例,其他各组类似(见附录)。
图14解释总方差
图15碎石图
Ⅱ主成分分析
我们分析了每个年龄段青少年的风险偏好、认知需要等方面做因子分析,我们发现每个年龄组都提取出了两到三个主要因素,提取出来的全部主成分可以基本反映全部指标的信息,将上述结果中提取出的主成分进行计算,得到表8-11,
表8
9岁组:
Z1=风险偏好*0.41-认知需要*0.03+理智型*0.47+直觉型*0.49
Z2=-风险偏好*0.28+认知需要*0.67-理智型*0.29+直觉型*0.08
表9
11岁组:
Z3=风险偏好*0.52-认知需要*0.11+理智型*0.51+直觉型*0.46
Z4=-风险偏好*0.13+认知需要*0.60-理智型*0.22+直觉型*0.17
表10
13岁
Z5=风险偏好*0.47-认知需要*0.4+理智型*0.47+直觉型*0.46
Z6=-风险偏好*0.13认知需要*0.71-理智型*0.29-直觉型*0.08
Z7=风险偏好*0.15-认知需要*0.07-理智型*0.01-直觉型*0.3
表11
15岁组:
Z8=0.49*风险偏好-0.25*认知需要+0.54*理智型+0.43*直觉型
Z9=-0.12*风险偏好+0.58*认知需要-0.01*理智型+0.23*直觉型
Z10=0.24*风险偏好+0.25*认知需要-0.01*理智型-0.39*直觉型
表12
17岁:
Z11=0.47*风险偏好+0.05*认知需要+0.48*理智型+0.50*直觉型
Z12=-0.22*风险偏好+0.62*认知需要-0.36*理智型-0.1*直觉型
Z13=0.49*风险偏好+0.15*认知需要-0.04*理智型-0.45*直觉型
由上述五个表得出了五个年龄组提取的的主成分的线性组合如下:
Y1=Z1*0.33482+Z2*0.20271
Y2=Z3*0.345+Z4*0.22115
Y3=Z5*0.32494+Z6*0.20418+Z7*0.14571
Y4=Z8*0.30152+Z9*0.21537+Z10*0.15529
Y5=Z11*0.29880+Z12*0.23979+Z13*0.15296
由线性关系可以看出z1z3z5三个主成分在线性关系中所占比重最大;因此我们可以得出11-15岁年龄段的孩子心理状况差异在风险偏好,认知需求,理智型,直觉型上存在显著差异,得出年龄也是影响心理状况的因素。
Ⅲ回归分析
我们又对年龄和其他因素进行了线性回归分析,分析R值,如下表13-19,
表13年龄-风险偏好
表14年龄-认知需要
表15年龄-理智型
表16年龄-直觉型
表17年龄-依赖型
表18年龄-回避型
表19年龄-冲动型
用R软件做回归分析中,当R>0.6时,表明两变量之间拟合度较好,我们发现,所有变量与年龄的拟合度很差,所以,表明这些变量无相关性,即表明上述除理智型和依赖型以外,都是青少年心理状态的主要影响因素。
Ⅳ框架效应
针对本题数据,我们认为,A表示风险规避,B表示风险偏好。
在同一维度下,比如生命教育的生命正向和生命负向,该个体的两种表现均为A,则在生命教育这一个维度该个体的表象是比较强烈的。
该个体的两种表现均为B,则在生命教育这一个维度该个体的表象是比较较弱,或者说没有明显的个体表现。
该个体一栏为A一栏为B(不考虑到底是生命正向还是生命负向),我们就说该个体的生命教育表现程度中等,不过非强烈,也不偏向表现弱这一程度。
6.3可信分析
Ⅰ因子分析产生误差
对于高维数据来说,主成分个数K过大,数据压缩率不高,在极限情况K=n时,等于是在使用原始数据(只是旋转投射到了不同的基);相反地,如果K过小,数据的近似误差太太。
决定K值时,我们通常会考虑不同K值可保留的方差百分比。
具体来说,如果K=n,那么我们得到的是对数据的完美近似,也就是保留了100%的方差,即原始数据的所有变化都被保留下来;相反,如果K=0,那等于是使用零向量来逼近输入数据,也就是只有0%的方差被保留下来。
在数学模型中,我们将不同年龄组的数据合并成为一表,就造成K值过大的问题,所以为顺利得出数据,我们将部分边缘数据删除,可能造成较大误差。
Ⅱ统计结果的可信度
在这里,我们把所有检验统计都认为是正态分布的。
但实际并非总是如此,但大多数检验都直接或间接与之有关,可以从正态分布中推导出来,如F检验或卡方检验。
这些检验一般都要求:
所分析变量在总体中呈正态分布,即满足所谓的正态假设。
许多观察变量的确是呈正态分布的,这也是正态分布是现实世界的基本特征的原因。
当人们用在正态分布基础上建立的检验分析非正态分布变量的数据时问题就产生了。
这种条件下有两种方法:
一是用替代的非参数检验(即无分布性检验),但这种方法不方便,因为从它所提供的结论形式看,这种方法统计效率低下、不灵活。
另一种方法是:
当确定样本量足够大的情况下,通常还是可以使用基于正态分布前提下的检验。
后一种方法是基于一个相当重要的原则产生的,该原