基于校园霸凌行为的模型的建立及分析.docx-资源下载

基于校园霸凌行为的模型的建立及分析.docx

1、基于校园霸凌行为的模型的建立及分析基于校园霸凌行为的模型的建立与分析摘要校园霸凌，又称校园欺凌或校园暴力，是各种形式校园暴力中的一种，从某种意义上说，也是危害程度较高的一种。近年来，我国发生的多起校园霸凌事件在媒体的报道下引发了许多国人的关注。科学技术和网络的的飞速发展，给青少年带来的不仅仅是积极的影响。各类霸凌事件的发生经媒体和互联网报道出，让许多青少年在思想意识不健全的情况下吸收性的接收这些信息，对青少年的身心造成了更直接的伤害。在这个问题提出时，我们已经明确，使青少年施加暴力行为的原因很多，但最主要的原因还是年龄。青少年由于年龄较小，不知道如何应对和转化暴力性冲动，才造成对自身和他人的伤

2、害。所以这篇文章我们将以年龄作为最主要的自变量。针对不同年龄段青少年的心理状况，本文第一部分，主要通过建立合理的数学模型，并以一种科学合理的方式判断评价各个年龄段的心理状况是否有显著差异的量化方法。针对该问题，应用数理统计的相关概念，对该数据进行显著性分析、单因素方差分析，采用F检验、K-W检验对实验结果再一次检验核对，利用excel对数据结果进行绘图分析，分析得出青少年存在一些潜在心理问题的可能性。本文第二部分，涉及生命教育、生活方式、娱乐三个领域，分别包括正向和负向两个框架，其中因变量被设计成一种二选一式的评价变量，使用A或B来表示。自变量包括风险偏好、认知需要、决策风格（包括理智型、直觉

3、型、依赖型、回避型、冲动型）这5个维度三个主要方面，主要分析不同框架的主要影响因素。针对该问题，首先从变量开始着手，通过因子分析和主成分分析分析相关数据，并通过卡方检验和框架效应等方法得出科学合理的结论，用R软件，SPSS，excel等软件对数据进行分析，最后提出抑制校园霸凌事件发生的主要策略。关键词：校园霸凌单因子方差分析显著性检验主成分分析一、问题重述1.1 问题背景近年来，我国发生的多起校园霸凌事件在媒体的报道下引发了许多国人的关注。霸凌事件对学生身体和精神上的影响是极为严重而长远的，因此对于这些情况我们应该给予高度的重视。驱使青少年施加暴力行为的原因很多，但最主要的诱因还是年龄。青少年

4、由于年龄较小，不够成熟，不知道如何应对和转化暴力性冲动，才造成对自身和他人的伤害。1.2 需要解决的问题问题一：通过统计分析，判断各个年龄段的心理状况是否有显著的差异。问题二：建立合理的数学模型，分析不同框架的主要影响因素。根据建立的数学模型，得到的不同年龄段青少年的心理状况，向当地报纸写一份 500 字左右的分析报告，阐述你对抑制校园霸凌事件发生的主要策略。二、问题分析2.1 基本信息针对校园霸凌行为，我们设计了一次针对不同年龄段青少年的心理状况的问卷调查，试图建立一个模型来判断青少年存在一些潜在心理问题的可能性。调查分为5个年龄段，这要涉及生命教育、生活方式、娱乐三个领域，分别包括正向和负

5、向两个框架。其中因变量被设计成一种二选一式的评价变量，使用A或B来表示。自变量包括风险偏好、认知需要（包括18个题目）、决策风格（包括理智型、直觉型、依赖型、回避型、冲动型，这5个维度，每个维度下包括5个题目）三个主要方面，每个方面的题目可以按照选择的答案来计算相应的得分。2.2 相关数据依据附件给出的问卷的调查结果进行模型建立与分析。2.3 问题分析本题主要是考察青少年的心理状况，年龄为自变量，通过9、11、13、15、17岁组别的比较，找出青少年心理状况与年龄的关系；此外，同一年龄组的人，在风险偏好、认知需要以及决策风格方面也有显著差异，必须探究这些差异对青少年心理状况的影响；最后，问卷对

6、五个年龄段的青少年在生命教育、生活方式、娱乐三个领域，又做了评价，我们必须得出评价的结论和相关度。为解决上述两个问题，我们将采用Excel、SPSS、MATLAB等软件来协助分析。第一问将主要运用显著性分析和单因子方差分析，通过F检验判断各个年龄段的心理状况差异性；第二问将主要运用主成分分析、卡方检验、框架效应等方法，通过T检验分析不同框架的主要影响因素，并提出对抑制校园霸凌事件发生的主要策略。三、模型假设(1) 本次采用抽样调查，每问卷均认真填写且数据真实可靠(2) 数据明显不符的问卷视为无效问卷(3) 青少年的心理状况仅由年龄、风险偏好、认知需要与决策风格决定(4) 同一年龄组的青少年的心

7、理状况无显著差异四、符号说明SS方差Sig显著性差异df自由度R2决定系数MS均方差V本征矢量矩阵F两个均方的比较Y1自定义变量，9岁综合主成分P-value确定某个因子是否显著Y2自定义变量，11岁综合主成分F crit相应水平下的F临界值Y3自定义变量，13岁综合主成分K主成分个数Y4自定义变量，15岁综合主成分Y自定义变量（F-F crit）Y5自定义变量，17岁综合主成分Z自定义变量五、问题一模型的建立与求解5.1 模型准备显著性检验理论显著性检验就是事先对总体（随机变量）的参数或总体分布形式做出一个假设，然后利用样本信息来判断这个假设（原假设）是否合理，即判断总体的真实情况与原假设是

8、否显著地有差异。或者说，显著性检验要判断样本与我们对总体所做的假设之间的差异是纯属机会变异，还是由我们所做的假设与总体真实情况之间不一致所引起的。抽样实验会产生抽样误差，对实验资料进行比较分析时，不能仅凭两个结果（平均数或率）的不同就得出结论，而是要进行统计学分析，鉴别出两者差异是抽样误差引起的，还是由特定的实验处理引起的。通常引入p值(p-value)作为检验样本观察值的原假设可被拒绝的最小显著性差异水平。公式1P(X=x)=0.05为“显著(significant)”公式2 P(X=x)=0.01为“最高显著(extreme significant)”单因子方差分析单因素方差分析是指对单因

9、素试验结果进行分析，检验因素对试验结果有无显著性影响的方法。单因素方差分析是两个样本平均数比较的引伸，它是用来检验多个平均数之间的差异，从而确定因素对试验结果有无显著性影响的一种统计方法。完全随机设计的单因素方差分析是把总变异的离均平方和SS及自由度分别分解为组间（观察值与样本均值差异）和组（样本均值与数据总均值差异）两部分。公式 3 MS组间=离均平方和/组间自由度公式 4 MS组=离均平方和/组自由度公式 5SS总=SS组间+SS组 F检验F检验（F-test）是一种在零假设（nullhypothesis,H0）之下，统计值服从F-分布的检验。其通常是用来分析用了超过一个参数的统计模型，以

10、判断该模型中的全部或一部参数是否适合用来估计母体。本实验共有5个年龄段的数据，故应采用多个样本均数间两两比较的方法。常用F检验方法的步骤为：建立检验假设样本均数排序计算F值查F值表判断结果。5.2模型建立平均数、方差分析：由于认知需要、决策风格的五种类型都分别涉及多个题目，且样本数据量较大，所以我们首先作了平均数分析和方差分析（Excel图表），通过曲线的重合度对各年龄段青少年的心理状况是否具有显著差异做出初步判断。如图1至图6为平均值拟合，图7至图12为方差拟合。（各平均值和方差见附录）图1图2图3图4图5图6图7图8图9图10图11图12由上述分析可知，曲线重合度较高，拟合度较好，方

11、差分析最大不超过3，所以，初步认为，年龄对青少年心理状态的显著性不高。单因子方差分析首先，初步处理数据，由于认知需要、理智型、直觉型等均涉及多体，为方便比较，我们将每一项的总得分做了平均值处理，然后在以这7列作为变量进行单因子方差分析，得到各年龄段的单因子方差分析表，见表1-5：设一个变量Y，令Y=F-F crit，我们不难发现，随着年龄的增长，Y的值显著上升，由于Y是判断显著性差异的可靠指标，所以，我们可以知道，年龄对青少年心理状况有显著性，观察下图我们发现，随着年龄增长，青少年心理状况也逐步不稳定，校园霸凌也更为频繁。图 13显著性检验：由于上述方法只是粗略表征，下面我们使用了SPSS对数

12、据作了进一步处理。我们将各组的数据合并成为一表，然后以年龄作为自变量，因变量分别为风险偏好、认知需要、理智型、直觉型等七种，这里每一个因变量都取平均值计算，然后进行可靠性分析，得到表1至表7，结果如下：表1年龄-风险偏好ANOVA平方和df均方FSig人员之间15317.156120312.732人员部项之间23409.495123409.4951924.330.000残差14634.505120312.165总计38044.000120431.598总计53361.156240722.169总均值 = 10.04表2年龄-认知需要ANOVA平方和df均方FSig人员之间6580.107134

13、84.881人员部项之间54222.281154222.28110787.528.000残差6775.56813485.026总计60997.849134945.217总计67577.955269725.057总均值 = 9.153035表3年龄-理智型ANOVA平方和df均方FSig人员之间14854.545120312.348人员部项之间17437.874117437.8741898.075.000残差11052.12612039.187总计28490.000120423.663总计43344.545240718.008总均值 = 15.85表4年龄-直觉型ANOVA平方和df均方FSig

14、人员之间11710.86812039.735人员部项之间4202.14314202.143497.344.000残差10164.35712038.449总计14366.500120411.932总计26077.368240710.834总均值 = 14.48表5年龄-依赖型ANOVA平方和df均方FSig人员之间13511.556120311.232人员部项之间4761.21114761.211536.014.000残差10685.78912038.883总计15447.000120412.830总计28958.556240712.031总均值 = 14.57表6龄-回避型ANOVA平方和df

15、均方FSig人员之间13972.267120311.615人员部项之间78.221178.2217.209.007残差13052.779120310.850总计13131.000120410.906总计27103.267240711.260总均值 = 12.98表7年龄-冲动型ANOVA平方和df均方FSig人员之间10592.50512038.805人员部项之间4.84414.844.480.489残差12149.156120310.099总计12154.000120410.095总计22746.50524079.450总均值 = 13.12通过上述分析，我们可以观察到最后一栏sig值，其代

16、表为显著性检验的结果，这里可理解为P值，通过观察可知，风险偏好、认知需要、理智型、直觉型、依赖性均0.05,所以可得出不显著的结论。其次，上面7表得出的总均值，可能表示在这一因素下，影响最大的年龄段。如果上述假设成立，我们对这七个因素的总均值求平均取整为13。结合表中数据可以看到，风险偏好、认知需要等对13岁以下的青少年影响尤为强烈，即13岁以下较显著，13岁以上无显著差异。综上所述，青少年各年龄段的心理状况总体无显著差异。5.3可信分析数据的可信度数据来源于一次针对不同年龄段青少年的心理状况的问卷调查，每个方面的题目按照选择的答案来计算相应的得分。在调查问卷中，由于不同年龄的青少年在生命教育

17、、生活方式、娱乐等领域存在差异，导致不同年龄段青少年对相同题目的评分差异很大，通过此问卷来判断青少年存在一些潜在心理问题的可能性不能完全得出正确的结论。其次，不排除乱填问卷的可能，且样本容量有限，抽样人群可能不具备良好的代表性等，所以在初步筛选阶段，我们只能剔除不完整数据，但我们并不能剔除这些“脏数据”。因此，实验结论可能有偏差。统计结果的置信度由于本次实验主要在SPSS环境下完成，在分析可靠度、F检验时，本身有置信区间，即对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度，即前面所要求的“一定概

18、率”。这个概率被称为置信水平，通常状况下设为95%，因为在许多研究领域，0.05的p值通常被认为是可接受错误的边界水平）。这意味着我们将95%近似认为100%，其余5%认为偶然发生，若考虑真实情况也有可能对实验结果造成影响。结论具有武断性我们认为结果无效而被拒绝接受的水平的选择具有武断性。实践中，最后的决定通常依赖于数据比较和分析过程中结果是先验性还是仅仅为均数之间的两两比较，依赖于总体数据集里结论一致的支持性证据的数量，依赖于以往该研究领域的惯例。通常，许多的科学领域中产生p值的结果0.05被认为是统计学意义的边界线，但是这显著性水平还包含了相当高的犯错可能性。结果0.05p0.01被认为是

19、具有统计学意义，而0.01p0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的判断常规。六、问题二模型的建立与求解6.1模型准备因子分析因子分析法是指从研究指标相关矩阵部的依赖关系出发，把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析方法。基本思想是：根据相关性大小把变量分组，使得同组的变量之间相关性较高，但不同组的变量不相关或相关性较低，每组变量代表一个基本结构，即公共因子。主成分分析（PCA）主成分分析经常用于减少数据集的维数，同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。其方法主要是通

20、过对协方差矩阵进行特征分解，以得出数据的主成分（即特征向量）与它们的权值（即特征值）。PCA是最简单的以特征量分析多元统计分布的方法。定义一个nm的矩阵,XT为去平均值（以平均值为中心移动至原点）的数据，其行为数据样本，列为数据类别（注意，这里定义的是XT而不是X）。则X的奇异值分解为X=WVT，其中mm矩阵W是XXT的本征矢量矩阵，是mn的非负矩形对角矩阵，V是nn的XTX的本征矢量矩阵。据此，公式六当mn1时，V在通常情况下不是唯一定义的，而Y则是唯一定义的。W是一个正交矩阵，YT是XT的转置，且YT的第一列由第一主成分组成，第二列由第二主成分组成，依此类推。PCA提供了一种降低维度的有效

21、办法，本质上，它利用正交变换将围绕平均点的点集中尽可能多的变量投影到第一维中去，因此，降低维度必定是失去信息最少的方法。因子分析法与主成分分析法都属于因素分析法，都基于统计分析方法，但两者有较大的区别：主成分分析是通过坐标变换提取主成分，也就是将一组具有相关性的变量变换为一组独立的变量，将主成分表示为原始观察变量的线性组合；而因子分析法是要构造因子模型，将原始观察变量分解为因子的线性组合。因子分析法和主成分分析法的主要区别为：1)主成分分析是将主要成分表示为原始观察变量的线性组合，而因子分析是将原始观察变量表示为新因子的线性组合，原始观察变量在两种情况下所处的位置不同。2)主成分分析中，新变量

22、Z的坐标维数j(或主成分的维数)与原始变量维数相同，它只是将一组具有相关性的变量通过正交变换转换成一组维数相同的独立变量，再按总方差误差的允许值大小，来选定q个(q0.6时，表明两变量之间拟合度较好，我们发现，所有变量与年龄的拟合度很差，所以，表明这些变量无相关性，即表明上述除理智型和依赖型以外，都是青少年心理状态的主要影响因素。框架效应针对本题数据，我们认为，A表示风险规避，B表示风险偏好。在同一维度下，比如生命教育的生命正向和生命负向，该个体的两种表现均为A，则在生命教育这一个维度该个体的表象是比较强烈的。该个体的两种表现均为B，则在生命教育这一个维度该个体的表象是比较较弱，或者说没有明显

23、的个体表现。该个体一栏为A一栏为B（不考虑到底是生命正向还是生命负向），我们就说该个体的生命教育表现程度中等，不过非强烈，也不偏向表现弱这一程度。6.3 可信分析因子分析产生误差对于高维数据来说，主成分个数K过大，数据压缩率不高，在极限情况K=n时，等于是在使用原始数据（只是旋转投射到了不同的基）；相反地，如果K过小，数据的近似误差太太。决定K值时，我们通常会考虑不同K值可保留的方差百分比。具体来说，如果K=n，那么我们得到的是对数据的完美近似，也就是保留了100%的方差，即原始数据的所有变化都被保留下来；相反，如果K=0，那等于是使用零向量来逼近输入数据，也就是只有0%的方差被保留下来。在数

24、学模型中，我们将不同年龄组的数据合并成为一表，就造成K值过大的问题，所以为顺利得出数据，我们将部分边缘数据删除，可能造成较大误差。统计结果的可信度在这里，我们把所有检验统计都认为是正态分布的。但实际并非总是如此，但大多数检验都直接或间接与之有关，可以从正态分布中推导出来，如F检验或卡方检验。这些检验一般都要求：所分析变量在总体中呈正态分布，即满足所谓的正态假设。许多观察变量的确是呈正态分布的，这也是正态分布是现实世界的基本特征的原因。当人们用在正态分布基础上建立的检验分析非正态分布变量的数据时问题就产生了。这种条件下有两种方法：一是用替代的非参数检验（即无分布性检验），但这种方法不方便，因为从它所提供的结论形式看，这种方法统计效率低下、不灵活。另一种方法是：当确定样本量足够大的情况下，通常还是可以使用基于正态分布前提下的检验。后一种方法是基于一个相当重要的原则产生的，该原

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？