数学建模高等教育信息模型.docx

资源描述

数学建模高等教育信息模型.docx

《数学建模高等教育信息模型.docx》由会员分享，可在线阅读，更多相关《数学建模高等教育信息模型.docx（13页珍藏版）》请在冰豆网上搜索。

数学建模高等教育信息模型.docx

数学建模高等教育信息模型

Documentserialnumber【KK89K-LLS98YT-SS8CB-SSUT-SST108】

数学建模高等教育信息模型

竞赛题目（在AB上打勾）：

竞赛队编号（参赛学生不填写）：

__________

问题的提出……………………………………………………………3

问题的分析与假设……………………………………………………3

模型的建立与求解……………………………………………………6

效绩评价………………………………………………………………12

预测评估………………………………………………………………13

信息推荐方案…………………………………………………………13

模型的评价与推广……………………………………………………14

附：

给有关部门的信…………………………………………………15

参考文献………………………………………………………………16

高等院校教育信息化推荐模型

摘要

本文针对当前我国高等院校教育信息化过程关于信息推荐方面存在的问题，进行了分析研究，建立了包含满意度、准确率、覆盖率、实时性这四个方面的信息推荐评价指标体系，通过问卷调查的方式收集相关数据，确定了各指标的权重因子。

主要利用奇异值分解法和LSA方法建立了信息推荐模型，并利用相关算法对我们设计出的模型的效绩进行检验，最后给出了具体的信息推荐方案，并对我们的模型进行了评价推广。

问题一、我们对不同用户的评测标准进行了问卷调查，通过数据分析，给出了各个指标的权重，满意度是0.243，准确率是0.265，覆盖率是0.238，实时性是0.255。

确定了外生变量:

用户个体差异、网站建设。

内生变量：

信息资源建设如学术网站、期刊杂志、选修综合课。

问题二、建立信息推荐模型，对奇异值分解后的矩阵进行降维,构建潜在语义空间。

通过计算得出表面上没有关联的关键词和文章之间的相关性达0.9333，验证了模型的效绩，并对模型进行了优化，给出了信息聚类图。

问题三、提出了我国高等院校教育信息推荐的具体方案。

奇异值分解和LSA方法建立信息推荐模型的优势：

1、应用条件易得；2、不在局限于计算方阵，可以适用于任意矩阵，更加具有普适意义。

3、相比传统向量空间，潜在语义空间的维度更小，语义关系更明确。

4、低维空间表示可以刻画同义词，同义词可对应相同或相似的主题。

5、降维可去除部分噪声，使特征更明显。

关键词：

教育信息推荐模型、奇异值分解法、LSA方法、Spearmancoefficient相关系数

一、问题的提出

1、问题背景：

21世纪是信息时代，随着信息技术越来越广泛的应用，互联网已经成为我们日常生活中必不可少的工具，而传统教育体系所暴露出来的弊端也日益明显，例如严重受到地域限制，教育资源分配不均，相互之间交流不够等，为使之适应对教育发展的新要求，建设更好的教育信息平台来满足学生互联网学习的需求，教育体系信息化改革刻不容缓。

由于教育信息化表现出快捷高效、节约成本，不受地域时间限制、资源共享，交流开放等优势，所以在教育教学及管理的各个领域都开始推出各种形式的信息教育平台，例如远程教育，网站管理，网课、论坛等很大程度上促进了教育信息化的发展，然而，目前的教育信息体系还是不够完善的，例如信息推荐体系这一块被严重忽略，而现有的推荐体系仍存在推荐准确率不够高，推荐方式单一等一系列的问题，因此建立出合理的数学模型来完善教育信息推荐体系是一项迫切等待解决的工作。

2、需要解决的问题：

（1）建立信息推荐的指标体系，确定信息推荐的变量

（2）建立高等学校信息推荐模型

（3）就信息推荐模型设计推荐算法

（4）给有关部门写一封信，推介你们的信息推荐模型。

二、问题的分析及假设

通过读题可知，有效信息推荐是目前教育信息化的重要问题，我们需要明确信息推荐的指标以及其推荐变量，然后为高等院校建立合理有效的信息推荐模型，设计其相应的算法，最后向相关部门推介我们的模型。

1、信息推荐的指标体系

为了提高信息推荐模型的准确度，我们的评测指标主要有包含以下四个方面的内容：

（1）满意度O：

即用户的需求被满足的程度。

满意度是用户的一种心理状态，它能够反映推荐的信息和用户的期望之间的契合程度，用数学式量化表示如下：

O=exp（a1*x1+a2*x2+a3*x3+a4*x4）

（其中，x1是下载率、x2是点击率、x3是停留时间、x4是分享率，a1,a2,a3,a4

分别是各自的权重，令a1=0.4,a2=0.2,a3=0.05,a4=0.35，这里我们假设用户的行为无出错。

）

注：

O值越大，用户满意度越高。

（2）准确率：

信息推荐的准确性也是评价此体系的一个重要指标，可以有效的提高用户的搜索效率。

我们这里用精确率P和召回率R来评测信息推荐的准确性[1]。

假设：

系统检索到的相关信息（A）

系统检索到的不相关信息（B）

相关但是系统没有检索到的信息（C）

不相关且没有被系统检索到的信息（D）

则：

精确率P：

P=A/（A+B），0

召回率R：

R=A/（A+C），0

精确率P越大，说明检索到信息越准确，但检索范围相对较窄；召回率R

越大，说明检索到的信息比较全面，但准确度会降低。

综合考虑，我们用这两个指标进行调和后的指标F来反映信息推荐的准确率。

当α=1时，F=

注：

F越大，准确率越高。

（3）覆盖率：

信息的覆盖率可以验证资源是否有效的传送给了用户，我们采用信息熵H和基尼系数G来量化这一指标[2]。

假设，信息i的流行度是已知的。

p（i）=b（i）/∑b（i），H=-∑p（i）logp（i），G=

∑（2j-n-1）p（ij）

（b（i）为信息i的流行度，ij是按照信息流行度p（）从小到大排序的信息列表中的第j条信息）

注：

H和G越小，覆盖率越高。

（4）实时性T：

因信息具有更新速度快的特点，所以信息推荐的实时性更显

得尤为关键。

实时性反映所推荐给用户的信息是否是最新最有参考价值的。

T=vff=m/n

（v是推荐列表的变化率，m是新信息的数量，n是所有推荐信息的总数量）

注：

T越大，实时性越高。

以上的评测指标可以通过在线或离线来计算。

对于以上四个评测指标，我们对不同用户的评测标准进行了问卷调查，通过数据分析，给出了各个指标的权重，满意度是0.243，准确率是0.265，覆盖率是0.238，实时性是0.255。

图

（一）各指标的平均得分（5分制）图

（二）各指标的比例

2、信息推荐的变量

外生变量:

用户个体差异、网站建设

用户个体差异：

由于用户个人的文化水平，个人喜好，搜索习惯，对搜索内容的熟悉程度等的差异会对教育推荐的指标体系造成一些影响。

网站建设：

现在的浏览器五花八门、种类繁多，其网站建设质量也良莠不齐，有好多网站为了追求商业利益，更是商业捆绑，推荐一些用户不需要的广告娱乐八卦等垃圾推送信息，有些网站甚至其本身就存在着一些系统漏洞等问题，这无疑对用户高校的获取有用推送信息造成干扰，对教育信息推荐的指标体系造成一定负面影响。

内生变量：

信息资源建设,如学术网站，期刊杂志，选修综合课（包括校内课程与网络公开课）

学术网站：

作为用户获取信息的直接来源，其应该保持应有的学术严谨性，直接决定着用户获取信息的满意度、准确率、覆盖率、实时性。

对信息推荐体系起这至关重要的作用。

期刊杂志:

市场上形形色色的期刊杂志百花齐放，竞争激烈，彼此之间也拉开了档次，用户的认可度也在很大程度上受到其知名度的影响，然而，无论是哪个档次的期刊，其收纳的文章都是层次不及的，只是比重有差异罢了，而由于认可度所带来的弊端暴露了出来，例如不能以批判理性的思维去辨别认可度高的期刊，更容易对认可度低的期刊产生偏见。

另一方面，当今社会，期刊杂志已经成为了人们茶余饭后，休闲娱乐，候车等人时打发时间的不二之选，而且人们也乐于将自己喜欢的期刊杂志推荐给亲朋好友，或是坚持追某一系列的期刊杂志，所以期刊杂志也是构成信息推荐体系的重要组成部分。

选修综合课：

选课系统作为高校教务管理系统中必不可少的一部分，然而，选修综合课推荐系统还不够完善，学生很难高效准确的找到与自己的兴趣安好一致的课程，因此加强选修综合管理系统建设，会显着影响到信息推荐体系的评价指标。

决策变量：

用户需求

3、确定主要的信息推荐方式：

网络信息推荐。

三、模型的建立与求解

（一）理论方法介绍

1、奇异值分解法[3]

特征值分解是一个有效提取矩阵特征的方法，但是它只是对方阵而言的。

在现实的世界中，我们看到的大部分矩阵都不是方阵，而奇异值分解法能适用于任意的矩阵。

分解方式如下：

（1）

假设A是一个n*m的矩阵，那么得到的U是一个n*m的方阵（U里面的向量是正交的，称为左奇异向量），Σ是一个n*m的矩阵（除对角线的元素外都是0，对角线上的元素称为奇异值），VT（V的转置）是一个n*m的矩阵（V里面的向量是正交的，称为右奇异向量），即

（2）

在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。

所以，我们也可以用前r个奇异值来近似描述矩阵，这里定义一下部分奇异值分解：

（6）

r是一个远小于m、n的数，这样矩阵的乘法形式如下：

（7）

右边的三个矩阵相乘的结果将会是一个接近于A的矩阵，r越接近于n，相乘的结果越接近于A。

2、LSA法[4]

LSA（latentsemanticanalysis）潜在语义分析，也被称为LSI（latentsemanticindex），是ScottDeerwester,SusanT.Dumais等人在1990年提出来的一种新的索引和检索方法。

该方法和传统向量空间模型一样使用向量来表示词和文章，并通过向量间的关系（如夹角）来判断词及文档间的关系。

（二）模型的建立

假设：

信息资源系统自动获取。

采用奇异值分解法和LSA方法相结合建立模型，以用户查找文章的行为为例，

假设用户需求为“文章”，其输入为“关键词”。

1、分析关键词与文章之间的关联性，建立关键词-文章矩阵X。

假设有m个关键词，n篇文章，X就是一个m*n的矩阵。

其中，第i行、第j列的元素是Xij，是第i个词在第j篇文章中出现的次数。

下边以m=12,n=9为例：

观察这个矩阵，第一个词（b1）和第二个词（b2），他们没有在某篇文档中共同现过，他们的关系使用Spearmancoefficient相关系数来计算。

具体代码及结果如下：

即得到b1和b2的相关系数为-0.3780，说明它们两者的相关性不大。

2.对X进行奇异值分解。

分解公式为X=USVT，代码及结果如下：

矩阵U的每一行代表的是一个关键词，每一列表示一个语义相近的词类，元素Uij表示的是第i个词和第j个语义的相关性，数值越大越相关。

矩阵V的每一行代表一篇文章，每一列表示一个主题，元素Vij表示的是第i个文章和第j个主题的相关性，数值越大越相关。

矩阵S表示的是词的语义和文章的主题的相关性，数值越大越相关。

因此，通过奇异值分解，我们不但可以得到词的语义分类和文章的分类，而且得到了每个词的语义和文章每个主题之间的相关性。

3、对奇异值分解后的矩阵进行降维,构建潜在语义空间。

对关联矩阵进行重构，然后选取S矩阵中最大的两个值，作为重构矩阵的条件，即X=U（:

2）*S（1:

2,1:

2）*V（:

2）'。

U的第一列表示每一个词的出现频繁程度，虽然不是线性的，但是可以认为是一个大概的描述；V的第一行表示每一篇文章中的出现词的个数的近似；S表示的是U和V之间的重要程度，数字越大越重要。

形成的潜在语义空间如下：

4.计算语义空间的b1和b2的Spearmancoefficient系数

代码及结果如下：

可以看到b1和b2虽然在原始文章中并没有共同出现，但他们的相关联程度竟然达到了0.9333。

5、判断是否进行推荐

通过上面的分析，我们发现表面上并没有直接联系的关键词和文章可能也存在深层次的关联。

因此，我们采用上述模型计算关键词和文章的语义相关系数，通过这个数据对比，来决定文章是否进行推荐。

这里，我们设定相关系数大于0.8时，就进行推荐，算法如下：

row=size（y,1）;%获取重构矩阵的大小

x=1:

row;

num=0.8;

z=0;%用来存储相关性大于num的文章所代表的的行号

coeff=zeros（1,row）;

fori=2:

row

coeff（i）=corr（y（1,:

）',y（i,:

）','type','Spearman'）;

if（coeff（i）>num）

z=[z,i];

end

End

通过这样的选择，就可以得到和第一篇文章相关性较强的文章，而这些文章就是我们所要推荐给用户的。

6、模型优化

将第3部分中的矩阵U和V，投影到一个平面上，可以得到关键词和文章的分布图，代码及结果如下：

clear

clc

lsi=[0,0,1,1,0,0,0,0,0;0,0,0,0,0,1,0,0,1;0,1,0,0,0,0,0,1,0;

0,0,0,0,0,0,1,0,1;1,0,0,0,0,1,0,0,0;

1,1,1,1,1,1,1,1,1;1,0,1,0,0,0,0,0,0;

0,0,0,0,0,0,1,0,1;0,0,0,0,0,2,0,0,1;

1,0,1,0,0,0,0,1,0;0,0,0,1,1,0,0,0,0];

[U,S,V]=svd（lsi）;

y=U（:

2）*S（1:

2,1:

2）*V（:

2）';

lu=size（U,1）;

lv=size（V',1）;

scatter（U（:

2）,U（:

3））

holdon

scatter（V（:

2）',V（:

3）'）

legend（'point1','point2'）

holdon

fori=1:

circle（U（i,2）,U（i,3）,abs（U（i,3）））

holdon

end

function[]=circle（x,y;r）

rectangle（'Position',[x-r,y-r,2*r,2*r],'Curvature',[11]）

axisequal

end

图（三）

图（三）中，每一个红色的点，表示一个关键词，每一个蓝色的点，表示一篇文章，这样我们可以对这些词和文章进行聚类。

按聚类出现的效果，可以提取文章集合中的近义词，这样当用户检索文章的时候，就可以用语义级别（近义词集合）去检索了。

这样一来就减少了检索次数和存储量。

（三）模型的总结

在此模型中我们首先构建了用户行为（关键词）与信息资源（文章）之间的关系矩阵，接下来利用奇异值分解法和LSA法得到了一个语义空间矩阵，该矩阵可以反映那些在表面上看起来没有关系的关键词与文章之间的相关性，进一步的计算了Spearmancoefficient系数，并利用Spearmancoefficient系数的大小判断文章是否推荐给用户，最后对模型进行了优化。

上述模型的具体过程都是以用户输入关键词查找文章为例说明的，为了适用于高校教育信息化的其他方面，只需要将模型中的关键词换为用户的其他具体行为，文章换为其它信息资源。

下面给出了一般情形的模型算法流程图：

图（四）

上边算法流程图中，判断相关系数时即“相关系数>a”，其中∣a∣<1，a的确定值根据具体情况给，理论上要求接近1。

因为，a的值越接近1，相关性越大，推荐的信息的质量就越高。

四、效绩评价

针对教育信息推荐体系待完善的问题，我们从满意度、准确率、覆盖率、实时性四个方面建立了信息推荐指标体系，然后通过问卷调查，做图表汇总并分析相关数据，得出了各个指标的权重，满意度是0.243，准确率是0.265，覆盖率是0.238，实时性是0.255。

并且进一步确定了外生变量:

用户个体差异、网站建设；内生变量：

信息资源建设，如学术网站，期刊杂志，选修综合课（包括校内课程与网络公开课）；决策变量：

用户需求。

在此基础上我们采用奇异值分解和LSA方法建立信息推荐模型，通过一系列算法得出了在字面上看起来没有任何联系的关键词与文档实际上其潜在的深层次相关性达到0.9333，验证了这一模型取的了显着的效绩，更加深入准确的剖析出了搜索关键词和期望文档之间的潜在联系，在很大程度上提高了信息模型的满意度、准确率、覆盖率、适时地性等评价指标。

为进一步完善模型，我们还对模型的功能做了优化，使信息推荐模型的更好的满足用户的需求，促进我过教育现代化的发展步伐。

五、预测评估

根据模型所取得的效绩，在未来几年，教育推荐体系的效率和准确性将有很大的提高，而且其功能将会进一步被完善，教育信息化将迎来前所未有的创新性改革，大量的云计算将会运用于教育信息化，为教育信息化提供更加广阔的空间。

有望形成“人人皆学，处处能学、时时可学”的国家现代化教育发展目标。

更好的实现教育信息化对学生全面发展的促进作用。

对深化教育领域综合改革的支撑作用和对教育创新发展、均衡发展、优质发展的提升作用。

形成具有国际先进水平、信息技术与教育融合创新发展的现代化教育信息体系。

六、信息推荐方案

针对目前教育信息化过程中的一些待解决的问题，我们对信息推荐这一模块，通过收集数据，数学计算等方式建立了一套可以完善信息推荐功能的模型，经过算法检验，证明我们所建立的模型表现出很好的效绩，并且形成了信息推荐方案如下：

第一、严格规范评价指标，全面提高信息推荐质量。

采用多种形式，从各个方面全面的对信息推荐体系进行评价，并且打分排名，这样有利于规范这个网络平台的信息推荐体系的建设，并且在竞争压力的推动下，也有利于促进各网络平台信息推荐平台不断的创新完善其功能，从满意度、准确率、覆盖率、实时性等各方面全面的提高信息推荐质量。

第二、加强用户需求分析，进一步提高信息推荐准确率。

对用户需求的分析，不应该知识停留在浅显的字面分析，而应该运用我们上面建立的模型，运用数学算法，客观的用数据结果给出搜索关键字于用户期望的文档之间潜在的深层次联系，并高效准确的为用户推荐其期望的文档，提高信息推荐的准确率，优化信息推荐体系的功能。

第三、拓宽信息推荐体系的引用，提高教育信息现代化的整体水平。

虽然教育信息推荐体系是主要针对教育信息的，在互联网如此发达的时代，整个信息现代化的发展形成了一个巨大的网络，各个领域的信息发展又是相互之间紧密联系，相互影响，荣辱共存的。

所以应该讲此推荐体系的应用进一步推广到社会发展的各个领域，只有整个社会的信息化水平总体提高了，教育信息化水平才能进一步提高。

不然，教育信息化水平仍然是受到社会总体信息化水平的制约。

第四、做好信息推荐体系的监督工作，营造健康严谨的网络推荐环境。

应该对系统推荐的信息进行初步过滤筛选，屏蔽不健康的、包含商业广告的、正确性没有权威保障的、以及娱乐八卦、头条热点等随意推送的一些垃圾骚扰信息然后再推送给用户，这样就提高了推送效率和质量，并且保障了健康严谨的网络推荐环境。

七、模型的评价与推广

模型中采取的评价指标及相关数据来源于问卷调查，有较高的可靠性和代表性，能够全面的、客观的、有效的评价各项指标的权重。

奇异值分解法和LSA方法的优势：

1、应用条件易得；2，不在局限于计算方阵，可以适用于任意矩阵，更加具有普适意义。

3相比传统向量空间，潜在语义空间的维度更小，语义关系更明确。

局限性：

无法获取用户文章的评价值，仅仅是通过用户检索的关键词来给用户推荐文章，这样的方法会导致用户在下一次搜索时，上一次就筛选过的文章又会出现在推荐选项中，若要对模型进行优化处理，首先要考虑的问题就是需要如何避免文章的重复推荐，下一步对模型的构思是利用其他算法，来对用户行为进行学习，通过对用户搜索行为的记录，分析之后来推荐出更适合于用户的文章。

推广：

用奇异值分解法和LSA方法建立的模型，不仅可以解决高等学校教育信息化发展过程中推荐体系存在的一些问题，还可以解决商品购买推荐、旅游攻略、最佳路径推荐、求职岗位推荐等问题，具有普适意义，应用范围广泛，功能全面。

附：

给有关部门的信

尊敬的各位领导:

您好！

我们是西北师范大学的学生，在此向您推荐我们小组针对高等学校教育信息推荐体系所建立的数学模型并提出具体的信息推荐方案。

首先，感谢您在繁忙之余能抽空来浏览我们的方案，也渴望您能够提出宝贵的意见，对此我们将非常感谢。

下面简洁的介绍下我们的方案。

十八大以来，信息化以成为重要的国家战略，然而，目前的教育信息体系还是不够完善的，还存在资源分配不均、资源共享较少，值得关注的是信息推荐体系这一块被严重忽略，现有的推荐体系仍存在推荐准确率不够高，推荐方式单一等一系列的问题，因此建立出合理的数学模型来完善教育推荐体系是一项迫切等待解决的工作。

我们从满意度、准确率、覆盖率、实时性四个方面建立了信息推荐指标体系，然后通过问卷调查，做图表汇总并分析相关数据，得出了各个指标的权重，满意度是0.243，准确率是0.265，覆盖率是0.238，实时性是0.255。

并且进一步确定了外生变量:

用户个体差异、网站建设；内生变量：

信息资源建设如学术网站、期刊杂志、选修综合课（包括校内课程与网络公开课）；决策变量：

用户需求。

在此基础上我们采用奇异值分解和LSA方法建立信息推荐模型，通过一系列算法挖掘出了在字面上看起来没有任何联系的关键词与文档实际上其潜在的深层次相关性达到0.9333，验证了这一模型取的了显着的效绩，更加深入准确的剖析出了搜索关键词和期望文档之间的潜在联系，在很大程度上提高了信息模型的评价指标。

为进一步完善模型，我们还对模型的功能做了优化，使信息推荐模型更好的满足用户的需求，促进高等院校教育信息化的发展步伐。

当然，此方法建立的模型也有一定的局限性，通常情况下，我们可能无法获取用户获得信息的评价值，仅仅是通过用户检索的关键词来给用户推荐信息，这样的方法会导致用户在下一次搜索时，那些用户在上一次就筛选过的信息又会出现在推荐选项中，若要对模型进行优化处理，首先要考虑的问题就是需要如何避免信息的重复推荐，下一步对模型的构思是利用其他算法，来对用户行为进行学习，通过对用户搜索行为的记录，分析之后来推荐出更适合于用户的信息。

我们用奇异值分解和LSA方法建立的模型，不仅可以解决我国教育信息化发展过程中推荐体系存在的一些问题，还可以解决商品购买推荐、旅游攻略、最佳路径推荐、求职岗位推荐等问题，具有普适意义，应用范围广泛，功能全面。

再次感谢您能抽出宝贵的时间来浏览我们的方案。

此致。

敬礼!

2017年6月7日

参考文献

[1]在线疯狂，书影博客。

[2][]项亮，推荐系统实践，北京：

人民邮电出版社，2012-6-1，第27页。

[3][]蓝以中，高等代数简明教程，北京：

北京大学出版社，2007-7，第46页。

[4]锐之锋芒，博客roger__w...，2017.6.4

展开阅读全文