构建学生成绩数据仓库.docx

资源描述

构建学生成绩数据仓库.docx

《构建学生成绩数据仓库.docx》由会员分享，可在线阅读，更多相关《构建学生成绩数据仓库.docx（12页珍藏版）》请在冰豆网上搜索。

构建学生成绩数据仓库.docx

构建学生成绩数据仓库

1.建立CourseDatabase数据库并导入数据

（1）单击“开始”→“所有程序”→“MicrosoftSQLServer2008”→“SQLServerManagementStudio”命令，打开界面。

（2）连接服务器选择服务器类型“数据库引擎”，点击连接。

（3）右击数据库节点，选择“新建数据库”，输入数据库名称CourseDatabase。

（4）在新建CourseDatabase数据库节点右击，选择“任务”→“导入数据”。

按照向导提示将CET6表导入CourseDatabase数据库。

最终结果如图1所示。

图1

2.创建AnalysisServices项目

（1）单击“开始”→“所有程序”→“MicrosoftSQLServer2008”→“SQLServerBusinessIntelligenceDevelopmentStudio”命令，打开AnalysisService集成环境界面。

（2）单击菜单栏的“文件”→“新建”→“项目”命令。

（3）选择“AnalysisServices”项目，在“项目名称”文本框中输入“CourseDataware”。

（4）单击“确定”按钮，完成项目的创建。

图2

2.创建数据源

（1）在解决方案资源管理器中，右击“数据源”文件夹，选择“新建数据源”命令，进入欢迎界面。

（2）单击“下一步”按钮，进入“选择如何定义连接”窗口。

（3）单击“新建”按钮，向CourseDatabase数据库添加连接。

系统将打开“连接管理器”对话框，在“连接管理器”的“提供程序”列表中，选择“本机OLEDB\MicrosoftOLEDBProviderforSQLServer”选项；在“服务器名称”文本框中，输入“localhost”；选择“使用Windows身份验证”单选按钮；在“选择或输入数据库名称”列表框中，选择CourseDatabase选项；单击“确定”按钮，如图3所示。

（4）单击“下一步”按钮，进入“模拟信息”窗口，选择“默认值”单选按钮。

（5）单击“下一步”按钮，进入“完成向导”页对话框。

数据源的默认名称为StuDatabase。

单击“完成”即完成了数据源的创建，新的数据源CourseDatabase将显示在解决方案资源管理器的“数据源”文件夹中。

图3

图4

3.创建数据源视图

（1）在解决方案资源管理器中，右击“数据源视图”选项，选择“新建数据源视图”命令。

系统将打开数据源视图向导“选择数据源”窗口，在“关系数据源”区域下，系统将默认选中刚才创建的CourseDatabase数据源。

（2）若要创建新数据源，单击“新建数据源”按钮，启动数据源向导

（3）选择dbo.Gradetest$表，单击右箭头键，将dbo.Gradetest$包括在新数据源视图中。

（4）单击“下一步”按钮，进入“完成向导”对话框，默认情况下，系统将数据源视图命名为CourseDatabase。

图5

（5）单击“完成”按钮，系统将打开数据源视图设计器，显示CourseDatabase数据源视图。

图6

4.创建关联规则挖掘结构

（1）在解决方案资源管理器中，右击“挖掘结构”选项并选择“新建挖掘结构”命令，系统将打开数据挖掘向导窗口。

（2）单击“下一步”按钮，进入“选择定义方法”窗口（如果设置了不显示“欢迎使用数据挖掘向导”页面，系统将直接进入“选择定义方法”窗口。

），选中“从现有关系数据库或数据仓库”选项。

（3）单击“下一步”按钮，进入“选择数据挖掘技术”窗口，在“您要使用何种数据挖掘技术？

”区域下，选择“Microsoft关联规则”选项。

（4）单击“下一步”按钮，进入“选择数据源视图”窗口，已默认选中CourseDatabase在数据源视图中，单击“浏览”按钮可查看视图中各表。

（5）单击“下一步”按钮，进入“指定表类型”窗口，选中Gradetest$表旁边“事例”列中的复选框。

（6）单击“下一步”按钮，进入“指定定型数据”窗口，具体各复选框的选择情况如图7所示。

图7

（7）当表示某列可预测时，“建议”按钮变为可用。

单击“建议”按钮打开“提供相关列建议”对话框，“提供相关列建议”对话框按照各属性与可预测属性的相关性对其进行排序。

值大于0.05的列将被自动选中，已经包括在模型中。

如果采纳这些建议，单击“确定”按钮，便将所选列标记作为输入列，本例中不采纳建议。

（8）单击“下一步”按钮，进入“指定列的内容和数据类型”窗口。

（9）单击“检测”按钮，系统会自行确定各属性列是连续值还是离散值，“内容类型”和“数据类型”列中的各项设置。

（10）单击“下一步”按钮，进入“完成向导”对话框。

（11）在“挖掘结构名称”和“挖掘模型名称”文本框中输入“CourseDatabase”。

（12）选中“允许钻取”复选框。

（13）单击“完成”按钮，进入数据挖掘设计器界面，如图8所示。

图8

5．部署项目并处理挖掘模型

单击数据挖掘设计器中的挖掘模型查看器选项卡或者按【F5】键，AnalysisServices数据库将部署到服务器上，处理挖掘模型。

（1）重新回到“MicrosoftVisualStudio”的“处理进度”的界面点击重新处理。

此时会显示处理成功，如图9所示。

图9

（2）首先，我们想判断“离散数学”和“程序设计基础”对“数据结构”的相关性，因此，将“离散数学”和“程序设计基础”设置为input，将“数据结构”设置为“PredictOnly”，其他课程均设置为“忽略”。

如图10所示。

图10

6．模型解释

Microsoft关联规则通过其查看器来解释，Microsoft关联查看器包含三个选项卡：

项集、规则、依赖关系网络。

下图所示的“项集”选项卡显示了关联规则算法发现的频繁项集，显示了一系列频繁项集以及它们的支持度（发生项集的事务的数量）和大小（项集中项的数量）以及项集的实际构成。

如果算法参数的最小支持度Minimun_Support设置得太低，则会有许多项集。

可以通过设置图最低支持度和最小项集大小来过滤这些项集，也可以通过使用“筛选项集”来过滤这些项集。

图11

下图所示的“规则”选项卡显示满足要求的关联规则、这些规则的概率和重要性分数。

重要性分数的目的是用于测试规则的有效性。

重要性分数越高，则规则的质量越好。

与项集选项卡相似，该选项卡也提供“最低支持选项”的选择。

图12

关联规则查看器的第三个选项卡是“依赖关系网络”（如图所示），该查看器中的每个节点表示一个项通过选择节点，可以使用选项卡底部的彩色图例来确定模型中的项与其他的项的相互确定关系。

图13

上图表示依赖关系网络所有较强链接，下图表示依赖关系网络最强的链接。

图14

比较可以得出：

程序设计基础=优秀数据结构=中等

程序设计基础=中等数据结构=及格

程序设计基础=及格，离散数学=不及格数据结构=不及格

程序设计基础=及格，离散数学=及格数据结构=不及格

等一系列规则。

还可以通过挖掘准确性图标查看预测的准确性。

这里我们预测数据结构为“优秀”时的情况，选择如图15所示：

图15

我们将得到如图16所示的提升图：

图16

这个图表明，当训练集合的行数为原来数据5%~6%的时候，预测数据结构为“优秀”的准确行为100%.

展开阅读全文