基于MovieClick的SQLServer数据挖掘实验报告.docx

资源描述

基于MovieClick的SQLServer数据挖掘实验报告.docx

《基于MovieClick的SQLServer数据挖掘实验报告.docx》由会员分享，可在线阅读，更多相关《基于MovieClick的SQLServer数据挖掘实验报告.docx（28页珍藏版）》请在冰豆网上搜索。

基于MovieClick的SQLServer数据挖掘实验报告.docx

基于MovieClick的SQLServer数据挖掘实验报告

学号：

81020497姓名：

陈关胜

学号：

81020508姓名：

张艳岩

学号：

81020500姓名：

高贞

二0一一年六月

基于MovieClick的SQLServer数据挖掘实验报告

一、实验目的：

熟悉常见软件的数据挖掘功能，利用SQLServer2005数据挖掘软件实现大规模数据集上的分类、聚类等挖掘功能，深入理解数据挖掘技术的应用。

二、实验内容：

利用SQLServer2005数据挖掘软件对数据集MovieClick进行了实现如下的挖掘方法：

1）分类：

决策树、贝叶斯、神经网络、SVM

2）聚类：

k-means、EM

三、实验用设备仪器及材料：

1）软件需求：

使用WindowsXP

2）硬件需求：

对于硬件方面的要求，建议配置是PentiumIII450以上的CPU处理器，64MB以上的内存，200MB的自由硬盘空间。

我实验使用了2G内存，IntelCore（TM）2DuoCPU,双核，硬盘150G的笔记本电脑。

3）开发工具：

SQLServer商务智能开发应用工具

四、SQLServer数据挖掘实施过程：

本实验是利用SQLServer数据挖掘对大规模数据集MovieClick进行挖掘，以便从大量繁杂的数据中获取隐含中其中的信息。

实验过程如图1。

设置数据源

创建或编辑挖掘模型

模型训练

查看挖掘结果

模型评价

预测

模型评估

图1SQLServer数据挖掘实施过程

五、实验方法及步骤：

1.在网上找到本次实验所需的大规模数据集MovieClick（如图2所示），为实验做好充分的准备。

图2MovieClick数据集

2.导入数据集，将格式为Access2000的数据集导入SQLServer挖掘软件，具体步骤为：

1）打开MicrosoftSQLServerManagementStudio，右击“数据库”新建一个数据库，并命名为MovieClick，如图3所示。

图3新建MovieClick数据库

2）右击MovieClick数据库，选择“任务”，然后“数据导入”，准备打开导入向导。

如图4所示。

图4MovieClick数据库的数据导入

①在“欢迎使用SQLServer导入和导出向导”对话框，单击“下一步”按钮，如图5所示。

图5SQLServer导入和导出向导

②在“选择数据源”的下拉列表，选择MicrosoftAccess，“文件名”选择E:

\课件\数据挖掘\MovieClick.adb,如图6所示。

图6选择数据源

③在“选择目标”中，选择服务器名称和数据库，如图7所示。

图7选择目标数据源

④在指定“选择表或查询”中选择“复制一个或多个表或视图的数据”，如图8所示。

图8选择表或查询

⑤在“选择源表和视图”中列表本实验中所需要的表，如图9所示。

图9选择源表和视图

⑥保存并执行导入，完成导入，成功执行，如图10，图11所示。

图9保存并执行包

图10执行成功

3）SQLServer数据仓库事实表与多维数据的的建立

①建立AnalysisServices项目

打开BusinessIntelligentDevelopmentStudio，在文件中新建一个AnalysisServices项目，命名为MovieClick，如11所示。

图11建立数据库AnalysisServices项目

②定义数据源，右击“数据源”，单击“新建数据源”，准备打开“数据源向导”对话框，如图12所示，在“欢迎使用数据源向导”页上，单击“下一步”按钮。

将显示“选择如何定义连接”页，单击“新建”按钮，如图13所示。

图12新建数据源

图13选择如何定义连接

在“提供程序”列表中，确保已选中“本机OLEDB\MicrosoftOLEDBProviderforSQLServer”。

在“服务器名称”文本框中，键入PC2011032619KQL，并确保已选中“使用Windows身份验证”。

在“选择或输入数据库名称”列表中，选择Movieclick，如图14所示。

在显示“模拟信息”页上，可以定义AnalysisServices用于连接数据源的安全凭据。

在本实验中，选择AnalysisServices服务帐户，单击“下一步”，如图15所示。

随后出现“完成向导”页，数据源名称为“Movieclick”，如图16所示。

图14连接管理器

图15数据模拟

图16完成向导

③建立数据源视图。

在解决方案资源管理器中，右键单击“数据源视图”，再单击“新建数据源视图”。

此时将打开数据源视图向导，在“欢迎使用数据源视图向导”页中，单击“下一步”。

此时将显示“选择数据源”页。

“关系数据源”下的Movieclick数据源已被选中。

如图17所示。

然后进入“名称匹配”页，选择通过匹配列创建逻辑关系，外部匹配选择“与主键同名”，如图18所示。

图17选择数据源

图18名称匹配

单击>，将选中的表添加到“包含的对象”列表中，在本实验中我们选择了Actos表，Channels表，Criteria表，Directors表和movies表（如图19所示）。

然后单击下一步，完成视图的添加。

最后以“CustomerID”为关键字建立表之间主外键的关系，如图20所示。

图19选择表和视图

图20建立表之间主外键的关系

4）建立挖掘结构，本实验以“决策树”挖掘方法为例进行分析的。

①使用数据挖掘向导新建一个挖掘结构。

如图21所示。

图21数据挖掘向导

②选择进行挖掘的数据集，选择“从现有关系数据库或数据仓库”，如图22所示。

图22选择定义关系

③选择挖掘的方法（这里选择“决策树”方法）：

挖掘技术采用微软的决策树数据挖掘算法，如图23所示。

图23选择数据挖掘技术

④选择数据源视图：

就是刚刚创建的Movieclick数据源视图，如图24所示。

图24选择数据源视图

⑤指定表的类型：

指定事例表和嵌套表，把Customers指定为事例表，其余的均指定为嵌套表，如图25所示。

图25指定表类型

⑥指定定型数据：

指定一些表/列为输入部分或可预测部分，例如，我们分析要把住房卖给谁，可预测这部分就选择HomeOwnership，如图26所示。

图26指定定型数据

⑦指定列的内容和数据类型（直接点击测试按钮，系统会自动进行配置）：

指定数据类型是为告诉数据挖掘引擎数据数据源中的数据是数值还是文本以及应如何处理数据；内容类型描述列中包含的内容的行为，如图27所示。

图27指定列的类型和数据类型

⑧完成挖掘结构的创建：

指定挖掘结构的名称为：

Movieclick；挖掘模型的名称为：

Dtmovie，如图28所示。

图28完成向导

⑨完成后得到数据源视图：

完成挖掘结构和挖掘模型的构建，如图29所示。

图29数据源视图

5）处理模型：

现在开始模型的训练。

①选择挖掘结构下的Movieclick.dmn，右击选择“处理”：

模型的处理就是模型的训练，如图30所示。

图30选择处理

②选择后弹出下面的窗口：

弹出对象列表的窗口，如图31所示。

图31对象列表

③单击“运行”按钮：

出现处理进度窗口，开始模型训练的过程，处理成功后，单击“关闭”按钮，退出窗口，如图32所示。

图32处理进度

④单击模型查看器，查看“决策树”结果（如图33所示）：

选择决策树算法得到的训练结果。

从根节点到叶结点的一个过程，其实，就是它的一条规则。

图33决策树结果

⑤点击挖掘模型，这里显示了已经创建的模型，右击可以添加新的数据挖掘模型，如图34所示。

图34添加新的数据挖掘模型

⑥添加“贝叶斯”挖掘模型：

用贝叶斯算法来进行数据挖掘，如图35所示。

图35新建数据模型

⑦添加成功：

添加“贝叶斯”挖掘模型成功，如图36所示。

图36添加贝叶斯挖掘模型

⑧添加“聚类分析”挖掘方法，最后的结果为如图37所示。

图37聚类分析结果

六、实验结果分析：

1．决策树试验结果：

1）决策树：

这是决策树方法挖掘出来的规则。

从根节点到叶结点代表着不同的规则。

它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。

它采用自顶向下的递归方式，在决策树的内部结点进行属性值的比较，并根据不同的属性值从该结点向下分支，叶结点是要学习划分的类。

从根到叶结点的一条路径就对应着一条合取规则。

图38决策树分析结果

2）依赖关系网络

①所有链接：

依赖关系网络显示了模型中的输入属性和可预测属性之间的依赖关系。

通过决策树算法分析的依赖关系强度不同的每一类的特性。

例如房屋所有者的依赖属性包括年龄、车子和卧室等。

图39决策树所有链接

②最强链接：

决策树算法分析出来的依赖关系最强的特性，表现了个类间关联性的最强属性。

在实验中，房屋所有者依赖关系最强的属性就是卧室的数量。

图40决策树最强链接

③内容查看器：

存储了经过训练所得到的这些模式，以表的形式来展现的，可以用来查看不同的规则。

图41决策树内容查看器

2．“贝叶斯”试验结果

1）依赖关系网络

①所有链接：

贝叶斯是根据各个变量之间的概率关系，使用图论方法表示变量集合的联合概率分布的图形模型。

它提供了一种自然的表示因果信息的方法，用来发现数据间的潜在关系。

本例中通过贝叶斯算法分析的依赖关系强度不同的每一类的特性。

例如房屋所有者的依赖强弱程度不同的众多属性

图42贝叶斯所有链接

②最强链接：

通过贝叶斯算法所得到的依赖程度最强的属性，它用概率测度的权重来描述数据间的相关性，从而得到最强的相关性。

在实验中，房屋所有者依赖关系最强的属性就是卧室的数量，与决策树方法作出的结果实相符的。

图43贝叶斯最强链接

2）属性配置文件：

可以了解每个变量的特性分布情况。

属性特征可以看出不同群分类的基本特性概率。

属性对比就是呈现属性之间的特性对比。

图44就是通过贝叶斯算法所得到的属性配置文件，可以分析缺失的和现在的比例。

图44贝叶斯属性配置文件

3）属性特征：

贝叶斯算法所得到的数据集的属性特征。

它们的属性对应的值以及所对应的概率，从中可以分析对我们有用的信息。

图45属性特征

4）属性对比：

属性对比就是呈现属性之间的特性对比。

在图46中，规则可以查看算法中产生的关联规则，我们可以通过此来了解关联规则内容以及其支持度和置信度。

图46贝叶斯属性对比

5）内容查看器：

存储了经过贝叶斯算法训练所得到的这些模式，以表的形式来展现的，可以用来查看贝叶斯条件下的不同的规则。

图47贝叶斯内容查看器

3．“聚类分析”试验结果

1）分类关系图

①所有链接：

通过聚类分析所得到的强弱程度不同的所有链接。

分类关系图可以显示挖掘模型中的所有分类，分类之间连线的明暗程度表示分类的相似程度。

在此示例中，明暗度最深的分类8就是房屋拥有者百分比最高的分类。

图48聚类分析所有链接

②最强链接：

它是根据依赖程度最强的关系来确定最强链接的。

在本实验中，聚类分析最强链接是分类一和分类二。

图49聚类分析最强链接

2）分类剖面图：

分类剖面图提供算法创建的分类的总体视图，显示了分类中的每个属性以及属性的分布。

第一列列出至少与一个分类关联的属性。

查看器的其余部分包含每个分类的某个属性的状态分布。

离散变量的分布以彩色条显示，最大条数在“直方图条”列表中显示。

连续属性以菱形图显示，表示每个分类中的平均偏差和标准偏差。

如图50所示，缺失的和现有的状态之间的对比。

图50聚类分析分类剖面图

3）分类特征：

分类特征可以检查分类的组成特征。

使用“分类特征”选项卡，您可以更加详细地检查组成分类的特征。

您可以一次浏览一个分类，而不是比较所有分类的特征（就像在“分类剖面图”选项卡中那样）。

在本例中，我们可以分析变量所对应的值以及它所对应的概率大小。

图51聚类分析分类特征

4）分类对比：

分类对比可以比较两个分类的属性。

使用“分类对比”选项卡，可以浏览区分分类的特征。

当您从“分类1”和“分类2”列表中各选择一个分类后，查看器会计算这两个分类之间的区别，并显示各分类最独特的属性的列表。

在本实验中，可以用来分析变量是倾向于分类一的还是倾向于分类二的。

图52聚类分析分类对比

5）内容查看器：

存储了经过聚类分析算法训练所得到的这些模式，以表的形式来展现的，可以用来查看聚类分析条件下的不同的规则。

图53聚类分析内容查看器

展开阅读全文