1、将创建一个数据挖掘模型以训练销售数据,并使用“Microsoft 决策树”算法在客户群中找出购买自行车模式。请将要挖掘的维度(事例维度)设置为客户,再将客户的属性设置为数据挖掘算法识别模式时要使用的信息。然后算法将使用决策树从中确定模式。下一步需要训练模型,以便能够浏览树视图并从中读取模式。市场部将根据这些模式选择潜在的客户发送自行车促销信息。要求:利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中遇到的各种问题和解决的方法与过程,并根据实验案例绘出模型及操作过程。实验完成后,应根据实验情况写出实验报告。二、实验原理及基本技术路线图(方框原理图或程序流程图)关联分析:
2、关联分析是从数据库中发现知识的一类重要方法。时序模式:通过时间序列搜索出重复发生概率较高的模式。分类:分类是在聚类的基础上对已确定的类找出该类别的概念描述,代表了这类数据的整体信息,既该类的内涵描述,一般用规则或决策树模式表示。三、所用仪器、材料(设备名称、型号、规格等或使用软件)1台PC及Microsoft SQL Server套件四、实验方法、步骤(或:程序代码或操作过程)及实验过程原始记录( 测试数据、图表、计算等)创建 Analysis Services 项目打开 Business Intelligence Development Studio。在“文件”菜单上,指向“新建”,然后选择
3、“项目”。确保已选中“模板”窗格中的“Analysis Services 项目”。在“名称”框中,将新项目命名为 AdventureWorks。单击“确定”。更改存储数据挖掘对象的实例在 Business Intelligence Development Studio 的“项目”菜单中,选择“属性”。在“属性页”窗格的左侧,单击“部署”。在“目标”选项部分,验证数据库名称是否为 localhost。如果使用的是其他实例,请键入该实例的名称。创建数据源在解决方案资源管理器中,右键单击“数据源”文件夹,然后选择“新建数据源”。系统将打开数据源向导。在“欢迎使用数据源向导”页面中,单击“下一步”按钮
4、。在“选择如何定义连接”页上,单击“新建”向 Adventure Works 数据库中添加连接。系统将打开“连接管理器”对话框。在“连接管理器”的“提供程序”列表中,选择“本机 OLE DBMicrosoft OLE DB Provider for SQL Server”。在“服务器名称”列表中,键入或选择承载 AdventureWorksDW 的服务器的名称。在“登录到服务器”组中,选择身份验证方法,并输入凭据。在“选择或输入数据库名称”列表中,选择 AdventureWorksDW,再单击“确定”按钮。单击“下一步”按钮进入向导的下一页。在“模拟信息”页中,选择“使用服务帐户”,再单击“下
5、一步”。请注意,在“完成向导”页中,数据源名称默认为 Adventure Works DW。单击“完成”。新的数据源 Adventure Works DW 将显示在解决方案资源管理器的“数据源”文件夹中。创建数据源视图在解决方案资源管理器中,右键单击“数据源视图”,选择“新建数据源视图”。系统将打开数据源视图向导。在“欢迎使用数据源视图向导”页上,单击“下一步”。在“选择数据源”页的“关系数据源”下,系统将默认选中您在上一个任务中创建的 Adventure Works DW 数据源。 单击“下一步”。若要创建新数据源,请单击“新建数据源”,启动数据源向导。在“选择表和视图”页上,选择下列各表,
6、然后单击右箭头键,将这些表包括在新数据源视图中:dbo.ProspectiveBuyerdbo.vAssocSeqLineItemsdbo.vAssocSeqOrdersdbo.vTargetMaildbo.vTimeSeries单击“下一步”。在“完成向导”页上,默认情况下,系统将数据源视图命名为 Adventure Works DW。 单击“完成”。系统将打开数据源视图设计器,显示 Adventure Works DW 数据源视图。创建用于目标邮件方案的挖掘结构在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”启动数据挖掘向导。在“欢迎使用数据挖掘向导”页上,单击“下一步”
7、。在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。在“创建数据挖掘结构”页的“您要使用何种数据挖掘技术?”下,选择“Microsoft 决策树”。在“选择数据源视图”页上,请注意已默认选中 Adventure Works DW。在数据源视图中,单击“浏览”查看各表,然后单击“关闭”返回该向导。在“指定表类型”页上,选中 vTargetMail 表旁边“事例”列中的复选框,再单击“下一步”。在“指定定型数据”页上,确保已选中 CustomerKey 列旁边 Key 列中的复选框。如果数据源视图中的源表表示一个键,则数据挖掘向导将自动选择该列作为模型的键。选中
8、BikeBuyer 列旁边的“输入”和“可预测”。单击“建议”打开“提供相关列建议”对话框。只要选中至少一个可预测属性,即可启用“建议”按钮。“提供相关列建议”对话框将列出与可预测列关联最密切的列,并按照与可预测属性的相互关系对属性进行排序。值大于 0.05 的列将被自动选中,以包括在模型中。阅读建议,然后单击“取消”忽略建议并保留向导设置的原始值。选中以下各列旁边的“输入”复选框:AgeCommuteDistanceEnglishEducationEnglishOccupationFirstNameGenderGeographyKeyHouseOwnerFlagLastNameMarital
9、StatusNumberCarsOwnedNumberChildrenAtHomeRegionTotalChildrenYearlyIncome在“指定列的内容和数据类型”页上,单击“检测”以运行对数值数据进行取样并确定数值列是否包含连续或离散值的算法。例如,某列可包含薪金信息,用以作为连续的实际薪金值,也可包含整数,用以表示离散的编码薪金范围(例如 1 = (大于)运算符。在同一行单击“值”框,并键入 20。单击“表达式”窗格以刷新该表达式,并验证它是否正确。再次单击“确定”,关闭“筛选数据集”对话框。“输入选择”选项卡中的“筛选表达式”窗格会显示刚才创建的筛选表达式 vTargetMail: (Age 20)。当制作提升图时,模型将仅使用其年龄大于 20 的客户进行测试。显示模型的提升在“选择要在提升图中显示的可预测的挖掘模型列”下,确保已在每个模型的“可预测的列名”列表中选中 Bike Buyer。在“预测值”列中,选择 1。对于具有相同可预测列的每个模型,将自动填充相同的值。显示模型的准确性将“预测值”列保留为空。查看提升图若要查看提升图,请切换到“挖掘准确性图表”的“提升图”选项卡。当您单击该选项卡时,便会对服务器和数据库的挖掘结构和输入表或测试数据运行预测查询。预测结果随后会与已知的实际值进行比较,并将绘制在
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1