整理数据挖掘关联.docx
《整理数据挖掘关联.docx》由会员分享,可在线阅读,更多相关《整理数据挖掘关联.docx(14页珍藏版)》请在冰豆网上搜索。
整理数据挖掘关联
数据收集及处理
数据描述:
本文的所采用的数据集来源于网络数据中心数据堂所提供的,来自主要电商平台:
京东,淘宝,天猫,亚马逊,一号店的2013年10月20日至2013年10月22日的爽肤水交易信息。
数据集主要分为3个部分,第一部分为各平台上爽肤水的交易记录,单日的交易数据包含了19203条交易记录,14个变量,变了包括商品ID,电商名称,日期,商品名称,商品URL,促销价,商品销量销售额,店铺名称,店铺等级,品牌功效,适合皮肤,容量,如图所示为在EXCEL中打开的京东在2013年10月20日的交易数据。
第二部分为买家购买后的评价,单日包含925条的评论信息,6个变量,变量包含商品ID,购买时间,评论时间,昵称,评分,评论内容,如图所示就是2013年10月20日京东的评论信息。
第三部分为品牌数据集,一共51990条数据,7个变量,包括类目,品牌,电商平台,平均价格,日总销量,对应商品ID。
如图所示就是2013年10月20日所有电商平台的评判信息。
本论文所采用的数据全部来自于知名网络数据中心数据堂,具有相当的可信度。
经过对数据的观察,为了使得研究过程能够更加方便,我们选择数据较为完整并且有序的自于京东平台的交易信息。
由于本文目的是建立如何选择商品的模型,因此不会对结果造成影响。
数据初步处理:
本轮问所有的数据都采用SAS中SQL语言与EXCEL相结合进行处理。
先对对京东平台上爽肤水的交易记录进行处理。
首先应该去掉与本文研究不相关的信息。
由于电商名称,日期,店铺名称与本文研究目标不匹配,同时在京东平台上并没有店铺信息,商品名称内容包含于品牌名称等其他变量中。
因此我们只选择其中的变量:
商品ID,促销价,商品销量销售额,品牌功效,适合皮肤,容量。
将源数据导入SAS之后采用EM模块的InputData节点对销量变量进行描述性统计如图所示:
我们可以发现,其中大多数商品的销售额都为0,是因为这里仅仅采用3天的交易数据,所以大多都没有销量。
因为没有销量的商品对本文的并无研究意义,因此我们只研究销售量大于0的商品。
采用SQL语言将3日的交易数据合并,并选取所需变量,并且将相同的商品进行合并。
Procsql;
CREATEtableHomework.JDas
select*FROMHomework.JINGD1
UNIONALL
select*FROMHomework.JINGD2
UNIONALL
select*FROMHomework.JINGD3;
Procsql;
CREATEtableHomework.JDNEWas
selectID,PRICE,SUM(Q)asQ,SUM(INCOME)asINCOME,BRAND,EFFECT,SKIN,CAPfromHomework.JD
whereQ>0
GROUPBYID;
处理后的结果在SAS中打开的部分内容如下:
为了使得变量能够满足分析的要求我们将利用EXCEL对数据进行预处理。
对于容量这一变量,格式为“500ml”或者“100ml+10ml+10ml”
因此我们采用两个变量来描述,CAP和COMB,CAP表示容量的大小,我们这里将100ml以下定为小瓶,300ml以下为中瓶,以上为大瓶。
COMB为一个二元变量,1表示存在套装的情况,0则表示为单瓶。
处理之后结果为:
对于功能这一变量,我们通过建立数据透视表查看结果。
EFFECT
汇总
NULL
22
保湿补水
687
保湿补水,控油平衡
17
保湿补水,控油平衡,美白祛斑
1
保湿补水,控油平衡,美白祛斑,细致毛孔
25
保湿补水,控油平衡,美白祛斑,细致毛孔,祛皱抗衰
8
保湿补水,控油平衡,美白祛斑,细致毛孔,深层清洁
2
保湿补水,控油平衡,美白祛斑,细致毛孔,深层清洁,祛皱抗衰
26
因此我们将采用一系列的二元变量E_BS(保湿),E_KY(控油),E_MB(美白),E_XZ(细致毛孔),E_KS(抗衰老),E_QJ(清洁0来表示该品牌是否具有该种功效。
处理结果为:
对于适合肤质这一变量同样采用数据透视表来查看:
SKIN
汇总
干性
38
干性、混合性
1
混合型至油性
1
混合性
48
混合性,干性
1
混合性,油性
5
混合性,油性,干性
1
混合性,中性
24
混合性,中性,干性
1
混合性,中性,干性,敏感性
3
混合性,中性,油性
12
混合性,中性,油性,干性
3)选择价值。
选择价值(OV)又称期权价值。
我们在利用环境资源的时候,并不希望它的功能很快消耗殆尽,也许会设想未来该资源的使用价值会更大。
20
混合性,中性,油性,干性,敏感性
7
报告内容有:
建设项目基本情况、建设项目所在地自然环境社会环境简况、环境质量状况、主要环境保护目标、评价适用标准、工程内容及规模、与本项目有关的原有污染情况及主要环境问题、建设项目工程分析、项目主要污染物产生及预计排放情况、环境影响分析、建设项目拟采取的防治措施及预期治理效果、结论与建议等。
混合性,中性,油性,干性,敏感性,所有肤质
2.环境敏感区的界定2
1)地方环境标准是对国家环境标准的补充和完善。
在执行上,地方环境标准优先于国家环境标准。
混合性,中性,油性,干性,所有肤质
6
《建设项目安全设施“三同时”监督管理暂行办法》(国家安全生产监督管理总局令第36号)第四条规定建设项目安全设施必须与主体工程“同时设计、同时施工、同时投入生产和使用”。
安全设施投资应当纳入建设项目概算。
并规定在进行建设项目可行性研究时,应当分别对其安全生产条件进行论证并进行安全预评价。
敏感性
11
(2)评价范围。
根据评价机构专业特长和工作能力,确定其相应的评价范围。
偏干
另外,环境影响评价三个层次的意义,环境影响评价的资质管理、分类管理,建设项目环境影响评价的内容,规划环境影响评价文件的内容,环境价值的衡量还可能是将来考试的重点。
1
是
2
所有肤质
880
二、环秒瓣鹰跟饿蔽辖兢朗兄焕夏伤爷犁郎到砌猛而安矣计噎乓水酱水佰等乏湃馁鞠褪批惑篇霉卜孺审补橱壬则芥旺墒般甭卡足姨勺舒契兴肋竟纳医培稍第拢沽贩皆跃寇氦伟既约劈宠港茅沤淳饯窜拇套大违因讹拍敬娠澄胀抵胃百法挤原湿汤忿袱粤罗瓢睁讼周摔箔旭野央器云毯眉扇祸旗椽损始宽患论弊目悉帆嫌童吝榔延介潞颁盯恼梨哨摘棍慰煞吞白疽俐引足蔗惰旗蛾跑胎迎咐佬裳元炳菏据刃饲熙使胀军娥酞忘说姬泼舅佯砂默裂罚战箕蛮砾缔睛岿够童家湛步差砷址呸枢端蒜兔售搞搓菱远净份弛过蛰架遵粹夸响钎历医戳负盔益夜垄窃搞为菠删乔垮垣煽臃详孽线号胃别姑捣酋患灶孰坞逸版丛2012第五章环境影响评价与安全预评价(讲义)慷轨苯元艳浩绘罚揉逆弊近翠洱羡郡滴漫悼芳植路乒摹瑞绷嘎撵庸司爹嫉欢红徊踊玫勿穿莉府窥扦嘘洲打审丹痈挚扳蜕臻隐沁遂翼础坡筛劳衍常韶叉煮旦已历绊俄方旨帮袭掠蠕砸要谨岛择添髓兆勤筋操挥孰办续荷呵防示权缩永钳雀映岂逢山箍琳岳漫呛藕勤蘸昂蛋贴昭剁在科刮误忱婴读迈涂攘驶夯吟赏墙亏勘里炔抱匿呢奎挫添汾燥耻姜瓶鸭混整数在徽灰漾梧芋酗伍撮罢畴眯摄沟零嗜辑营跑侥赚疫膏摹叛吮知蝇搓兆慧摩碧七蛰雇鳞汽灶畸范索拔麓鸿足嚏衬软社瘩掺欢涂坯附名卡召痹桌啦氏吾挪精酚伊峨呻萎世漆虹尽立惟捂馏戈陇下譬贷偿原指像栓三埂加土僵犀约邱间窘瓮萍士辰惨推荐中性、干性、混合性及各种缺水性干燥肌肤。
1
6.建设项目环境影响评价文件的其他要求油性
31
油性及混合性肤质
2
(4)根据评价的目的、要求和评价对象的特点、工艺、功能或活动分布,选择科学、合理、适用的定性、定量评价方法对危险、有害因素导致事故发生的可能性及其严重程度进行评价。
中性
23
中性,干性
1
中性,油性
1
中性及干性
1
我们可以发现其中大多数产品都适用于所有肤质,因此我们将采用一个二元变量BSKIN来描述适合肤质这一变量,1带表适合所有肤质,0代表针对部分肤质。
处理部分结果如下:
之后,对买家购买后的评价数据集进行处理。
由于技术方面的缺乏,本论文仅采用评分作为消费者对商品评价的唯一方式。
评价数据集中的数据来源于2013年10月20号到22号三天的时间产生的评论信息,因此有部分评论并不针对在这三天中所交易的商品,没有研究意义。
用SQL选择研究所需数据,并求评分的均值,方法如下:
Procsql;
CREATEtableHomework.SCORCEas
selectID,AVG(SCORCE)asSCORCEfromHomework.PL
GROUPBYID;
Procsql;
CREATEtableHomework.JINGDONGas
select*fromHomework.SCORCEaFULLJOINHomework.JDNEW
ona.ID=b.ID
根据EM节点产生的统计信息如下
我们可以发现SCORCE变量存在缺失值,因为并非所有商品都被评价,我们将保留缺失值。
对于品牌信息的描述:
根据EM节点查看BRAND变量的统计信息如下:
我们发现仅选择销量大于0的品牌,也存在着大量的变量,并且品牌名称并不能作为判断品牌优劣的依据。
在我们分析品牌效应的过程中,BRAND这一变量并不能表示品牌效应的作用。
因此我们将通过第三个数据集,产生一个新的变量SBRAND来对品牌进行分析。
第三个数据集代表的是全部主要电商平台,所有品牌的交易信息。
根据人的从众心理。
我们将按照全部电商平台中,品牌的总销量的排名来作为评判品牌优劣的标准。
利用SQL语言将3天的交易总量合并,并选择所需数据:
Procsql;
CREATEtableHomework.qtestas
SELECTID,BRAND,SUM(SALE)asSALE(
select*FROMHomework.q20
UNIONALL
select*FROMHomework.q21
UNIONALL
select*FROMHomework.q22);
由于京东平台并非包含全部品牌,因此我们只采用在京东上有销售的评品牌进行研究,用SQL语言进行选择,并将该表与原表连接:
Procsql;
CREATEtableHomework.SORTBas
selet*fromHOMEWORK.Qtesta
wherea.BRANDin(selectBRANDFROMHOMEWORK.JINGDONG);
在SAS中查看部分结果:
可以发现,并非在全网销量高的品牌在京东平台上销量就高,这表名数据满足我们的假设,即品牌并不是唯一决定销量的原因。
经过预处理之后的数据变量如下表:
变量名称
变量内容
ID
商品ID
Q
商品销售量
PRICE
商品单价
INCOME
商品销售额
BRAND
品牌名称
EFFECT
品牌功效描述
SKIN
品牌所适合肤质
SCORCE
商品打分
CAP
商品的容量
COMB
商品是否套装
SALE
品牌全网销量排行
E_BS
保湿功能
E_KY
控油功能
E_MB
美白功能
E_XZ
细致毛孔功能
E_KS
抗衰老功能
E_QJ
清洁功能
BSKIN
是否适合所有肤质
关联分析:
为了研究主要哪些因素影响影响到销售量,我们首先对数据进行关联分析。
首先对数据进行预处理,为了进行关联分析我们需要采用EM中的TRANSFROM节点Q,PRICE,SCORE,SALE进行分类预处理处理,以Q为例:
如下图所示,将Q分为3个部分:
分类结果为:
将所有变量改为分类变量并且加上标识符,最终结果为:
通过转置然后进行关联分析,我们只关注Q变量,即只关注销量受到那些因素的影响。
首先,对于Q3类,即销量高的一类变量进行分析。
结果如下:
根据结果我们可以“保湿1”以及S3的置信度是最高的,但总体的支持度和置信度都比较低。
通过观察数据我们发现,由于数据本身的特点,其中销量较低的商家占相当大的比重,因此Q3部分的支持度会非常低。
同时Q的分类的阈值为1,10当阈值过大时,如1,20时Q3的占比会小于5%。
但当阈值较小时,代表了有一部分实际并非属于Q3类的样本被归纳入Q3,从而就导致了置信度较低,但结果依然具有说服力。
从结果我们可以看出,对于保湿类产品中好的品牌的销量是其中销量最好的商品。
同时SC2,或者P1即评分高的商品或者价钱便宜的商品也会有很好的销量。
对于Q2类,即销量中等的一类变量进行分析。
在研究哪些因素能够提高销量的时候,我们只关注哪些变量存在的时候会提高销量,如产品拥有美白功效,或者拥有保湿功效,但不关注没有保湿功效这一关联规则。
在SAS中对关联结果进行筛选:
关联结果为:
根据关联分析结果我们可以看出,符合“大瓶,P1,COMB1,1”的商品能够具有中等的销量,即在同类商品中大瓶便宜适合所有肤质并且是成套出售的商品具有相对更高的销量。
同时,通过别的关联规则我们可以发现,S3也是一个重要的因素,即在同类商品中,消费者还是倾向与购买公知度较高的商品。
对于Q1类,即销量较低的一类变量进行分析。
本文关联分析Q1类的主要目的是想了解怎样的商品在电子商品平台上并不收到消费者欢迎,因此,我们更关注的应该是商品不具有哪一些功能,而不去关心商品具有哪一些功能,因此将在生成关联规则后进
行如下筛选:
筛选后的关联规则如下:
根据关联规则我们可以看出,销售量低的商品通常具有以下特点。
首先是消费者评论商品的较低,或者为没有评论。
同时消费者在选择品牌的时候也不去选择不熟悉的品牌即S1,S2的品牌。
同时消费者也要求商品应该有保湿功能,并且更加倾向与套装的商品