df_set.to_csv("data/"+"test.csv",index=False)
end=time.time()
print'训练集划分耗时%f秒'%(end-start)
3平衡正负样本
正负样本比例需从1:
100降为1:
10~1:
20之间。
贴关键代码
importpandasaspd
importrandom
importtime
fromget_featuresimport*
start=time.time()
df_feature2=pd.DataFrame()
j=10
forkinrange(20):
i=j+k
df_feature=pd.read_csv("data_features/train"+str(i)+".csv")
df_feature_p=df_feature[df_feature.tag==1]
df_feature_n=df_feature[df_feature.tag==0]
lp=len(df_feature_p)
ln=len(df_feature_n)
iffloat(ln)/lp>14:
a=range(0,ln)
slice=random.sample(a,lp*14)#lp*15
df_feature_n=df_feature_n.iloc[slice]
df_feature=pd.concat([df_feature_p,df_feature_n],ignore_index=True)
df_feature2=pd.concat([df_feature,df_feature2])
df_feature2.to_csv("features/train_feature.csv",index=False)
end=time.time()
print'对训练集抽样耗时%f秒'%(end-start)
3、特征提取
特征提取在数据挖掘中很重要,那么为什么它们那么重要呢?
之前提到过,要想输出测试集的类别标签,需要模型在训练集经过学习,那么模型在训练集上学习的是什么?
我们知道,在给模型输入数据的时候,实际上模型用到的都是特征(及其对应的类别标签),而特征就是用于描述为什么该样本的类别标签就是如此,在本赛题中即用于描述某用户为什么购买/不购买某商品。
比如,用户购买某商品的原因,是因为以前经常买,信得过,那么这里可以用“用户购买该商品的天数/用户访问该商品的天数”来刻画用户对该品牌的忠诚度。
当然,并不是单一的特征就能描述所有情况,通常来说,需要针对所有可能的情形进行考虑,从而深刻而全面地刻画用户购买/不购买商品的原因。
这样,模型才能真正学到其中的规律,从而在测试集表现优异。
而这一过程,就称之为特征工程。
显然,要做好特征工程,需要我们自身对“用户会否购买商品”这一业务具有较深刻的理解,即领域知识,并将其用模型可理解的方式表现出来,如何抽取特征?
1、统计用户在31天中的购买量、点击量、收藏量、加购物车次数、有操作记录的天数、发生购买的天数、点击转购买率等等,并以点击转购买率做升序/降序排序进行观察,可以发现点击量越高的,点击转购买率也往往越低,尤其点击量极高的用户,往往购买量为0。
由此可以考虑将用户购买量、点击转购买率等一系列特征用于描述用户是否会在未来一天发生购买。
2、统计用户从初次访问商品到最终购买商品的时间,可以发现绝大多数购买都是当天接触当天完成,越往后用户购买的可能性越低。
由此可以推测用户对商品的购买意愿是随着距离上次访问的时间拉长而衰减的,进而可以使用衰减函数来模拟该购买意愿。
一方面,利用领域知识对数据进行分析、实验验证。
另一方面,从分析的结果、实验的反馈来更新领域知识。
这是一个不断迭代的过程,需要成体系、且不断地完善。
以下仅供参考:
(1)、基本统计类特征
A.销量(分割日期前1、2、3、4、5、10天)
B.成交订单数(以同一天同一个用户为一个订单)
C.购买人数
D.以上3类特征分别再针对点击、收藏、加购物车等进行统计
(2)、转化率类特征
A.销量/点击数
B.成交订单数/点击订单数
C.购买人数/点击人数
D.上述3个特征分别在针对收藏、购物车等操作进行统计
(3)、比值类特征
A.返客率(某周期内多次购买的用户数/总购买用户数)
B.老客户率(3天【或其他周期7、15、30】前曾购买过且在前3天内再次购买的用户数/3天内总购买用户数)
C.人均点击数、人均购买量、人均收藏量、人均加购物车量等
我们的做法:
1.用户所有行为总量
提取用户所有行为总量作为第一个特征,它是指每个用户对每个商品所有行为的总量,其中的所有行为包括点击行为、收藏行为、购物车行为、购买行为。
用户所有行为总量定义为前10天的用户行为数据中用户对商品全集的所有行为总量,包括点击量、收藏量、购物车量、购买量。
从用户所有行为总量中,可以得到用户对某商品产生的行为次数,从而推测出该用户对阿里巴巴移动电商平台的操作频率和忠诚度,以此做出合理的个性化推荐。
之所以选择前10天作为时间节点,是由于划分之后的每个训练集和测试集都以10天为单位。
2.点击量
定义数据集的每个用户对商品全集中的商品的点击行为的总和为点击量。
从点击量中,可以知道用户浏览了几次某商品,从而推测该用户对该商品的兴趣程度,为之后的模型训练以及最后的个性化推荐奠定一个良好基础。
其中,对点击量按10天、5天、3天、1天的时间来划分。
也就是关于点击量,按时间的不同提取的特征(U_click_sum10-U_click_sum1)有4个,分别是前10天的用户点击量、前5天的用户点击量、前3天的用户点击量、前1天的用户点击量。
之所以这样提取特征是由于之前划分的训练集是以10天为单位划分的,这样可以更清楚地分析用户在10天中点击量的分布情况,对后面的模型训练有很重要的作用。
3.收藏量
定义数据集的每个用户对商品全集中的商品的收藏行为的总和为收藏量。
这里可以从收藏行为推测用户对某商品的感兴趣程度,虽然收藏量不会大于点击量,但是收藏行为必定大于点击行为反映的用户感兴趣程度。
4.购物车量
定义数据集的每个用户对商品全集中的商品加入购物车行为的总数为购物车量。
这里可以从加入购物车行为直接推断用户对某商品感兴趣,虽然购物车量必定大幅度小于点击量和收藏量,但是加入购物车行为反映用户对某个商品感兴趣程度必定大于点击和收藏行为反映的感兴趣程度。
5.购买量
定义数据集的每个用户对商品全集中商品的购买行为的总数为购买量,或者说用户购买商品子集的商品数量为购买量。
这里可以从用户的购买行为直接推断为用户对某商品感兴趣,对个性化推荐有重要的意义。
点击
为了更清楚地看到购买量与点击量、收藏量、加购物车量的关系,对用户前10天的行为数据用散点图表示,以用户前10天的购买量为横坐标,其他三类行为是纵坐标,如图,可以看出用户点击量与其他的行为量相比明显大很多,而点击量越多的用户购买量就越少。
用户前10天的行为数据对比
6.点击/购买率
点击/购买率的计算公式就是点击量除以购买量,即发生多少次点击行为会有一次购买行为,也就是电子商务平台常说的转化率的倒数。
这个特征可以挖掘点击量和购买量之间的关系,可以预测出用户在点击后,何时会发生购买行为,更准确地为用户提供一个合理的个性化推荐。
这里还是按时间的不同提取4个特征(U_click/buy10-U_click/buy1),分别是前10天的点击/购买率、前5天的点击/购买率、前3天的点击/购买率、前1天的点击/购买率。
7.收藏/购买率
收藏/购买率的计算公式就是收藏量除以购买量,即发生多少次收藏行为会有一次购买行为。
这个特征可以挖掘收藏量和购买量之间的关系,可以预测出用户在收藏后,何时会发生购买行为,更准确地为用户提供一个合理的个性化推荐。
这里还是按时间的不同提取4个特征(U_collection/buy10-U_collection/buy1),分别是前10天的收藏/购买率、前5天的收藏/购买率、前3天的收藏/购买率、前1天的收藏/购买率。
与点击/购买率不同,该特征的取值范围可能在[0,1]之间,因为购买行为不一定要先收藏该商品,所以取值范围应该是大于等于0。
8.购物车/购买率
购物车/购买率的计算公式就是购物车量除以购买量,即发生多少次加入购物车行为会有一次购买行为。
这个特征可以挖掘购物车量和购买量之间的关系,可以预测出用户在加入购物车后,何时会发生购买行为,更准确地为用户提供一个合理的个性化推荐。
还是按时间的不同提取4个特征(U_car/buy10-U_car/buy1),分别是前10天的购物车/购买率、前5天的购物车/购买率、前3天的购物车/购买率、前1天的购物车/购买率。
该特征的取值范围与收藏/购买率相同,购买行为不一定要先加入购物车,所以它也应该是大于等于0。
9.商品销量
商品销量是指每个商品的销售量,与用户的购买行为有关,由购买了该商品的所有用户总量决定。
该特征直观地反映了某个商品基于销量上受喜爱程度,为训练模型以及个性化推荐提供了很好的参考。
还是按时间的不同提取4个特征(Item_sale10-Item_sale1),分别是前10天的商品销量、前5天的商品销量、前3天的商品销量、前1天的商品销量。
该特征的取值范围一定大于等于零。
10.成交订单量
成交订单量是指包含该商品的总成交订单的数量,与商品销量类似,不同的是同一笔订单中可能购买了多件该商品,那么此时商品销量大于1,而成交订单量却等于1。
该特征反映了用户对某个商品的购买次数,排除同一笔订单购买多件而使商品销量看起来较高的情况。
比如,用户购买牙刷时,一笔订单并不会只购买一个,通常会一起购买多个,那么牙刷的销量相比一般只购买一件的商品销量高很多。
通过成交订单量可以反映商品基于订单量受喜爱程度,提高了训练模型以及个性化推荐的准确性。
还是按时间的不同提取4个特征(I_order10-I_order1),分别是前10天的成交订单量、前5天的成交订单量、前3天的成交订单量、前1天的成交订单量。
该特征的取值范围一定大于等于零。
11.购买人数
购买人数是指购买该商品的用户总人数,与商品销量与成交订单相类似,不同的是同一个用户可能对该商品多次下单,也可能购买了多件该商品,那么此时成交订单量大于1,商品销量大于1,而购买人数却等于1。
该特征反映了某个商品的购买人数,排除同一个用户购买多次该商品的情况。
比如,用户购买生活用品就会出现多次下单和购买多件的情况。
通过购买人数可以真正反映商品基于用户受喜爱程度,很大程度地提高了训练模型以及个性化推荐的准确性。
还是按时间的不同提取4个特征(I_buyer10-I_buyer1),分别是前10天的购买人数、前5天的购买人数、前3天的购买人数、前1天的购买人数。
该特征的取值范围一定大于等于零。
12.是否加购物车
加入购物车的行为已经在前面做了一个详细地介绍和分析,其实在用户行为数据中,是否加入购物车也可以作为一个特征提取出来。
将是否加购物车的特征,定义为数据集的每个用户对商品全集中的商品是否发生加入购物车的行为。
这里还是按时间的不同提取5个特征(car5-car1),分别是倒数第5天是否加购物车、倒数第4天是否加购物车、倒数第3天是否加购物车、倒数第2天是否加购物车、倒数第1天是否加购物车。
之所以这样提取特征,是因为从用户在10天的倒数5天内是否会将某商品加入购物车,可以预测该用户在测试集中倒数5天内是否会发生加入购物车的行为。
该特征的取值范围一定为1或者0,其中1代表加购物车,0代表不加购物车。
13.是否购买
用户购买行为已经和加购物车行为一样在前面做了详细地介绍和分析,其实在用户行为数据中,是否购买也可以作为特征提取出来。
在本文中,将是否购买的特征,定义为数据集的每个用户对商品全集中的商品是否会发生购买行为。
这里还是按时间的不同提取5个特征(buy5-buy1),分别是倒数第5天是否购买、倒数第4天是否购买、倒数第3天是否购买、倒数第2天是否购买、倒数第1天是否购买。
之所以这样提取特征,是因为从用户在10天的倒数5天内是否会购买某商品,可以预测该用户在测试集中倒数5天内是否会发生购买行为。
该特征的取值范围一定为1或者0,其中1代表购买,0代表不购买。
14.累计的用户行为
累计的用户行为,也属于用户行为数据的一种表现形式,用户行为数据在前面已经做了详细地介绍和分析,它可以直观地反映出用户的各种关键信息。
累计的用户行为定义为前10天的用户行为数据中用户累计对商品子集的各行为总量,包括点击量、收藏量、购物车量、购买量。
与用户所有行为总量特征不同之处在于,累计的用户行为是基于商品子集的,而且是按照用户行为提取特征。
提取4个特征(behav1-behav4),分别是前10天的用户点击量、前10天的用户