1、阿里巴巴大数据竞赛 -天猫推荐大挑战技术交流 天猫-推荐算法团队 2014年3月 提纲 大赛背景&赛题简介 内部品牌推荐算法介绍 交流时间 天猫推荐总体情况 服务平台 Mobile PC 推荐实体 品牌推荐 商品推荐 促销活动 等等 推荐算法 User2Items Item2Items Personalized Ranking Others 推荐产品 超过40+推荐产品 每天服务 10M+用户,双11当天服务36M+用户 天猫推荐总体情况-架构 用户实时 意图计算 推荐实体索引 检索 Ranker(CTR 预估)装配(参数化)在线实验 框架 离线实验 框架 Detail 给我推荐 会员俱乐部推
2、荐 天猫/淘宝 首页logo 推荐 图书城推荐 前端 匹配层 Hadoop集群 MPI集群 Spark集群 ODPS 大赛背景与赛题简介 Its a real problem 天猫品牌推荐业务 日常:每天曝光用户超过4千万 品牌是联接商家与消费者的纽带 2013.11.11,接近6千万用户浏览会场 双11-会场个性化 大赛背景与赛题简介 5.7亿用户行为数据 大赛背景与赛题简介 比赛题目 开放数据 天猫用户在某一年04月-08月的品牌行为数据:对品牌的点击、购买、收藏、加入购物车等。预测数据 同样这些用户在同年9月份将会购买的品牌 评价指标 大赛背景与赛题简介 开放的数据 字段 字段说明 提取
3、说明 user_id 用户标记 抽样&字段加密 time 行为时间 精度到天级别 action_type 用户对品牌的行为类型 包括点击、购买、加入购物车等。brand_id 品牌ID 抽样&字段加密 提纲 大赛背景&赛题简介 内部品牌推荐算法介绍 交流时间 问题的定义 有些人尝试把问题转化为评分预测问题。Brand1 Brand2 Brandn User1 1?User2?5 3 User3 3?Userm Type Score Click 1 Fav 2 Add2Cart 3 Buy 5 SVD+Factorization Machines 问题的定义 有些人尝试把问题转化为分类问题。Ty
4、pe Label Click 1 Fav 2 Add2Cart 3 Buy 4 各种分类算法 f1 f2 fn Useri-Brandj 1 0 2 问题的定义 有些人尝试把问题转化为Graph问题。复杂网络(标签扩散、热传导)、问题的定义 在天猫,我们尝试把它转化为一个点击率预估问题 not the best,not the worst f1 f2 fn if-click 0 Useri-Brandj 1 0 2 1 Training Stage Prediction Stage f1 f2 fn Click_prob Useri-Brandx 1 1 0?Feature Engineeri
5、ng 行为序列:1天 7天 90天 时间维度:类型维度:购买 点击 收藏 加入购物车 b1 b2 Feature Space:b3 f1 f2 fn Click_prob Useri-Brandx 1 1 0?Explore the Unknown 偏好品牌集合 for user x 6b1b3b5bbi bi sim ItemBaseCF算法:主品牌 相似品牌 1b3b5b6bb11;b12;b13;b1h b21;b22;b23;b2k b61;b62;b63;b6k 相似品牌 新品牌 for user x Models 线性Model:Logistic Regression 非线性Mod
6、el:Random Forest&GBDT 离线评估系统 基准桶 优化桶 for user x PK Step 1:为 x 选出最好的n 个品牌;n=4 or 8 or 16 其实不管是谁看,基准桶都只能选出一样的品牌。不同用户,不同算法参数都会选出不同的品牌集合。Step 2:取出 x 真实的品牌点击记录 是否命中 Step 4:计算所有用户的命中率 ii)serdelivers(u)()(hit_(总曝光数)总命中数iiusersratehitStep 3:计算单个用户命中数和投放数 品牌推荐算法的重要性 2013.11.11,近6千万用户访问会场 Welcome on board!Welcome on board!交流环节 竞赛互动平台:1.官方BBS:阿里云论坛 2.来往扎堆:数据魔法学院 谢 谢!
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1