250 likes | 389 Views
导购商品推荐的探索. 刘超. 关于逛. 电商导购 / 分享平台 发现 导航(类目,标签,品牌,主题等) 搜索 推荐 喜欢 收藏、评论、打分、购买、 UGC (分享商品及购物体验). 导购的预期. 买家 <=> 卖家 快速匹配 用户信任感 浏览(逛)的体验 社区(圈子) 购物的体验. 导购的预期. PV/UV (用户数) 回访率(用户群) 跳出率 转换率(每笔订单的平均 pv ). 商品推荐需要解决的问题. 商品更新 商品质量 商品与买家的匹配度. 商品推荐. 商品导航 自然排名 马太效应 冷启动问题(新商品排名预测) 个性化推荐
E N D
导购商品推荐的探索 刘超
关于逛 • 电商导购/分享平台 • 发现 • 导航(类目,标签,品牌,主题等) • 搜索 • 推荐 • 喜欢 • 收藏、评论、打分、购买、UGC(分享商品及购物体验)
导购的预期 • 买家<=>卖家 快速匹配 • 用户信任感 • 浏览(逛)的体验 • 社区(圈子) • 购物的体验
导购的预期 • PV/UV(用户数) • 回访率(用户群) • 跳出率 • 转换率(每笔订单的平均pv)
商品推荐需要解决的问题 • 商品更新 • 商品质量 • 商品与买家的匹配度
商品推荐 • 商品导航 • 自然排名 • 马太效应 • 冷启动问题(新商品排名预测) • 个性化推荐 • 防spam攻击
商品导航 • 类目 • 标签 • 品牌 • 主题 • 其他维度
商品的自然排名 • 按商品发布的时间排序 • 新商品在前 • 满足内容更新的需求,但质量得不到保障 • 按商品综合得分排序 • 基础的推荐规则 • 根据商品属性、用户行为给商品打分 • 商品属性:发布时间,类目,标签,品牌等等 • 用户行为:点击,喜欢,评论,打分,购买
商品的综合得分 • 计算商品得分 • 商品属性加权 • 用户行为数值正规化(normalization) • 通过公式计算得分
马太效应 • 有者愈有,强者愈强 • 热门商品会越热门,新商品难被发现 • 解决办法 • 补偿,对不利位置的商品进行补偿,或者削弱有利位置的商品因位置的得利 • 随机,避免单一的得分标准
马太效应 • 逛目前的做法 • 直接降权,属于补偿机制的一种 • 对排名位置靠前的商品定期降权,如对前两页的商品每隔几个小时降权至原来的30% • 位置靠后的商品有机会晋升 • 简单,易实现 • 商品都是经过小编审核,晋升商品的质量有一定保障 • 新商品的得分预测(补偿) • 解决商品更新的问题 • 分页内随机排序 • 同一页内的商品排序不受得分的限制
冷启动问题 • 新商品的排名预测 • 新商品,如发布一天内的商品,缺乏足够的原始数据计算得分 • 通过机器学习来预测得分 • 通过计算新商品与老商品的相似度,预测新商品可能的得分值 • 预测结果的时效性 • 因为是预测,得分有时效性 • 预测得分生效一天后需按照实际得分排序
冷启动问题 • 机器学习的数据准备 • 类目 • 标签 • 品牌 • 商品标题、描述的分词
冷启动问题 • 对商品聚类 • 去除停止词 • 无效词的向量维度对聚类效果影响大 • 计算TFIDF向量 • 复用搜索模块的lucene索引文件创建 • 分类目进行聚类 • 根据不同类目的商品特征调整聚类参数 • 例如:对于商品数较少的类目适当调低聚类结果数目
冷启动问题 • 对商品聚类 • 选取聚类中心点 • 选取每个聚类中得分最高的商品 • 或者选取聚类的中值点 • 对聚类中的新商品进行得分预测 • 根据中心点相似度打分 • 根据rank打分
冷启动问题 新商品 老商品top10 • 逛目前的做法 • 选取聚类中得分最高的商品 • 按照它的得分以及新商品与它的距离对新商品排序 • 预测新商品得分 • 指定为某rank位置的得分 推荐到top 3 得分100 预测得分85 推荐到top 6 90 推荐到top 9 65 80 70 45 60 50 40 30 20 10
个性化推荐 • 数据积累,收集以下信息 • 用户行为,点击、收藏、购买等 • 用户关系 • SNS好友 • 站内好友 • 达人(通过审核的活跃用户,有引导一般用户的作用) • 构建用户兴趣模型 • 基于关键字 • 如用户及好友收藏的商品,感兴趣的标签、品牌等 • 基于语义
个性化推荐(一) • Feeds流(好友逛) • 根据用户数据生成 • 聚合好友的行为形成动态列表 • 优点 • 模式成熟、简单 • 效果也不错 • 缺点 • 不够精准 • 可控性不够
个性化推荐(二) • 用户主动定制的信息聚合 • 类似rss feeds • 定制标签、主题、品牌的商品更新 • 优点 • 简单 • 用户主动行为,推荐效果可以预期 • 缺点 • 需要用户主动定制
个性化推荐(三) • 精准推荐 • 目前正在探索 • 思路 • 以用户个性化特征为核心,结合用户圈子构建兴趣模型 • 基于关键字的 • 简单易行
防spam攻击 • Spam动机 • 利益 • 商家:利用推荐规则是自己的商品获利 • 活动:比如用户通过spam增加中奖的概率 • 竞争对手恶意攻击 • Spam的影响 • 无效数据进入推荐系统,影响推荐的质量
防spam攻击 • 防spam思路 • 切断不合理利益通道 • 对用户参与活动的行为进行审核 • 对商家的行为进行管理 • 防止恶意攻击 • quota limit (ip, user, rate) • comment spam: 评论相似度 • captcha
其他方向的探索 • 基于语义的个性化推荐 • 基于语义的用户兴趣模型 • 站外个性化推荐 • EDM,电子邮件营销
THANKS! My email: liuc@guang.com