电商搜索概述
电商搜索业务场景多样,包括主搜、券搜、图搜等,涉及NLP、CV、检索、推荐、强化学习等技术栈,覆盖主站、垂站、C站B站、国内国际等站点类型。京东搜索作为最大流量场,面临流量红利消失、效率成为增长驱动力等挑战,同时拥有提升搜索效率和GMV的机遇。
搜索架构包括召回、粗排、精排、重排和调控环节。搜索流量调控业务通过算法/策略/系统设计和优化,构建考虑平台意志和长期价值的流量分发系统,促进平台商家健康活跃发展,提升平台用户和商家价值;实现精准的搜索流量预估和快速的流量分配机制,将优质的流量个性化/定量分发地分发给匹配的用户和商家;并对预售、上新、品类日、大促等商家/商品活动,设计激励兼容的策略的算法/策略并持续优化。
流量调控技术框架包括字典服务平台、QP数据平台、训练平台等基础能力,以及保召回、熔断能力、赋权能力、止损能力、效率控制能力、流量预估能力、单品粒度流量控制能力等。流量调控技术演进经历了统一调权、大促流量调控模型、选测养系统、新品流量分发等阶段,技术点包括PID模型、强化学习DQN模型、强化学习CEM模型等。
电商新品问题
新品特点为上架周期短、商业价值高。应对策略包括分层流量扶持撬动运营投入,新品探测加速潜在价值挖掘。新品成长的必要条件包括足够的曝光机会、合理的运营投入、准确的系统认知。搜索新品流量分发系统通过流量确定性层、效率竞争层、离线流量分配、在线流量调控、熔断止损等机制,解决新品曝光不足、转化率低等问题。
强化学习问题建模
强化学习在搜索场景的建模涉及状态设计、动作设计、奖励设计等。问题抽象为商品集合达到特定的GMV目标,通过调整商品的展示位置来实现;商品展示位置的调整需要满足效率约束(GMV/UV不降);商品集合的实时销量和目标销量之间,可以抽象为一个“反馈-控制”问题。
从0到1构建基于强化学习的流量分发系统,分为强化学习算法、在线流量分配、离线回放三个部分。DQN算法的状态设计包括时间维度特征、流量目标特征、搜索效率特征;动作设计为调控因子离散化;奖励设计为融合流量和效率的奖励函数。
线上流量调控的核心是调序公式,通过调控因子作用于线上排序。离线流量回放机制通过前期利用离线模拟构造数据,中期使用真实数据+模拟数据组合的方式构造数据集,后期使用真实数据构造数据集,解决RL训练冷启问题。
新品流量分发系统
新品项目通过强化学习调控,优化了状态设计、动作设计、奖励设计等。多目标强化学习方案通过Multi-head RL、决策融合、动作选择等方式,实现了曝光、点击转化、订单转化等多业务目标的收益获取。个性化强化学习通过引入用户的历史行为序列建模用户行为偏好,实现了对用户个性化偏好的调控。
业务收益方面,撬动新品占比提升,同比去年新品曝光占比绝对+xx%(xx%→xx%)、GMV占比绝对+xx%(xx%→xx%);新品转化效率明显提升,新品CTR提升xx%,CVR提升xx%;算法策略给新品带来额外增量,折合增加曝光xx亿/年,点击xx亿/年。