1-2 推荐算法中的特征工程 - 杨旭东阿里

误区一：深度学习时代不需要特征工程。搜索、推荐、广告领域的数据以关系型结构组织，模型无法自动学习列式特征变换（如计数、TF-IDF），且一次只能处理小批次数据。
误区二：有了AutoFE工具就不再需要手工做特征工程。AutoFE尚处初级阶段，依赖特征变换和搜索，无法自动识别场景特殊性，且瓶颈在于评估特征子集有效性，仍需依赖数据科学家的业务知识和经验。
误区三：特征工程没有技术含量。实际上，特征工程需要丰富的业务知识和创造力。

高质量特征应具备以下特性：
- 有区分性（Informative）
- 特征之间相互独立（Independent）
- 简单易于理解（Simple）
- 伸缩性（Scalable）：支持大数据量、高基数特征
- 高效率（Efficient）：支持高并发预测、低维
- 灵活性（Flexible）：对下游任务有普适性
- 自适应（Adaptive）：对数据分布变化有鲁棒性

数值型特征：
- 特征缩放：Min-Max、Scale to -1,1、Z-score、Log-based、L2normalize、Gauss Rank等。
- Robust scaling：对异常值不敏感。
- Binning（分箱）：连续特征离散化，增强可解释性，对异常值不敏感。方法包括无监督分箱（固定宽度、分位数）、有监督分箱（卡方分箱、决策树分箱）。
类别型特征：
- 交叉组合：组合不同特征提升区分性。
- 分箱：高基数特征易引入噪音，需基于业务理解或BackOff策略。
- Count Encoding：统计类别特征的频率。
- Target Encoding：按类别特征分组计算目标概率，需平滑处理。
- Odds Ratio：计算类别特征的Odds值。
- WOE（Weight of Evidence）：计算特征与目标的关联性。
时序特征：
- 历史事件分时段统计：统计过去1天、3天、7天、30天的总行为数或转化率。
- 差异分析：环比、同比。
- 行为序列：需模型配合分析。

高基数属性的挑战：Scalable、Efficient、Flexible、Adaptive。
Learning with counts：
- 特征表示：按行为类型、时间段、标签统计计数，结合Backoff策略。
- 特征聚合：对计数特征进行聚合，如按用户、类别、价格级别分组。
- 特征组合：结合聚合特征和额外特征训练非线性模型。
查漏补缺：
- 列存实体（entity）
- 实体分箱&单维度统计/编码
- 特征交叉&多维度统计/编码