登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稀土
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
1-2 推荐算法中的特征工程 - 杨旭东 阿里
信息技术
2022-06-13
DataFunSummit2022:数据科学在线峰会
王***
AI智能总结
查看更多
核心观点与内容总结
一、为什么要精做特征工程
数据和特征决定了效果的上界,算法和模型只是逼近上界的手段。
特征工程是编码领域专家经验的重要手段,好的特征工程能显著提升模型性能并简化模型复杂度。
二、特征工程的常见误区
误区一
:深度学习时代不需要特征工程。搜索、推荐、广告领域的数据以关系型结构组织,模型无法自动学习列式特征变换(如计数、TF-IDF),且一次只能处理小批次数据。
误区二
:有了AutoFE工具就不再需要手工做特征工程。AutoFE尚处初级阶段,依赖特征变换和搜索,无法自动识别场景特殊性,且瓶颈在于评估特征子集有效性,仍需依赖数据科学家的业务知识和经验。
误区三
:特征工程没有技术含量。实际上,特征工程需要丰富的业务知识和创造力。
三、什么是好的特征工程
高质量特征
应具备以下特性:
有区分性(Informative)
特征之间相互独立(Independent)
简单易于理解(Simple)
伸缩性(Scalable):支持大数据量、高基数特征
高效率(Efficient):支持高并发预测、低维
灵活性(Flexible):对下游任务有普适性
自适应(Adaptive):对数据分布变化有鲁棒性
四、常用的特征变换操作
数值型特征
:
特征缩放:Min-Max、Scale to -1,1、Z-score、Log-based、L2normalize、Gauss Rank等。
Robust scaling:对异常值不敏感。
Binning(分箱):连续特征离散化,增强可解释性,对异常值不敏感。方法包括无监督分箱(固定宽度、分位数)、有监督分箱(卡方分箱、决策树分箱)。
类别型特征
:
交叉组合:组合不同特征提升区分性。
分箱:高基数特征易引入噪音,需基于业务理解或BackOff策略。
Count Encoding:统计类别特征的频率。
Target Encoding:按类别特征分组计算目标概率,需平滑处理。
Odds Ratio:计算类别特征的Odds值。
WOE(Weight of Evidence):计算特征与目标的关联性。
时序特征
:
历史事件分时段统计:统计过去1天、3天、7天、30天的总行为数或转化率。
差异分析:环比、同比。
行为序列:需模型配合分析。
五、关系型数据下的数据挖掘
高基数属性
的挑战:Scalable、Efficient、Flexible、Adaptive。
Learning with counts
:
特征表示:按行为类型、时间段、标签统计计数,结合Backoff策略。
特征聚合:对计数特征进行聚合,如按用户、类别、价格级别分组。
特征组合:结合聚合特征和额外特征训练非线性模型。
查漏补缺
:
列存实体(entity)
实体分箱&单维度统计/编码
特征交叉&多维度统计/编码
你可能感兴趣
【中金建材】政策利好密集推出,建材基本面有望受益| 龚晴、陈彦、杨茂达、姚旭东、
未知机构
2022-11-28
2-3 联邦学习在电信运营商行业中的应用与实践 - 杨爱东
文化传媒
DataFunSummit2022:数据安全与隐私计算峰会
2022-07-18
荣耀推荐算法架构快速演进实践_冯晓东
信息技术
ArchSummit深圳2022|全球架构师峰会
2022-07-19
知识图谱在美团推荐场景中的应用 - 美团-NLP中心-知识计算 杨玉基
信息技术
DataFunSummit 2022 :第二届知识图谱在线峰会PPT汇总
2022-03-21
使用在线学习环境中的特征工程来观察社交和情感技能以及学习成绩
文化传媒
ACT Research
2020-10-02