AI智能总结
演讲⼈:叶朗朗-京东-⾼级算法⼯程师 •隐私保护背景现状 •匿名化隐私保护及群体建模简介 •京东⼲告群体建模⽅案实践 隐私保护背景现状 背景 国内重⼤合规事件 国际重⼤合规事件 •2021年度⼯信部对201款App予以下架处罚•2022年2⽉份公开通报的SDK包括百度定位SDK、字节⼲告SDK、⺴易推⼲SDK、科⼤讯⻜商业化SDK等 •⾕歌⻄班⽛罚款1000万欧元、俄罗斯72亿卢布、法国5亿欧元•Facebook德国200万欧元、美国50亿美元、爱尔兰1860万美元•IAB欧盟25万欧元 欧盟 欧盟数据保护委员会《通⽤数据保护条例》(GDPR)欧盟各国《数据安全保护法》 美国 美国联邦贸易委员会更新《消费者信息保护准则》美国加州州⻓签署《关于隐私和消费者保护的第694号法》美国弗吉尼亚州正式通过《消费者数据保护法》 东南亚 新加坡-新加坡个⼈数据保护法(PDPA)泰国、越南和印度-个⼈数据隐私保护法和相关草案 背景 个性化开关改造 ID隐私政策和个性化监管持续影响⽤户识别能⼒ 《互联⺴信息服务算法推荐管理规定》(征求意⻅稿):算法推荐服务提供者应当向⽤户提供不针对其个⼈特征的选项,或者向⽤户提供便捷的关闭算法推荐服务的选项 匿名化隐私保护及群体建模流程 匿名性指标 原理 通过将个⼈数据集集中在更⼤的群体中,从⽽掩盖与个⼈相关的信息 lK-Anonymity:K-anonymity要求每个群体⾄少要有K个个体。lL-Diversity:L-Diversity要求每个群体中的敏感属性要有⾄少L个可区分的取值。lT-Closeness:T-Closeness要求敏感属性在某个群体中的分布和在整体中的分布之间的距离不超过阈值T。主要关注群体信息带来的信息增益。 •Suppression:对敏感信息直接抹除•Generalization:敏感信息泛化•Noise:敏感信息加噪 群体建模流程 •⽤户历史⾏为编码•信息量、可区分性、鲁棒性 •局部敏感哈希、聚类⽅法 京东⼲告群体建模⽅案实践 群体建模算法 Stage 2 Stage 1 •Augmentation & Encoder•InfoNCELoss•Cross Entropy Lossℎ=#$,ℎ&=#'()*+,(-$./01=−31∈5log*⁄:;<:;=>∑@∈5*⁄:;<:A=>./0B=−3B∈Clog*⁄:D<:D=>∑E∈C*⁄:D<:F=>./0B/G=−3BHBlogHB&.=./0B/G+J./01+K./0B •Cluster Assignment•Auxiliary Reconstruction•Cohort Centroid Update.LM/=NB−$OP(QPRS#∅NB,UVDWXB=R,$max/#∅NB\U/UVD&=UVD+]#∅NB,]&=^] 群体建模站内应⽤实践 群体化召回 以群体为主体,群体多粒度⾼频集为触发器 群体化排序 排序模型去个性化,群体统计特征、粗粒度标签 跨域群体建模站内应⽤实践 合规约束下,利⽤基于匿名化隐私保护的群体技术,挽回站内个性化信息缺失及跨域ID流通隔离造成的损失 感谢观看