您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2023:大模型与AIGC峰会]:大模型与搜索广告满意度 - 凤巢设计与实践 - 发现报告

大模型与搜索广告满意度 - 凤巢设计与实践

AI智能总结
查看更多
大模型与搜索广告满意度 - 凤巢设计与实践

演讲人–叶超–百度–资深算法工程师 DataFunSummit#2023 目录CONTENT 03PROMPT的应用 02DNN->ERNIE04AIGC与想象力 01搜索广告满意度 DataFunSummit#2023 搜索广告场景还原 商业广告搜索满意度 商业搜索满意度是满足搜索引擎产品要求,结合商业搜索广告个性化特点,从浏览到点后、服务后行为的全面评估。 商业搜索满意度=大搜搜索满意度and用户行为交互机器评价and商业后验服务质量 商业广告搜索满意度 商业搜索满意度是满足搜索引擎产品要求,结合商业搜索广告个性化特点,从浏览到点后、服务后行为的全面评估。 商业搜索满意度=大搜搜索满意度and用户行为交互机器评价and商业后验服务质量 02DNN->ERNIE DataFunSummit#2023 背景–典型的广告点击率预估模型 技术迁移–大规模DNN建模相关性 DNN->ERNIE 是不是直接把文本输入模型就可以了? DNN->ERNIE 是不是直接把文本输入模型就可以了? 目标:实现彻底、完全的ERNIE在线化,既要准,又要快 DNN->ERNIE 是不是直接把文本输入模型就可以了? 目标:实现彻底、完全的ERNIE在线化,既要准,又要快 技术挑战:深入高噪声落地页内容挖掘,克服长文本建模带来的语义理解挑战,与性能平方级增长压力 必须深入落地页进行长文本建模 ②广告有复杂的点击率优化特质,用户点击信号无法代表相关性–信号失效 “{通配符}-【品牌】电脑办公_正品低价_品质优选” DNN->ERNIE 是不是直接把文本输入模型就可以了? 目标:实现彻底、完全的ERNIE在线化,既要准,又要快 技术挑战:深入高噪声落地页内容挖掘,克服长文本建模带来的语义理解挑战,与性能平方级增长压力 重点举措:常规解法:①新硬件->GPU ②蒸馏萃取->128D2H2L③模型剪枝->顶层优化 DNN->ERNIE 是不是直接把文本输入模型就可以了? 目标:实现彻底、完全的ERNIE在线化,既要准,又要快 技术挑战:深入高噪声落地页内容挖掘,克服长文本建模带来的语义理解挑战,与性能平方级增长压力 重点举措:常规解法:①新硬件->GPU ②蒸馏萃取->128D2H2L③模型剪枝->顶层优化 提效举措: ④离散核心词集合输入与序列模型适配⑤多层级Token化设计–与凤巢能力结合 离散核心词集合输入与序列模型适配 问题的本质是思考posembedding的作用:1.ERNIE可否退化为词袋模型? 业务挑战:落地页侧为长文本,~600-1500汉字信息量,多次人工评估,落地页还原度可用需要~140汉字信息量,压缩比率低,性能挑战巨大,必须采取核心词集合输入 2.核心词稳定倒排是不是一种可以被学习的LM语法?3.有没有更好的输入方式? 基线:按照一般的思路,我们以核心词重要性稳定倒排作为模型输入 问题: ž语义片段破坏严重:连续语段会因为重要性倒排而出现语义破坏 数据:“北京到上海的机票” 鲁棒性效果:积分梯度示意before: 重要度排序核心词:“机票”“上海”“北京” ž核心词排序算法与模型耦合严重,预估鲁棒性差:模型对于头部核心词敏感,中部、尾部感知弱,核心词排序算法与模型学习出现耦合(见右图before) after: ž线上quota利用率低:线上quota由于模型与头部核心词耦合,后续的计算浪费严重,未能充分利用算力 Tokenization优化|消歧抗噪,提速增效 1字粒度语义特征缺乏对片段文本精确建模的能力:ERNIE的收敛依靠上下文语义辅助,核心词输入形式是离散片段化,语义收敛在高噪声条件下困难 -混合层次WWM训练-Sampledsoftmax 2算力消耗大:字粒度决定了模型的算力下界为输入序列长度为字数,线上平响约束 难以满足 -海量商业语料预训练 -Lazyadam-百万级采样提速-Vocab无偏解耦,热启初始化 多层级token化设计 •带入先验切词知识,以每个token的硬编码形式语义收敛取代soft语义收敛•以精确语义到宽泛语义逐渐兜底的token策略,保证专名优先,再用basic词粒度承接,最后由字粒度兜底例如[剪辑师]-> [剪辑][师]-> [剪][辑][师] 既要准,又要快 Sparse/dense都变大 03PROMPT的应用 DataFunSummit#2023 行业化业务发展与平台策略模型 方案 业务需要 训练范式 1凤巢业务行业化发展:运营单元与业务发展单元以行业为颗粒度 ①新增行业id作为tokenid,给予独特的pos/typeembedding②预训练阶段强制mask行业id,增加行业分类任务预估③Finetune阶段,将行业id作为softprompt引入样本,作为分类行业锚点,实现隔离性 2搜索满意度升级:迭代节奏以行业为颗粒度,集中迭代,小步快跑 技术抽象 行业粒度迭代,在迭代过程中,要有行业效果,也要大盘平稳。 一种具有良好隔离性的增量学习范式。 一种双塔语义模型优化方法 策略分析 思考:①有必要预训练一个双塔模型吗? 一般做法:①预训练一个单塔模型 ②预训练样本是pair形式组织的,NSP任务在每个塔的作用上有效吗?③sentence_B的信号去哪里了? ②同构或者异构双塔模型,均采用①产出模型作为encoder③对于每个encoder,输入对应文本作为sentence_A 04AIGC与想象力 DataFunSummit#2023 AIGC解决什么问题 搜索广告商业生态问题再回顾 AIGC解决什么问题 搜索广告商业生态问题再回顾 结论:供给侧是天花板,搜索广告优质供给不变条件下,用户体验单维优化难有突破 AIGC解决什么问题 搜索广告商业生态问题再回顾 结论:供给侧是天花板,搜索广告优质供给不变条件下,用户体验单维优化难有突破 求解路径:多管齐下,驱动优质内容建设正循环,联合客户,协同优化 AIGC解决什么问题 搜索广告商业生态问题再回顾 结论:供给侧是天花板,搜索广告优质供给不变条件下,用户体验单维优化难有突破 求解路径:多管齐下,驱动优质内容建设正循环,联合客户,协同优化 生成式模型与搜索满意度预估 自动化物料生成、debug&&解释性工具、系统级别LLMreward… 感谢观看