您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2024:生成式AI技术峰会]:多模态LLM在云音乐推荐场景的落地应用_潘一飞 - 发现报告

多模态LLM在云音乐推荐场景的落地应用_潘一飞

AI智能总结
查看更多
多模态LLM在云音乐推荐场景的落地应用_潘一飞

姓名:潘一飞网易资深算法工程师 DataFunSummit#2024 背景介绍整体架构技术方案未来展望LLM助力音乐推荐业务 01 背景介绍 1.1背景 Background 1.大语言模型作为人工智能领域的前沿技术,近年来取得了显著进展 2.更精准的语言生成与推理能力,广泛应用于客服、教育、娱乐等多个领域 3.除了主打文本形态的大语言模型之外,能够处理文本、图像、音频和视频等多种模态数据的多模态大模型,正以其强大的内容理解与个性化生成等能力引领着行业变革 1.1背景 Background 音乐场景中所包含的丰富的歌词文本、专辑图片、音频是天然应用大模型的阵地 UGC歌单 每日推荐 私人FM •用户生产•内容千人一面 •流式推荐•实时更新 列表式推荐每日更新 MGC歌单 1.1背景 Background 云音乐推荐场景 关键作用:促进用户增长、提升用户粘性的核心手段 场景众多:从经典的每日推荐,衍生出私人漫游,雷达歌单等众多创新场景,可控占比高 挑战:1、马太效应,数据倾斜 2、新内容冷启动,新歌分发效率 1.1背景 Background 马太效应,新内容冷启 推荐系统主要由用户行为驱动建模,ID-based个性化分发倾向头部内容,新内容表征不佳,缺乏行为交互 大模型的兴起与发展提供解决方案 音乐的丰富多元的表征方式 专辑封面图片歌曲歌词歌曲基础属性:歌曲名、歌手、语种、曲风、乐器、奖项...用户热评音频... 1.1背景 Background 基于大模型的多模态音乐表征可以有哪些帮助 全方位的生成音乐内容表征,加深对音乐理解能力缓解马太效应,提升长尾歌曲的分发效率缓解新歌冷启动,改善云音乐的推荐生态 增效 1.2难点 Difficulties 基于LLM的多模态表征生产 •prompt的设计与构造•基于大模型的多模态表征稳定生产链路搭建 大模型知识与推荐领域对齐 2 •多模态LLM表征和推荐系统下ID-base表征对齐方式探索•多模态信息在推荐模型中的应用 1.3成果总结 Conclusion 覆盖场景 每日推荐、私人漫游、歌单推荐、长音频场景 增效 播放时长+3%,点击率+3%,分发歌单数+50%,新歌分发效率+3%长音频曝光人均时长+4% 02 整体架构设计 2.1系统框架 Framework 2.2基于大模型的多模态表征抽取 Framework 2.3模型架构 Framework 基于LLM的开放世界知识空间与推荐领域下的端到端对齐方式 03 技术方案 3.1 Prompt构造 Feature extraction 基于大模型的多模态表征抽取 one case�歌曲【抬头】 歌曲文本prompt构造如下: instruction:歌曲简介如下歌曲基础属性:歌曲名是《抬头》,演唱歌手是“陈光荣”,歌曲所属的地区是“港台”,语种是“纯音乐”,一级曲风是“原声带”...乐评:陈光荣用纯音乐讲述着希望与无奈的故事,无需言语,情感共鸣乐器:小提琴,钢琴歌词:... 歌曲图片特征 歌曲音频特征 3.2特征抽取 Feature extraction 基于大模型的多模态表征抽取 使用多worker的方式并行处理数据,加速推理速度 3.3离线验证 Offline verification 百川语言大模型case 再看【传统NLP模型】关联出的结果传统NLP模型更偏向字符匹配和文字相似度,多样性比较差 3.3离线验证 Offline verification 百川语言大模型case One more case�世界知识的体现能够捕捉到「元宵」与「新年」、「除夕」、「祈福」等主题,并关联到对应的歌单 LLM相比传统的语言模型,能够运用世界知识和推理,产生更广泛的关联性构建(例如情绪、诗意、民俗理解) 3.3离线验证 Offline verification 视觉大模型case 先看相似推荐(协同过滤)的结果 3.4大模型与推荐域空间对齐 Alignment 多模态融合精排对齐建模roadmap 04 LLM助力音乐推荐业务 4.1LLM助力音乐推荐业务-歌曲推荐 LLM for song rec 歌曲封面推荐:多模态特征之笔,绘制行为序列新画卷 •云音乐首页中的封面推荐场景(主要是日推封面和私人漫游封面)助力首页模块点击•歌曲基础信息,乐评,乐器,奖项,歌词,音频信息助力歌曲的多样性分发以及新歌分发•在精排侧基于多模态大模型的特征增强,提升个性化服务水平 4.1LLM助力音乐推荐业务-歌曲推荐 LLM for song rec 应用效果 人均播放时长+3%,对首页UCTR:+2%,新歌分发效率:+3%,新歌内容分发多样性均有显著提升 4.2LLM助力音乐推荐业务-歌单推荐 LLM forplaylist rec 首页歌单推荐:文本与图像交响,特征融合链路探索 •用户生成内容(UGC)歌单在音乐平台中占据了重要的位置•封面和标题文本是由用户自主选择和创作的,蕴含丰富的个性化信息,是用户情感和审美的直接体现•基于文本和封面信息实现多模态特征融合 4.2LLM助力音乐推荐业务-歌单推荐 LLM for playlist rec 4.3LLM助力音乐推荐业务-长音频推荐 LLM for radio rec 长音频推荐:旋律流转,开启音频特征融合之路 音乐播客模块声音:内容以精品的音乐推荐和音乐解读为主 有声书模块播单:有声书、广播剧 宝藏播客模块 声音:内容包括各种各样的长音频内容(狭义播客、情感、音乐播客等等 4.3LLM助力音乐推荐业务-长音频推荐 LLM for radio rec 长音频曝光人均时长+4% 05 未来展望 5.1展望 Future work 空间对齐方式的进一步探索 •引入对比学习的方式实现对比对齐,构建user-user、item-item的对齐方式,结合精排端到端的进一步探索 二阶段建模 •预训练多模态对齐模型解决训练不充分等问题•多模态表征的融合与筛选 更多多模态大模型的应用探索 •语言+图片的多模态大模型应用:LLaVA THANKS