AI智能总结
讲师简介 小红书社区技术部多模态算法团队负责人。当前主要负责多模态内容理解、AIGC、智能编辑等方向工作,推动相关技术在社区多个业务场景落地。在计算机视觉开源社区贡献多个开源项目,star 1k+。获得ICCV 2019 VOT目标跟踪国际竞赛冠军。 小红书多模态算法团队负责人 小红书社区业务概述 概述:一本生活的百科全书 优质内容是最宝贵的资产 定位:旅游攻略分享平台->复合型生活方式社区 用户:小众需求->大众生活 小众内容破圈 小红书社区业务概述 小红书社区业务概述 核心业务问题 业务特点 内容意图:分享意图为主(喜好、外在、经历等)->真实 让创作更有趣 让创作更简单 作者构成:普通用户占绝大多数,女性比例高 创作诉求:对内容精致度、创意要求高,工具足够简单 算力成本控制 智能特效-让创作更有趣 背后基本技术原理? 过往特效:表情控制、属性编辑、换脸等等 业务挑战 差异化风格定制:如何平衡生图效果vs.效率(新鲜感/首发)? 局部细节控制:效果更加细致、稳定? 拓展创新玩法:如何基于成熟技术进行玩法裂变? AI绘画工具:图片特效玩法更进一步,适合表达自我 用户刚需:这项技术对于小红书的意义不是炫技! 创作形式:图像为主x年轻人x分享外在 效果需求:有创意x有艺术感x注重细节 创作效率:低时延发布(甚至接受异步发布),制作发布一体化 如何做出差异化? 智能特效-深度生成原理 深度生成模型:训练阶段拟合数据分布,在推理阶段通过产生与训练数据分布很相似的图像、视频 VAE:基于变分下界约束得到的Encoder-Decoder模型对 从清晰图加噪开始加高斯噪声随机过程(马尔科夫过程) 智能特效-差异化风格定制 是挑战更是机遇!怎么定义差异化风格? 辅助线 主要挑战 风格高度依赖开源citivai、huggingface、liblibai风格集中在二次元,审美疲劳小红书用户对细节要求高 【人物】扁平人物 【动物种类】 【人物】 问题解法 鲤鱼、喜鹊、仙鹤 纤细舒婉 【颜色质感】 【两岸商铺】 【背景】 产运设自发脑暴,结合站内调性垂直领域风格,从国风->拼贴多维细节->人物/背景/元素/质感/颜色 流行的插画风格现代感的颜色水墨质感的笔触现代古典元素结合 未来赛博科技线酒坊、花坊、茶铺、胭脂铺、糕饼铺、面馆 【街上商贩】 丝巾贩、磨镜摊、扇子贩、鱼虫贩 智能特效-差异化风格定制 核心问题:算法怎么做风格定制? 笔触感优化:模拟作画真实线条,此类细节具有高度专业性 技术难点: 研效提升?小样本、流程化、低成本制作如何解决风格退化问题?难以收敛到训练特征分布高专业性细节打磨?兼顾细节打磨vs.研发周期算法鲁棒性?如何在多场景保证风格一致性? 问题解法 流程化:种子图设计/制作/扩图+LoRA定制体系化LatentFeat消偏/控制模块微调传统算法、策略结合(毛玻璃/滤镜/前背景分离)多场景预处理:单人/多人/年龄/性别/宠物/风景 业务结果:多案例拓展应用 智能特效-差异化风格定制 案例影响: 案例1:风格化动图技术 ✅定制化风格新阶段:从0到1搭建 ✅高效可复制:低成本 ✅简介:用户输入一张图,即可生成风格化后的动图 ✅爆款出圈 1.在AnimateDiff模型基础上,实现任意风格的动图化2.文生图模型+运动模块建模,学习获得运动先验;可插拔3.自研ControlNet动态衰减权重的控制方式,实现高一致性的动态效果 AnimateDiff多帧控制 智能特效-差异化风格定制 案例2:穿越漫画遇见自己(视频风格化技术) ✅简介:用户输入一张图片,生成多种风格化合成的视频 1.多风格定制化成本高->应用小样本定制,流程复制 2.场景变化->人物/背景分别生成 3.兼顾画面变化大与稳定性->动量更新技术方案 智能特效-局部细节控制 ❌畸形问题频发,用户不可接受❌SD调整prompt对细节作用有限❌风格化后美观,但是和本人不相关 问题1:如何解决崩坏问题2:如何平衡像vs.美 为什么要局部控制? 崩坏类问题 ID类问题 智能特效-局部细节控制 人像优化技术 问题定义和解法 主要挑战 早期无开源方案,如何进行选型 对推理带来的额外开销方案的通用性、可复用性 通过构建facemodule,局部inpainting重绘 局部重绘vs.全局重绘(无法解小脸场景),兼顾耗时和效果 模块可插拔,在所有项目上皆可直接复用 方案链路 智能特效-局部细节控制 更进一步:人像优化技术->肢体优化技术 智能特效-局部细节控制 真人人像技术 主要挑战 技术成本高,业界无开源方案如何兼顾风格美感vs.人像的相似度,如何评判更进一步:快速版真人人像 解决方案 �多图方案(摄影棚效果vs.真实感) 如何评判 用户上传多张照片,训练ID LoRAID LoRA +风格LoRA融合做文生图更好的细节:脸部放大+脸部区域重绘 �单图方案(写实类) 用户上传照片做缩放+旋转+脸部抠图脸部以外区域用风格LoRA + Control方案重绘叠加光照、美颜等后处理 智能特效-局部细节控制 如何进行玩法裂变? 案例ID注入技术/个人数字分身: 从0到1完成真人写真链路,构造个人数字分身实现多种风格效果的写真人像生成 快速版人像,复用到多个风格化模型中 从解决人脸崩坏到像自己,实现自我表达 智能特效-拓展创新玩法 案例1:涂鸦生图 挑战话题x创新工具玩法结合 用户简笔画,参与挑战, 互动性强,激发创作积极性 智能特效-拓展创新玩法 大量用户参与挑战和互动 案例1:涂鸦生图 主要挑战和解法 低门槛->多模态模型解析涂鸦内容并生成描述几何/风格一致性->ControlNet/LoRA颜色控制->多控制信息并行 涂鸦技术方案 智能特效-拓展创新玩法 回答了如何让创作更有趣,那如何让创作更简单? 挑战 简介 案例2:延伸AI世界 扩散模型如何与运镜进行结合视频稳定性问题如何平衡大场景切换,同时不突变 按主题设定故事线,实现镜头延伸 每条故事线自定义多场景 场景内基础元素定制 技术方案 智能编辑-让创作更简单 核心问题: 问题解决:一键式发布能力大大降低用户发布难度 照片/视频太多,懒于精挑细选? 如何完成智能高光识别、自动配乐、转场帮助轻松一键大片? 不会剪辑,如何合成视频、配乐? 如何精准推荐站内高热度标题? 为标题文案着急?AI帮写 如何文生图技术帮忙联想配图,文字不再枯燥乏味? 想宣泄情感,一时找不到合适配图? 显著激活中低活发布用户行为 智能编辑-让创作更简单 问题定义和解法 如何快速搭建全链路?->素材优选-内容聚合-模板匹配-渲染成片 如何提升成片效果?->新增各种热门主题,如冬季滑雪、夏日溯溪,端午的粽子、除夕年夜饭 如何评判什么是好效果?->1、分模块内部评估2、竞品对比(时光影集、回忆) 显著提升发布链路的转化率,站内涌现出了用户自来水的好评 智能编辑-让创作更简单 问题定义和解法 方案如何选型?生成式vs.检索式,提升文案库场景覆盖、类型丰富度 边界情况处理?非纯粹图文跨模态检索,意图理解辅助判断,重点垂类干预 底库怎么扩充?结合站内热点笔记内容,自动化标题入库流程,实时扩充文案库 跑出多个爆款促产话题,“AI帮你生成心情图片”“AI还原古诗词”等 智能编辑-让创作更简单 案例3:文案配图 应用场景 方案链路 ✅解决方案:使用大语言模型为用户文本进行联想 如何解决生成结果不可控?->各环节审核生成时效性?->fastllm-50%,sd-30%,整体耗时2s左右 算力成本控制 技术方案 主要挑战 模型量化节省访存开销、提升指令计算吞吐效率特定卡型compile优化,以及对算子的graph优化(op fusion)低流量(小模型)业务进行服务合并的长期治理潮汐扩缩容+大资源池机制,释放闲时资源在公司内部使用 镜像、模型文件几十GB,存储传输成本低延时要求(全链路延时秒级)发布行为稀疏有潮汐特性,波动性大 比pytorch原版快~30%倍的性能优化AI编译优化+ OP Fusion 未来展望 如何提升生成速度?AIGC效果如何做到逼真? 微 信 官 方 公 众 号 : 壹 佰 案 例关 注 查 看 更 多 年 度 实 践 案 例