您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[OPPO研究院]:多模态预训练模型在OPPO端云场景的落地实践 - 发现报告

多模态预训练模型在OPPO端云场景的落地实践

2023-12-15-OPPO研究院单***
多模态预训练模型在OPPO端云场景的落地实践

陈宸-OPPO研究院-高级算法工程师 Contents目录803872412023-11-2980387241 端侧图文检索技术研究80387241803872418038724180387241 端侧图文检索技术研究——解决了什么问题?端侧检索demo 实现端侧智慧搜索的关键因素:其一,“人话”解读能力。智慧搜图不仅能单独搜词,也能放一起搜,实现真正的口语化表达搜索,所想即所得,如“去年在动物园拍的老虎”等。因此需要类似多模态大模型CLIP(OpenAI)的图文理解能力。803872412023-11-29803872412023-11 其二,高效搜索速度。相比动辄翻上十几分钟半个小时的相册,现在无论从桌面下拉智慧搜索、打开相册、或是用语音助手,都只需要一句话就能搜到想要的图片,系统级地提升了找信息的效率。因此如何实现大模型在端侧的轻量化部署有重大的意义。803872412023-11-29803872412023-11 大模型轻量化端侧技术落地的难点:1.压缩多模态大模型并确保精度。这并非简单用 剪枝或量化等方法,直接压缩几倍模型大小就能搞定。毕竟对于端侧而言,算力有限的情况下,能部署的模型大小是往往只能达到大模型的几十分之一。2.与算法模型升级相对应的,需要在端侧实现一个性能鲁棒的向量检索引擎,保证大模型下端的工程性能803872412023-11-29803872412023-11 一句话搜索的意义:用户体验:真正解决用户想什么就能搜什么的痛点,“智慧搜2023-11-29 大模型轻量端侧化的技术意义:1.成本节约:将云侧大模型才能体验的效果搬向到端侧,大幅节约计算资源;2.隐私保护:直接在端侧处理用户的私人照片,无需上传到云端,保护用户隐私;2023-11-292023-11-292023-11 图,搜你所想”。依托于大模型预训练技术,不再依赖于标签的迭代和扩展80387241803872412023-11-29 检索引擎的计算分位两部分: 1.离线部分:扫描相册所有图片,通过图片编码器将所有图片转成向量;并经过fp16量化存储成Nx200的fp矩阵2.在线部分:每次输入query,通过文本编码器将query转成向量;并经过fp16量化降低计算内存;最后通过矩阵相乘计算query向量跟所有图片的相似分数,并通过排序输出一个有序列表。2023-11-29803872412023-11-29803872412023-11 端侧图文检索技术研究——真实场景效果 数据量:11个用户真实相册共2万+图片,手写5400+query数据分布:2023-11-292023-11-29 端侧图文检索技术研究——细粒度优化 2023-11-29 80387241 2023-11-29 8038724180387241 细粒度属性词替换+hard negative sampling+LwF抗遗忘算法2023-11-292023-11-292023-11-29 Doveh, Sivan, et al. "Teaching structured vision & language concepts to vision & language models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.8038724180387241803872418038724180387241 文图生成&理解态模型的应用优化2023-11-292023-11-292023-11-292023-11-298038724180387241803872418038724180387241 图文生成&理解模型的应用优化——中文文生图大模型继续预训练 •如何做高质量低成本的继续预训练•如何对齐中文的语言文化•如何提升生成图像的细节质量803872412023-11-29803872412023-11-29 图文生成&理解模型的应用优化——中文文生图大模型继续预训练 图文生成&理解模型的应用优化——通用优化应用 图文生成&理解模型的应用优化——通用优化应用锁屏杂志生成 2023-11-29 80387241 文生图模型+微调LLAVA+LLM生成图文并茂的杂志80387241 80387241 2023-11-29 Liu,Haotian, et al. "Visual instruction tuning."arXivpreprint arXiv:2304.08485(2023).803872418038724180387241 图文生成&理解模型的应用优化——通用优化应用 2023-11-292023-11-29 2023-11-292023-11-29 8038724180387241 2023-11-29 Zhang, Pan, et al. "Internlm-xcomposer: A vision-language large model for advanced text-imagecomprehension and composition."arXivpreprint arXiv:2309.15112(2023).803872418038724180387241 图文生成&理解模型的应用优化——垂域优化-人像垂域 1.人脸人手等身体部位的崩坏。 2.过于精致标准,渲染过度光滑,在质感上失真。 3.细粒度属性和文本描述的不对齐。 图文生成&理解模型的应用优化——垂域优化-人像垂域 图文生成&理解模型的应用优化——垂域优化-人像垂域 图文生成&理解模型的应用优化——垂域优化-人像垂域 图文生成&理解模型的应用优化——垂域优化-人像垂域 图文生成&理解模型的应用优化——垂域优化-人像垂域 垂域微调经验:1.大量数据粗调,增加模型对新概念的泛化能力2.少量高质量数据精调,提升模型的图片生成质量803872412023-11-29803872412023-11-2980387241 穿着华丽盔甲的玄幻战士与巨龙激战,雷霆与火焰交织在一起。(随机6张,无cherry-pick) 图文生成&理解模型的应用优化——垂域优化-古风人像效果 树丛中,翩翩少女,红衣绿裙,手提花伞,踏泥寻径,仿佛踏入了一幅画卷(随机6张,无cherry-pick) 古道边一骑红尘客正巍然马背,身披白色斗篷,踏寂静落阿叶(随机6张,无cherry-pick) 图文生成&理解模型的应用优化——垂域优化应用 广告营销工具(内测版)2023-11-292023-11-29 80387241 2023-11-29 图文生成&理解模型的应用优化——文字渲染-问题定义 图文生成&理解模型的应用优化——文字渲染-算法 GlyphDraw推理框架80387241 图文生成&理解模型的应用优化——文字渲染-客观效果 图文生成&理解模型的应用优化——文字渲染-主观效果 2023-11-29 2023-11-29 图文生成&理解模型的应用优化——个性化生成-问题定义 如何使用一张参考图像快速生成新图片并平衡保真度和泛化性?803872412023-11-29 图文生成&理解模型的应用优化——个性化生成-效果 单实体生成与各种方法的对比 图文生成&理解模型的应用优化——个性化生成-效果 图文生成&理解模型的应用优化——个性化生成-效果 图文生成&理解模型的应用优化——个性化生成-效果 图文生成&理解模型的应用优化——个性化生成应用 图文生成&理解模型的应用优化——个性化生成-应用 图文生成&理解模型的应用优化——个性化生成-应用 Subject-diffusion的个性化生成2023-11 图文生成&理解模型的应用优化——个性化生成-应用 Stable-diffusion的outpainting2023-11 2023-11-29 8038724180387241 文图生成模型的端侧轻量化8038724180387241803872418038724180387241 文图生成模型的端侧轻量化——技术路线-模型结构优化 803872412023-11-29803872412023-11-29 删除某个模块之后的效果和参数量波动分析80387241 文图生成模型的端侧轻量化——技术路线-模型结构优化 文图生成模型的端侧轻量化——技术路线-采样加速 Classifier-free guidance distillation2023-11-292023-11-29 将两次forward的CFG蒸馏成一次forward,即将scale用fourierembedding编码,类似于timestep一样嵌入unet中。 文图生成模型的端侧轻量化——技术路线-效果对比 SD fp32dpmsolver++ 25步2023-11-29 感谢观看8038724180387241