您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[OPPO研究院]:多模态预训练模型在OPPO端云场景的落地实践 - 发现报告
当前位置:首页/行业研究/报告详情/

多模态预训练模型在OPPO端云场景的落地实践

2023-12-15-OPPO研究院单***
多模态预训练模型在OPPO端云场景的落地实践

DataFunCon#2023多模态预训练模型在OPPO端云场景的落地实践陈宸-OPPO研究院-高级算法工程师80387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-29 Contents目录端侧图文检索技术研究图文生成&理解模型的应用优化文图生成模型的端侧轻量化80387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-29 端侧图文检索技术研究80387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-29 query1: 和女朋友去迪士尼query2: 山顶婚纱照一句话搜索的意义:用户体验:真正解决用户想什么就能搜什么的痛点,“智慧搜图,搜你所想”。依托于大模型预训练技术,不再依赖于标签的迭代和扩展https://baijiahao.baidu.com/s?id=1770368479239959275&wfr=spider&for=pc大模型轻量端侧化的技术意义:1.成本节约:将云侧大模型才能体验的效果搬向到端侧,大幅节约计算资源;2. 隐私保护:直接在端侧处理用户的私人照片,无需上传到云端,保护用户隐私;端侧图文检索技术研究——解决了什么问题?端侧检索demo实现端侧智慧搜索的关键因素:其一,“人话”解读能力。智慧搜图不仅能单独搜词,也能放一起搜,实现真正的口语化表达搜索,所想即所得,如“去年在动物园拍的老虎”等。因此需要类似多模态大模型CLIP(OpenAI)的图文理解能力。其二,高效搜索速度。相比动辄翻上十几分钟半个小时的相册,现在无论从桌面下拉智慧搜索、打开相册、或是用语音助手,都只需要一句话就能搜到想要的图片,系统级地提升了找信息的效率。因此如何实现大模型在端侧的轻量化部署有重大的意义。大模型轻量化端侧技术落地的难点:1.压缩多模态大模型并确保精度。这并非简单用剪枝或量化等方法,直接压缩几倍模型大小就能搞定。毕竟对于端侧而言,算力有限的情况下,能部署的模型大小是往往只能达到大模型的几十分之一。2.与算法模型升级相对应的,需要在端侧实现一个性能鲁棒的向量检索引擎,保证大模型下端的工程性能80387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-29 端侧图文检索技术研究——算法优化CLIP双塔模型ALBEF单流模型单双流多教师蒸馏架构损失函数检索引擎的计算分位两部分:1.离线部分:扫描相册所有图片,通过图片编码器将所有图片转成向量;并经过fp16量化存储成Nx200的fp矩阵2.在线部分:每次输入query,通过文本编码器将query转成向量;并经过fp16量化降低计算内存;最后通过矩阵相乘计算query向量跟所有图片的相似分数,并通过排序输出一个有序列表。Lei, Youbo, et al. "MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval."arXivpreprint arXiv:2310.19654(2023).80387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-29 端侧图文检索技术研究——学术集效果各种蒸馏方法的效果对比Model nameimage modeltext modelfusion modelimage encoding timeretrieval timeparameter numbertestsetplatformCLIPVIT-L/1412-layer transformerdot product11.0ms32.5ms427.62Mfilckr5KV100 GPUALBEFVIT-B/166-layer transformer6-layer transformer7.6ms265ms (k=16) 1945ms (k=128) 3865ms (k=256)419.12Mfilckr5KV100 GPU自研小模型mobileVitV2-1.54-layer TinyBertdoc product3.8 ms14.1 ms25.9 Mfilckr5KV100 GPU自研小模型mobileVitV2-1.54-layer TinyBertdoc product17.3 ms14.6 ms25.9 Mfilckr5KMTK DX3大小模型的性能对比80387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-29 端侧图文检索技术研究——真实场景效果数据量:11个用户真实相册共2万+图片,手写5400+query数据分布:测试集R@1R@5R@10MRmAP010.47280.6710.74950.63110.6080020.49560.7580.82510.69290.5306030.40190.56650.61080.52640.4889040.45320.68470.73890.62560.6048050.58430.7530.79520.71080.6428060.53230.68550.750.65590.5890070.350.52940.60880.49610.4771080.64170.80830.84170.76390.5943090.59650.68420.71930.66670.5622100.51210.70590.76470.66090.5441110.56540.74180.7810.69610.6336平均0.48480.67680.73600.63250.584080387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 202