热门搜索：

多模态预训练模型在OPPO端云场景的落地实践

2023-12-15-OPPO研究院单***

DataFunCon#2023多模态预训练模型在OPPO端云场景的落地实践陈宸-OPPO研究院-高级算法工程师80387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-29 Contents目录端侧图文检索技术研究图文生成&理解模型的应用优化文图生成模型的端侧轻量化80387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-29 端侧图文检索技术研究80387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-29 query1: 和女朋友去迪士尼query2: 山顶婚纱照一句话搜索的意义：用户体验：真正解决用户想什么就能搜什么的痛点，“智慧搜图，搜你所想”。依托于大模型预训练技术，不再依赖于标签的迭代和扩展https://baijiahao.baidu.com/s?id=1770368479239959275&wfr=spider&for=pc大模型轻量端侧化的技术意义：1.成本节约：将云侧大模型才能体验的效果搬向到端侧，大幅节约计算资源；2. 隐私保护：直接在端侧处理用户的私人照片，无需上传到云端，保护用户隐私；端侧图文检索技术研究——解决了什么问题？端侧检索demo实现端侧智慧搜索的关键因素：其一，“人话”解读能力。智慧搜图不仅能单独搜词，也能放一起搜，实现真正的口语化表达搜索，所想即所得，如“去年在动物园拍的老虎”等。因此需要类似多模态大模型CLIP（OpenAI）的图文理解能力。其二，高效搜索速度。相比动辄翻上十几分钟半个小时的相册，现在无论从桌面下拉智慧搜索、打开相册、或是用语音助手，都只需要一句话就能搜到想要的图片，系统级地提升了找信息的效率。因此如何实现大模型在端侧的轻量化部署有重大的意义。大模型轻量化端侧技术落地的难点：1.压缩多模态大模型并确保精度。这并非简单用剪枝或量化等方法，直接压缩几倍模型大小就能搞定。毕竟对于端侧而言，算力有限的情况下，能部署的模型大小是往往只能达到大模型的几十分之一。2.与算法模型升级相对应的，需要在端侧实现一个性能鲁棒的向量检索引擎，保证大模型下端的工程性能80387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-29 端侧图文检索技术研究——算法优化CLIP双塔模型ALBEF单流模型单双流多教师蒸馏架构损失函数检索引擎的计算分位两部分：1.离线部分：扫描相册所有图片，通过图片编码器将所有图片转成向量；并经过fp16量化存储成Nx200的fp矩阵2.在线部分：每次输入query，通过文本编码器将query转成向量；并经过fp16量化降低计算内存；最后通过矩阵相乘计算query向量跟所有图片的相似分数，并通过排序输出一个有序列表。Lei, Youbo, et al. "MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval."arXivpreprint arXiv:2310.19654(2023).80387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-29 端侧图文检索技术研究——学术集效果各种蒸馏方法的效果对比Model nameimage modeltext modelfusion modelimage encoding timeretrieval timeparameter numbertestsetplatformCLIPVIT-L/1412-layer transformerdot product11.0ms32.5ms427.62Mfilckr5KV100 GPUALBEFVIT-B/166-layer transformer6-layer transformer7.6ms265ms (k=16) 1945ms (k=128) 3865ms (k=256)419.12Mfilckr5KV100 GPU自研小模型mobileVitV2-1.54-layer TinyBertdoc product3.8 ms14.1 ms25.9 Mfilckr5KV100 GPU自研小模型mobileVitV2-1.54-layer TinyBertdoc product17.3 ms14.6 ms25.9 Mfilckr5KMTK DX3大小模型的性能对比80387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-29 端侧图文检索技术研究——真实场景效果数据量：11个用户真实相册共2万+图片，手写5400+query数据分布：测试集R@1R@5R@10MRmAP010.47280.6710.74950.63110.6080020.49560.7580.82510.69290.5306030.40190.56650.61080.52640.4889040.45320.68470.73890.62560.6048050.58430.7530.79520.71080.6428060.53230.68550.750.65590.5890070.350.52940.60880.49610.4771080.64170.80830.84170.76390.5943090.59650.68420.71930.66670.5622100.51210.70590.76470.66090.5441110.56540.74180.7810.69610.6336平均0.48480.67680.73600.63250.584080387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 2023-11-2980387241 202

点击免费查看完整报告

你可能感兴趣

多模态预训练模型在OPPO端云场景的落地实践

你可能感兴趣

【九点特供】这家公司很快将与英伟达发布激动人心的联合声明;马斯克表示xAl将于本周开源AI聊天机器人Grok，实现AGI的重要突破节点来临，这家公司的多模态预训练大模型已进入实验性训练阶段

【盘中宝】重大进展，谷歌发布新一代AI模型，多模态能力大幅增强，有望开启新一轮多模态大模型浪潮，这家企业多模态预训练大模型已完成数据收集和清理，目前进入实验性训练阶段-20240219

预训练跨模态模型日趋成熟，智能物联AIoT行业有望受益

传媒行业通用预训练模型技术拆解：AIGC系列专题，“大模型+小样本”快速适配下游场景，“AI+传媒”的效力取决于适配与迭代

传媒行业通用预训练模型技术拆解-AIGC系列专题：“大模型+小样本”快速适配下游场景，“AI+传媒”的效力取决于适配与迭代