
事件:2026年3月11日,谷歌发布首个原生多模态嵌入模型GeminiEmbedding2,模型可以将文本(最长8192tokens)、图像(6张)、视频(120s)、音频、PDF文档(6页)统一映射到一个向量空间。 原生跨模态能力。 过去多模态模型主要提升单一模态理解与生成能力,新模型跨 AI应用跟踪谷歌发布首个原生多模态嵌入模型,跨模态检索能力显著提升20260311 事件:2026年3月11日,谷歌发布首个原生多模态嵌入模型GeminiEmbedding2,模型可以将文本(最长8192tokens)、图像(6张)、视频(120s)、音频、PDF文档(6页)统一映射到一个向量空间。 原生跨模态能力。 过去多模态模型主要提升单一模态理解与生成能力,新模型跨模态检索召回率、准确率显著提升(如能够根据文字+图片搜索音频)。 多模态RAG:办公、法律、医疗等领域企业级数据治理能力提升。 模型可以捕捉不同模态信息的复杂关联,企业对于非结构化、跨模态数据的利用效率、检索能力大幅提升,打通企业内跨模态数据孤岛。 模型应用于语义搜索、情感分析、推荐系统等领域。 在电商、营销(提升意图理解与推荐匹配能力)、客服(可直接处理音频数据)等领域的应用效果。 资料来源:谷歌官网。 仅公开资料整理,不涉及研究观点和投资建议。