美团大脑商品理解
美团大脑简介
美团大脑是正在构建中的全球最大的生活服务领域知识图谱,旨在用人工智能技术赋能业务,改进用户体验。其覆盖餐饮、酒旅、药品、到综、常识等多个领域,包含25亿+商品、2亿+店铺、100万场景和70亿用户评价,涉及3000万商家。
美团新零售场景对图谱的要求
新零售场景“万物到家”对图谱的要求更高,需要处理更多商品、更宽的领域,且显示信息更少、更粗糙,因此更加依赖知识图谱。
商品图谱体系
商品图谱体系包含层级体系和属性体系。
- 层级体系:包括商品SKU/SPU和业务类目,核心任务是商品品类关联。
- 属性体系:包括通用维度(如品牌、规格、包装)和特有维度(如脂肪含量、电池型号),核心任务是商品标题解析。
商品图谱的构建
商品图谱的构建流程包括知识图谱语料库样本收集、模型训练和预测产出,其中关键步骤是知识增强,包括商品标题解析和商品品类关联。
知识增强的商品理解
商品标题解析
- 任务:识别商品标题中的实体,如品牌、品类、场景、口味、规格等。
- 挑战:词汇歧义、标题信息短、标注数据少且含噪声。
- 方法:
- 词汇增强:引入外部词汇信息(如Softlexicon、LexBert),但存在词汇歧义问题。
- 图谱增强:利用图谱节点作为词典,通过图谱结构进行字和词的表征学习,但词汇歧义问题依旧存在。
- 基于图谱锚点的知识增强:使用类目知识作为锚点,显示地对词汇进行消歧,并通过attention_mask融合到实体识别中。
商品品类关联
- 任务:判断商品和候选品类词是否相关(isA关系)。
- 挑战:标题但不相关、边界歧义、类型歧义、不在标题但相关、泛品类、上位词、同义词。
- 方法:
- 知识融合的三个阶段:
- 预训练阶段:通过多任务等方式将知识融入预训练模型。
- 微调阶段:通过样本增强来融入知识。
- 预测阶段:使用知识直接作为模型输入。
- 在线知识融合:利用REALM、KELM、Knowledge-to-Text等方法。
- GNN建模:构建子图并直接将相关的图谱知识拍平喂入模型中。
样本治理
- 重要性:数据在人工智能中的效果和效率提升常常大于模型。
- 标注数据采样:采用主动学习方法,选择模型预测低置信的数据,但存在预测分数缺乏区分度、预测高置信部分也存在误识别、错误样本分布集中等问题。
- 主动学习优化:对模型预测分数进行校准(如Labelsmoothing),通过聚类采样有代表性的样本,减少冗余标注,并分别采样低置信样本和高置信样本。
- 错误样本检测:
- 交叉验证:通过K折交叉验证训练多个模型进行预测,识别预测一致性低的数据。
- 一致性验证:先清洗出高质量数据训练模型,结合其他特征校验一致性,发现潜在错误样本。
- 遗忘次数:噪声样本往往是“most forgettable examples”,通过遗忘次数识别噪声样本。
- 置信学习:计算验证集上的混淆矩阵,有倾向地多采样易混淆类别之间的样本。
- 多任务检测:通过多任务联合训练,检测出单任务上的错误标注。
Takeaway
- 知识增强:充分利用图谱知识丰富信息,借助容易获取的知识解决难任务,知识融合的三个阶段,知识增强的可解释、在线可控。
- 样本治理:模型+数据->天赋+汗水=成功。
商品图谱的应用
- 结构化召回:利用商品图谱进行召回。
- 排序模型相关性:利用商品图谱提升排序模型的相关性。
- 结构化信息展示:商品筛选项、商品标签展示、商品榜单、商品推荐理由。