京东科技图谱简介
京东科技拥有全面的图谱能力,包括实体识别、关系识别、实体链接、图谱存储和可视化等功能,应用于金融、商品、药学等多个领域。其核心算法能力涵盖句法解析、词法解析、语义角色标注、内容生成、大规模预训练模型、表征学习、神经符号学习、多模态特征表示与融合、深度神经网络、小样本学习、迁移学习等。
金融事理图谱构建
事理图谱由事理节点和因果关系组成的有向图,事理节点为短语或语义实体,事理是对事件的抽象归纳。事理图谱构建包括因果关系抽取、论元抽取和事理对齐三个关键步骤。
因果关系抽取
因果关系抽取分为单句单组因果、单句多组因果关系(元素不重合或嵌套)三种类型。面临因果关系显示和隐式并存、隐式关系抽取难度大、因果词不限于因果连词、因果对存在嵌套等挑战。提出的因果关系抽取模型通过预测因果连接词和对应的原因、结果,可处理单句多组因果对且元素允许重合,并引入因果词特征避免混淆。
事理对齐
事理对齐通过论元抽取和语义角色标注实现。论元抽取任务实际为语义角色标注任务,参考Chinese Proposition Bank(CPB)进行标注。事理对齐方法包括计算短文本相似度和文本与图相似度,以及节点对节点(词表、同义词、WordEmbedding、GraphEmbedding)和图谱对齐(GraphEmbedding)。将短文本相似度计算问题转化为图谱对齐任务,丰富了输入特征和处理方法。
论元抽取处理流程
论元抽取处理流程包括联合抽取和独立抽取两种方式。联合抽取共享网络参数,便于针对各自任务设计模型,但可能因下游任务不一致导致预训练模型性能损失;独立抽取便于设计模型,但可能因上游任务结果不一致影响下游任务效果。
事理精排模型
事理精排模型通过图谱匹配将原始文本和因果对、论元组构建为图谱形式,利用图谱对齐/匹配模型,使用一度关系节点信息,融合结构化信息和非结构化信息,构建邻接匹配矩阵,提取关键匹配信息。
事理图谱在金融领域的应用
金融领域数据特点包括渠道来源多、信息庞杂、企业、人员、产品等关系复杂、数据量大、具有一定专业性。事理图谱为舆情系统提供多维度的连接关系,为智能投研系统自动发现投资逻辑,为金融预测模型提供丰富的潜在特征,例如价格预测。
金融图谱应用
面向资管领域,构建多维度知识图谱,投研人员可全方位快速了解上市公司发展潜力及风险,筛选优质投资标的。智慧产业链金融图谱应用包括利用PDF解析、自然语言处理、情感分析、自动分析研报,为研究主体提供市场正负反馈;资讯正负面分析;根据事理图谱和产业链图谱推荐一度或二度链接上的文章;自动分析研报提及的事件信息,包括研究员评级等。
事理图谱与金融图谱结合
事理图谱与金融图谱相结合,例如结合产业链图谱,根据事理图谱增加行业龙头公司权重,提高行业龙头推荐的精度。
总结与展望
事理对齐同样可运用到短文本理解场景。事理图谱增强知识图谱的认知能力,存储事物规律,提升新闻舆情场景、定价场景、智能投研场景智能程度。未来将探索隐式因果关系、事理知识大规模自动发现、增加事理表征难度。