曾利彬-算法专家-蚂蚁集团 DataFunSummit#2023 01业务背景介绍 DataFunSummit#2023 业务背景 汇兑服务 全球付款 全球收款 跨境电商收款 外贸B2B收款 •商户入驻真实性•贸易真实性 •收单渠道盗用•账户资金安全 •禁限售•信用欺诈 业务风险点: 主要风险点 主要风险点为真实性风险,非真实贸易收款可能带来合规风险或欺诈风险 业务背景-B2B跨境贸易真实性 真实性风险案例一 商户提供的材料无法证明其真实贸易背景,资金来源不明,例如提供了无法验证的跨境物流单据 业务背景-B2B跨境贸易真实性 真实性风险案例二 商户通过电信诈骗等方式骗取境外用户的资金,伪装成B2B跨境贸易背景跨境收款结汇,例如使用虚假的物流单据和网站 虚假的物流单据: 网页主体不匹配: •客户提供了alibaba.com的商户主页,网页显示名称与商户报备企业名称不符 业务背景-B2B跨境贸易真实性 跨境物流证明 其他材料 贸易合同发票 跨境贸易合同,标明了买卖双方、商品、交货和付款方式信息 国际快递、海运、空运、铁路运输单 -网址:售卖商品的网址-沟通记录:咨询沟通询盘等记录-委托证明:代理发货、委托付款等证明 用户提交贸易背景证明材料 -贸易材料完整性审核:资金、合同、货物三方面信息是否一致,例如收款人=合同卖方=发货人,付款人=合同买方=收货人 -贸易材料真实性审核:基于第三方数据验证、信息匹配程度等判断其真实性 02算法技术介绍 DataFunSummit#2023 非结构化场景算法技术介绍 •智能风控目标:借助算法技术手段实现B2B跨境贸易验真场景的自动化验真,实现风险与成本的最优 •场景特点:非结构化数据场景,所有信息都需要从非结构化的贸易文档获取 非结构化场景算法技术介绍 技术难点1:非标文档如何获取信息 技术难点2:企业多语种名称如何比对 企业的多语种名称(例如中英文)如何比对是个难题 每个商家提交的文档风格都不一样,有图像多的,有文字多的,有KV型的,有非KV型的,文档理解是个难题 拼音相似 中文名:广州必一科技有限公司英文名:guangzhoubiyitechnology co., ltd. 读音相似 中文名:苏州拓浦微实业有限公司英文名:suzhoutop viewindustrialco.,ltd 非结构化场景算法技术介绍 1.充分利用文本周围的图文信息多模态对齐:图像、文本、布局 非标文档中如何获取想要的信息? 2.模型有足够的先验知识:大规模数据预训练 文本+周围文本推测:这是一个发货人名称 -Hightlight1:层次化的mask方案,解决多模掩码难题 -Hightlight2:多模对齐的预训练任务,充分利用图像、文本、布局信息 Mask Image Modeling:通过周围图像预测掩盖图像 MultimodelMask Language Modeling:通过周围文本+布局预测掩盖文本,布局和文本的对齐 Hierarchical mask Text-Image:推测某段文本是否被mask,图像+布局与文本对齐 -效果:在公开数据集和业务数据集的多模文档分类、信息解析任务F1均超过90% 非结构化场景算法技术介绍 企业的多语言名称比对如何做? 语义语音分别表征 语义语音融合的多语言表征 中文名:广州必一科技有限公司英文名:guangzhoubiyitechnology co., ltd. •参考多模态模型结构,把音标作为一个模态•使用对比学习方式拉近句子级别表征 中文名:苏州拓浦微实业有限公司英文名:suzhoutop viewindustrialco.,ltd 语义+读音的数据增强方案 传统文本增强: •有的词是语义翻译•有的词是拼音•有的词是读音相似 •语义和语音结合比对 使用语义语音融合表征+表征距离计算方案,相比较于初版方案效果更优 鲁棒性问题:拆分与合并规则如何设计?通用性问题:如何推广到更多实体更多语言? 03智能风控实践 DataFunSummit#2023 非结构化场景智能风控实践 业务解决方案-贸易材料完整性如何保障? 多方参与的B2B跨境贸易,天然存在例如发货人与卖家不同的情况,针对每种贸易模式设计针对性的解决方案 贸易模式还原 非结构化场景智能风控实践 业务解决方案-贸易材料真实性如何保障? 三方数据验证和对文档进行篡改检测,提高造假成本 文档篡改检测 三方数据验证 可以进行三方数据验证的点-物流验证和网址验证 适合非标文档的伪造识别方案,核心是“找重复”和“找不同” 篡改检测:计算贸易单据上文本框与周围文本框的差异性 非结构化场景智能风控总结 •效果:90%+外贸收款及结汇入中材料可由智能风控系统自动审核完成,相比较于人工审核在风险和成本上均大幅下降,并有效缩短外贸商家整个交易流程耗时 材料完整性验证:贸易模式还原 物流验真 网址验真 业务场景实践方案 •贸易合同发票、物流单OCR和智能文档解析•根据文档解析结果还原贸易模式闭环,验证材料完整性 资金信息:资金收付款人、金额 用户提交材料:贸易合同发票、物流单、网址 非标文档信息获取 外部数据查询 文档风险识别 信息比对 算法能力 感谢观看