AI智能总结
目录 CONTENTS 1 建设背景 2 总体架构 3 技术特点 4 场景应用 项目背景:人工智能技术是金融科技发展的重要推动力1.1 国际形势AI全球竞争加剧 行业层面金融服务全生命周期智能化 国家层面构建人工智能增长引擎 •人工智能是新一轮科技革命和产业变革的重要驱动力量,加快发展新一代人工智能是我们赢得全球科技竞争主动权的重要战略抓手,是推动我国科技跨越发展、产业优化升级、生产力整体跃升的重要战略资源。 •自ChatGPT诞生到Sora走红,AI大模型技术引发全球持续关注,掀起了第四次人工智能革命浪潮。大模型呈现出来的智慧涌现能力,被认为不亚于PC和互联网的诞生,将彻底改变产业形态和竞争格局。 •2021年,人民银行发布《金融科技发展规划2022-2025》 抓住全球人工智能发展新机遇,以人为本全面推进智能技术在金融领域深化应用。着力打造场景感知、人机协同、跨界融合的智慧金融新业态,实现金融服务全生命周期智能化。 •通用人工智能是全球科技竞争的焦点,也是中美科技博弈和战略竞争的必争之地。未来的竞争力取决于人工智能在日常业务中的应用。 《加快建设具有全球影响力的人工智能创新策源地实施方案》 •2022年,银保监会发布《关于银行业保险业数字化转型的指导意见》 •2023年5月提出,到2025年,本市人工智能技术创新与产业发展进入新阶段,基础理论研究取得突破,原始创新成果影响力不断提升,关键核心技术基本实现自主可控。 我国在芯片、框架、基座模型等AI生态上处于劣势 加强创新技术的前台应用,丰富智能金融场景。 “人工智能+”行动政府工作报告 •注重引进和培养金融、科技、数据复合型人才,重点关注大数据、人工智能等专业领域。推动营销、交易、服务、风控线上化智能化。 •大模型在芯片、框架方面的建设生态不如英伟达、cuda、Pytorch等国外产品。 3•深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群。 项目背景:金融行业大模型应用的难点1.2 l美国政府半年来三次修改贸易政策,限制AI芯片、材料,甚至装有芯片的个人电脑出口中国。l英伟达限制中国AI芯片运行CUDA框架。 l90%的网络数据为国外产生或国外语言,ChatGPT使用的数据英文占92%,中文不到1%。l金融行业数据集较少,中文更少,内容主要是新闻和上市公司公告,内容单一。 l生成式模型输出不可控,在金融场景下表现未知。l大模型金融应用测试验证困难,风险暴露不充分。l端到端解决方案不够,降低使用场景充数。 项目背景:建设AIB——人工智能驱动的商业银行1.3 2023年,北京银行提出了“B=IB+AIB”理念,并指出:“要加快企业级数字化转型,用AI驱动构建面向未来的金融核心能力,推动经营质效和客户体验的提升,为高质量发展注入新动能。秉持“一个银行、一体数据、一体平台”的理念,聚焦人工智能技术的创新应用,积极构建金融智能生态。” 1.4项目目标:建设以知识驱动的“大模型”应用体系 目录 CONTENTS 1 建设背景 2 总体架构 3 技术特点 4 场景应用 总体功能架构2.1 应用架构2.2 技术架构2.3 目录 CONTENTS 1 建设背景 2 总体架构 3 技术特点 4 场景应用 建设全栈国产化算力基座和训练框架,提升自主可控能力3.1 全国产化算力 算力层面依托华为实验室昇腾910B在不同参数大模型适配进展,采用全国产NPU算力,打造国产化算力集群,使我行国产化算力增加一倍。 MindSpore昇思框架 框架层面基于MindSpore昇思框架,发挥硬件最大潜力,达成模型实际性能,实现从单卡到集群的最大线性集成度,云边端全场景高效部署,可降低40%迁移工作量。 智算网络 构建全行智算网络,实现在中心训练、在分行推理、在边缘终端应用的模式,满足低延迟、高并发的AI推理应用需求,AI算力的使用效率提升30%,模型部署效率提升45%。 构建可信金融训练集3.2 高可信混合式金融指令数据生成技术 多维度金融数据集智能过滤技术 利用全球多模态数据采集技术、金融文档解析技术、数据清洗技术、多维度智能过滤去重技术、内容质量筛查技术,基于启发式规则过滤器、困惑度评分器、基于多级别与精确匹配的级联去重器,构建高质量的金融数据集。 针对金融领域数据更新快、内容忠实性高、风险厌恶的特点,通过种子指令扩张、背景数据混杂、拒答指令混杂、rag风格指令生成等技术,增加指令多样性、提高模型信息忠实性、抗干扰能力。 构建金融领域混合专家模型3.3 l节约推理资源:与传统模型相比,在相同参数量的条件下,混合专家模型推理速度提升25%。 l提高模型准确性:通过集成多个专家模型,混合专家模型能够综合各个模型的优点,在我行金融数据测试集上,预测准确性提高15%。 l灵活性和可扩展性:实现应用系统和具体模型版本、数据的解绑,灵活的添加或调整专家模型,给系统开发和维护增加灵活度。 l处理复杂问题:对不同数据特征实现“专注”,通过多专家模型,使得每类子问题都找到最优的解决方案,提升了服务质量。 3.4建设大模型服务平台,降低大模型训推成本 更全面-打造全栈式工具链 •提供基础配置、数据管理、模型训练、模型管理、模型部署、预测服务、在线测试全链路工具能力,覆盖大模型全生命周期,高效实现端到端的大模型开发、训练和部署工作。 更高效-训推成本降低50% •预置京智大模型和10个L0大模型能力,结合场景数据,可对大模型进行二次性能增强,提供三种自动化训练工具,优化模型吞吐、降低模型尺寸、集成先进加速框架,实现模型推理速度的 大 服 务 提 升,据测算,调优后模 型 体积可压 缩至25%~50%,推理训练成本可降低50%。 更安全-集成多种安全机制 3 •平台内置安全算子和高危词典安全过滤,保障输出内容安全,并通过完善的鉴权与流控安全机制,全面严格的数据安全策略和技术支撑体系,保障行内数据安全;安全合规的训练数据和SFT多种训练方式,保障模型安全。 3.5建设Agent智能体应用能力,实现大模型应用能力快速对接 插件建设 可继承行内现有能力或自主增加能力作为Agent技能,促进基础技能、业务技能的不断沉淀与提升。 工作流编排 对于逻辑复杂的多步骤任务场景,可灵活组装多个节点,有稳定的输出结构,支持重复任务执行。 知识库构建 集成BGE、multilingual-e5-large等多个向量化模型,可自主构建业务知识库。将业务数据进行沉淀,实现Agent感知和理解的功能。 Agent配置 基于主流开源大模型技术,实现Agent的自主思考和行动能力。将Agent与知识相连接,同时发展Agent各种技能,理解用户意图、进行任务规划、任务分解,完成各种各样的业务任务。 多模型管理 可对接入的大模型,进行模型监控、日志管理、权限管理、算力优化等全方位管理。 自研搜索引擎,构建多元化金融知识库,提升大模型的安全性3.6 可执行 自学习 可解释 低成本 高精度 依据知识搜索增强,生成内容,有引述有来源。 对于80%以上的能力更新,无需对模型进行微调重训。 自动更新语义向量库,实现模型知识自我更新。 根据用户意图,推荐各类智能中台服务,可直接执行。 确保金额、数值、表述的准确性。 建设数据安全标注环境,满足大模型数据标注安全3.7 (1)数据安全保护态势日趋严格 2021年,《关键信息基础设施安全保护条例》、《数据安全法》、《个人信息保护法》正式实施,与2017年已实施的《网络安全法》共同构建了“三法一条例”的数据安全保障网,此外《金融数据安全数据生命周期安全规范》等一系列文件,也对数据安全治理做出相关补充。 (2)银行建设生产数据标注安全环境 为满足各条线、分行对生产数据标准、模型训练、联合建模等需求,在顺义研发中心建设数据安全屋,设置门禁、监控、设备存储柜等安全设备,为相关工作提供独立、安全的物理环境,确保生产数据合规使用,避免数据泄露等安全风险。 目录 CONTENTS 1 建设背景 2 总体架构 3 技术特点 4 场景应用 场景应用(一):“京信妙笔”智能报告工具4.1 Ø基于大模型和知识库,利用AIGC技术结合业务场景实际情况,根据关键字和要求AI一键生成文档内容。提供多场景材料编写能力,辅助一线员工快速、高效地编写文档。 利用OCR技术,对用户上传的文档自动分类、识别。 上传资料后,点击一键生成,就看到一份完整的初稿。 通过对话方式,让大模型收集知识体系中的数据和图表,一键插入报告。 是用大模型对整篇或者指定部分进行改写、扩写、缩写、风格化等。 通过智能校对算法,识别错别字、标点语法错误等,提升质量。 场景应用(二):智能会议助手工具4.2 会议纪要生成 与我行云会议系统打通,一键式视频导入纪要生成能力,提供各参会人讲话内容识别、情绪识别、重点讲话内容识别等多种能力。 会议内容分析 基于已生成的会议纪要,利用大模型问答能力,实现对会议内容、参会人观点的问答总结和查询功能。 关键信息提取 智能会议纪要提供会议重点内容导航,对于一生成的会议纪要实现关键会议信息的提取和问答能力。 业务场景探索 智能会议纪要适用于我行多种会议场景,目前,智能会议纪要已经在我行审贷会场景做了初步探索,取得较为理想的效果。 场景应用(三):智能校对助手工具4.3 全能力校对 提供3大校对类型、12种校对模型、27类全栈校对技术。Ø文 字 标 点 差 错 校 对:错别字检查、语义重复、句式杂糅、句子查重、语序错误等12类;Ø内 容 导 向 风 险 识 别:涉国家统一和主权领土完整、涉黄、涉暴、涉民族宗教、涉敏感内容等6类;Ø知 识 性 差 错 校 对:地理名词、职务信息、时政重点词、法律法规名称、重要讲话引用等9类。 全数据知识库 基于10亿级数据量专有知识库,4类权威参考文献作为校对标准,提供快速的校对服务。Ø系列专有数据库拥有大规模训练集Ø权威参考文献优化训练专业领域知识图谱 高效校对体验 校对速度达1000字/秒