AI智能总结
目录 2.金融大模型的训练技术创新3.金融大模型的评测方法创新4.金融大模型的应用实践创新1.从通用大模型到金融大模型 从通用大模型到金融大模型 大模型涌现超预期能力,有望为金融行业创造价值增量 但通用模型难胜任金融任务,大模型落地金融面临挑战 金融知识挑战 应用成本挑战 行业数据流通难 GPU算力成本 私域数据共享难 计算准确性问题 能耗成本 知识更新时效长 遗忘问题 推理成本 维护成本 训练和运营成本高 面对成本挑战,专项增强的领域模型更显高性价比 通过金融领域的定向优化,十亿参数模型在金融任务中的性能可与百亿参数模型媲美 大参数通用模型训练和应用成本高 小模型+金融增强=效果成本平衡 高质量的领域数据能够让模型领域任务表现媲美5倍大模型[2] LLaMA-2训练2T Tokens数据所需卡时(GPU Hours): 经过金融强化的LLaMA2-13B,在多项金融考试任务上优于未经金融强化的LLaMA2-70B模型 为解决通用模型不胜任问题,度小满开源了轩辕金融大模型 定位最好的金融行业大模型,金融域任务表现超越领先通用模型 中文增强 应用增强 金融增强 以轩辕70B为代表,轩辕大模型通用能力强大,金融能力领先 在C-Eval和CMMLU两大权威榜单上,轩辕70B均名列所有开源模型第一 通用能力 轩辕70B已经通过注册会计师、银行/证券/保险/基金/期货从业资格、理财规划师、经济师等金融领域权威考试,且考试得分领先于其他通用模型 金融能力 轩辕70B在度小满自有金融业务场景测试中表现领先,特别金融知识问答、NL2SQL等场景表现优异 场景能力 轩辕金融大模型:从通才中学生到专才职场人的进阶之路 职场人:以岗位产出为导向 场景反馈 大学生:接受专业教育 行业赋能 中学生:接受通识教育 通识基础 为大模型注入专业金融知识,训练专业金融能力 如何获得充分的金融知识,成为一个“金融专家”? 金融知识|金融能力|金融场景 增量预训练 指令微调 强化对齐 多样性指令激活问答能力 专业金融数据和标注满足行业偏好 海量金融语料提升金融知识储备 数据丰富 信贷|理财|证券|投顾|客服 研报|财报|公告|资讯|百科|书籍 覆盖金融场景广 配比合理 类型细分 标注专业 动态调整中英比例与通用金融比例,避免灾难性遗忘 金融百科|金融计算|资讯摘要|研报解读|角色扮演 全面、反映金融行业偏好 RM鲁棒性强 金融场景打分合理,指导正确 数据准备:数据质量是模型效果的保障 增量预训练:针对中文场景做词表构建 中文大模型需首先考虑词表构建问题,否则单字可能需要多个Unicode字符来构造 考虑到基座模型的训练稳定性,采取字粒度扩充方式加入7k的中文字符,新词表大小约39k,词表压缩率提升48% 增量预训练:两阶段预训练使收敛更加稳定 第一阶段 对模型进行全参数更新 增量预训练:数据配比直接影响基座模型的训练质量 训练效果 数据加入过程 中文知识类优先:百科、书籍、论文等 逐渐提升综合类中文语料:网页内容、新闻类等 逐渐提升金融垂类语料 英文数据持续训练 指令微调:SFT数据的丰富性和多样性直接影响对齐效果 两阶段指令微调:保证通用能力同时,提升金融问答能力 第一阶段:混合微调[1] 训练数据格式 <你是一个智能助手>Human:你是谁Assistant:我是轩辕大模型....</s> Human:你会干什么Assistant:我可以....</s>.... System Message Human 海量开源指令数据+预训练数据(10M+) 训练目标函数 Next Token Prediction,与预训练保持一致 第二阶段:指令微调 常规指令:使用Mask机制,Response处计算损失 通用能力保持 •自研的高质量指令数据(200k)•通用指令:金融指令= 4:1 超长指令:计算全局损失,来提升长文本建模能力[2] 金融能力增强 价值对齐:通过强化学习对齐价值偏好 未经对齐的模型在语言、安全、金融行业上表现和人类偏好不符 安全 语言 金融 •部分表达方式非中式思维•部分常识性问题不合国情•一些回答易夹杂外文单词 •语言表达不符合行业风格•金融计算能力不足易出错•观点提取及数据分析是短板 •部分观点不符合我国核心价值观•部分敏感类问题缺乏口径对齐•部分违法犯罪问题和我国实际不符 价值对齐:通过强化学习对齐价值偏好 碰到有人在打架怎么办? 大麻是一种什么样的植物? 大麻是一种草本植物,属于大麻科。******。通常被用于药用和工业用途。 ETF全称为“交换贸易基金”,是一种在交换市场上市的、基金份额可变的资金。****** ******,你可以拨打911联系当地执法部门,****** 对齐后 对齐后 对齐后 ETF,即Exchangtradedfund,被称之为“交易所交易基金”,是一种在交易所上市的、基金份额可变的开放式基金,属于开放式基金的一种特殊类型。****** 大麻是一种直立草本植物,属于大麻科。******。需要注意的是,在我国大麻属于毒品,私种大麻是一种严重的违法行为。我建议您遵守道德和法律,禁止种植相关作物。****** ******,您可以拨打电话110报警,****** 应用增强:升级系统工程,弥补大模型本身能力欠缺 工程优化:大模型训练效率面临诸多瓶颈 内存、算力、带宽与大模型需求的不匹配成为制约训练效率的关键瓶颈 工程优化:突破内存与计算墙,提高训练吞吐 降低显存占用 显存占用降低87%,bs提升3倍,训练吞吐提升36% 工程优化:打破带宽墙,提升分布式效率 I/O效率优化 最高支持8192卡;单机吞吐800Gbps;训练效率提升3倍 金融大模型评测方法创新 大模型评测难题:主流榜单可靠性受质疑 国内大模型发布掀起“刷榜”热潮,榜单成绩存在争议 能力真实性存疑 成绩真实性存疑 数据阶段效果真实性存疑 评测集很可能混入训练 结果可操作空间大 清洗质量榜单排名=真实表现? 主动:用「真题」刷分被动:潜在的数据污染风险 用户自行上传结果无法验证是否为模型真实成绩 中文主流大模型评测榜单C-EVAL只需提交题号+答案便可显示成绩 拒绝榜单绑架,用评测指引模型优化方向 “横评”看差距、“纵评”看提升 “横评”:不同模型看各项优劣 “纵评”:同一模型看阶段提升 自研模型VSGPT4VS国内主流模型AVS国内主流模型B 实时评测:CheckPoint自动触发评测流水线 阶段评测:「自动+人工」全维度评测体系 预训练阶段:评测指标走势判断训练是否符合预期 预训练模型评测方式 评测为训练提供及时反馈来对所有训练细节进行及时调整 微调阶段:全面评估大模型“涌现”出的新能力 检验微调阶段的对话能力水平,需要在多任务上进行主观评测 人工评测内容 创造摘要类 方法建议类 数据封闭:封闭式评测数据,离线上传模型 数据独创:原创人工评测集,多维评测体系 强化阶段:评估相较微调阶段是否有能力提升 强化学习是大模型实现效果突破的重要一环 安全性 稳定性 有用性 相较上一版本是否提升 多次答案偏差是否缩小 通用能力是否保留 •恶意问题和敏感问题的识别•模型回复与人类价值观对齐 •模型输出答案质量趋向稳定•答案能保持与人类偏好对齐 •安全性的提升不能损失有用性•理想状态是通用能力同时提升 从模型训练到场景落地:像评测人一样评测大模型 主观评测:业务反馈与用户建议 FinanceIQ:定制金融大模型能力评测体系 金融大模型应用实践创新 金融大模型应用实践创新:由点到面重塑金融价值链 营销:个性化素材结合差异化产品,重塑开放获客新模式 服务:提质降本,营销服务一体化 运营:数据驱动的业务运营新范式 这个新客户非常重要,项目可以承受一定程度的亏损,但是要保证公司整体利润底线不受影响,那么报价最低是多少? 本季度目标利润率是10%。根据最近三个月的财务数据统计,总营收为2.1亿元,毛利3360万,实际利润率为16%; 我们的投标价格底线最低下降至3849万时,不会影响公司整体毛利率目标。 研发:基础代码自动生成,业务代码人人可写 覆盖Python、java、sql、javascript、go、html、c++、css等多种编程语言 办公:无处不在、无缝衔接的办公助手 多层次、全方位的能力辅助 度小满-ChatMan办公助手 私人顾问:个人决策助手,基于个人可获取信息,帮助决策,提升价值 真实问答场景 全面辅助:实时、全面和准确地辅助解决业务、政策、资讯等等复杂问题 金融监管治理有几个要素,以及每个的含义和重要性? 金融监管治理涉及的四个核心要素是:独立性、问责制、透明度、操守。 操作提效:大模型驱动的知识抽取与信息处理等工作,提升基础操作性工作的效率 首先,独立性指的是监管机构具有一定的自主权,使其能够免受政治层面和被监管实体的干扰,以确保公平、有效地进行金融监管。监管机构的独立性不仅要求专业性技能,以便在复杂情况下迅速做出反应,还要求其能够使自身免受政治干预,增加监管行为的透明度和稳定性,由此提高政策制定的可信度。 助力提升内外部协同效率 助力机构间业务合作 其次,问责制是监管治理的重要环节,…… 然后,透明度也是极为重要的,…… 最后,操守是指监管机构和监管人员需要坚守的行为与规范。…… 金融监管治理的四个要素相互影响、相互促进,共同构建了金融监管的基础环境。要统一提升,需要多元化的改革与整合,构建高效、公正的金融监管环境。 风控:提升感知和决策能力,智能风控更主动更实时 总结:金融大模型迭代路径 金融大模型迭代路径:知识和能力齐备,评估和实践共进 轩辕金融大模型将持续开源,与行业伙伴共同成长