您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [北京智源人工智能研究院]:AI大模型浪潮下的行业应用新模式和关键实现路径 - 发现报告

AI大模型浪潮下的行业应用新模式和关键实现路径

2025-02-01 周华 北京智源人工智能研究院 用户zL5HoU
报告封面

演讲人:周华北京智源人工智能研究院智能应用负责人 AI大模型浪潮推动企业IT系统架构变革 01以AI大模型为核心的应用系统关键实现路径 目录 02构建IndustryInstruction行业指令数据集 03MindForge自动化行业指令数据生产技术介绍 04总结 AI大模型浪潮推动企业IT系统架构变革 AI大模型浪潮推动企业IT系统架构变革 以大模型为核心 以数据为核心 以服务为核心 以流程为核心 •强调系统内的业务流程优化,以支持复杂企业流程为目标。•系统设计围绕流程自动化,从订单处理到客户管理的工作流全部打通。 向以AI大模型为核心的应用系统架构演进 以AI大模型为核心的应用系统关键实现路径 以AI大模型为核心的应用系统关键实现路径(2/4) 以AI大模型为核心的应用系统关键实现路径(3/4) 以AI大模型为核心的应用系统关键实现路径(4/4) 定义模型能力,以模型能力需求出发训练模型 行业大模型能力评估体系–典型能力框架(以医疗为例) •从模型能力需求出发选择基座模型 •从模型能力需求出发构建模型训练数据集 •从模型能力需求出发指导模型训练 数据是大模型行业应用成功的关键 •大模型行业应用涉及的五个方面,数据工程最重要! •大部分行业的数据很丰富,但数据形态难以满足大模型行业应用开发要求: •结构化数据:不能直接用于模型训练或RAG向量库构建;•非结构化数据:需要使用复杂的数据转换工具,成本高昂; •数据的数量和质量决定了模型的性能:模型性能不达标,表面原因模型没有学会,深层次的原因是缺乏某类训练数据或此类数据质量不高; •需要重点从数据层面入手解决大模型行业落地的技术瓶颈; •2024年研究院一直在致力于制约解决行业应用落地最后一公里的数据问题: •行业CPT预训练数据集:IndustryCorpus1.0和IndustryCorpus2.0 •行业指令数据集:IndustryInstruction1.0 构建IndustryInstruction行业指令数据集 为什么要构建行业指令数据 智源研究院9月底发布了《行业数据全景扫描》显示:当前行业数据总体存在着以下问题 数据缺失:部分行业缺乏指令数据质量参差不齐:数据杂乱,质量不均,或者缺乏数据质量的评估标准维度单一:缺乏多维数据支持(例如旅游行业,只有个别旅游攻略相关数据,无法支持行业训练)语言缺失:缺少中英文语种数据(行业中普遍存在着单语种问题) 从行业的角度来看: 指令数据缺失的行业:专业性强或非技术领域,数据匮乏且单一,例如:航空航天、交通、科技、旅游、住宿餐饮; IndustryCorpus行业高质量预训练语料蕴含着丰富的高价值领域知识,进一步挖掘行业数据的潜力将带来更大的潜力; 多行业多语种覆盖01 多行业:一期覆盖12个行业(热门行业与空白行业)多语种:指令数据包含中英文,弥补双语不足 数据量充足02 一期总量约200w,单行业最少10w,满足行业训练需求 数据质量高&&数据格式丰富03 数据质量高:合成:多种方案提升数据质量与多样性质检:Deita与RW及事实性核验确保数据质量 格式丰富:Subjective:openQA,closeqa;Objective IndustryInstruction数据合成方案 使用行业名称和高质量预训练语料作为种子,使用事实性,指令复杂性,回复质量,回复偏好等方案进行数据筛选 种子来源 <行业名称>IndustryCorpus2高质量<行业预训练语料> 数据构建方案Preprocessandgeneration <预训练语料>合成指令数据;<行业名称>合成指令数据;指令数据鲁棒性提升,主客观改写 数据去除离群点 Query语义特征聚类后簇内去除离群点 Deita:指令复杂性和回复质量RWmodel(ArmoRM):回复偏好性,评估回复质量事实性核验:评估closeqa数据的回复事实性 从行业预训练语料合成指令数据 使用IndustryCorpus2高质量行业数据作为种子,挖掘数据中高价值行业知识,合成CloseQA指令数据 Stage1:生成语料中可能包含的问题 输入:<行业类目>+<预训练语料>逻辑:判断<预训练语料>是否与<行业类目>是否匹配。若匹配,则生成指定数量问题;若不匹配,丢弃该数据输出:<问题列表> Stage2:根据<问题列表>和<预训练语料>生成指令数据 输入:<预训练语料>+<问题列表>逻辑:根据提供的<预训练语料>对<问题列表>生成回复输出:指令数据 生成模型: 行业类目合成指令数据 以<行业类目>作为种子,生成<行业子主题>和<人物描述>,使用LLM合成行业指令数据 <行业类目>合成指令数据 <行业类目>作为种子生成<行业子主题>和<人物描述><行业子主题>生成指定数量<问题列表><人物描述>与<行业类目>或<行业子主题>生成<问题列表><问题列表>使用生成模型合成行业指令数据 去除远离主题的指令数据 对query抽取特征,使用簇内远离主题的数据(质量有问题) 指令数据去重 基于query的完全匹配去重和Minihash去重提取query的embedding,聚类并计算样本距离簇中心的cosine距离,删除cos_distance>0.3的数据 数据筛选Filter 根据指令数据类型选择不同的数据筛选方案,全面提升指令数据质量,多样性。 多种数据筛选方案,针对不同数据类型,选择不同方案 基于Deita的指令复杂性和回复质量筛选 基于RW模型回复偏好性数据进行筛选 基于事实性核验的数据筛选 多轮QA 基于多轮相关性的数据筛选 数据筛选Filter 指令复杂性得分:C回复质量得分:QQA数据的整体质量得分:S=C*Q筛选数据原则:Q复杂具体&&A详细准确 评估Response对Query的Helpful,harness,truthful,complexity等维度筛选数据原则:RW得分高的数据 数据筛选Filter 多轮对话独创性的基于自回归损失的多轮次相关性进行评估 单轮QA的Loss计算方式(预训练的自回归loss) CF>1:多轮QA之间相关性低CF<<1:多轮QA之间重复度过高筛选数据原则:多轮相关且不重复,选择CF小于1且大于0.5的数据 IndustryInstruction数据可视化 对合成数据使用词云统计,质量分数分布 分语种筛选deita和rw得分均较低的数据 MindForge自动化行业指令数据生产技术介绍 MindForge基于多智能体的行业SFT指令数据自动化技术 •MindForge行业指令数据自动化生产技术的主要步骤:数据自动化合成、数据筛选、数据清洗; •给定行业方向和字领域提示,由智能体群体协作完成SFT指令数据集的大批量自动化生产,极大减轻企业SFT数据制作的工作压力。 MindForge基于多智能体的行业SFT指令数据自动化技术 使用MindForge智能体协作新方法与之前直接提示模型生成的方法相比 •单轮合成数据的训练性能: •Llama-3.2-1B上表现得最为明显,胜率分别达到70.5%和62.8%(中文和英文)。•Llama-3.1-8B上的最高输率仅为22.1%。 •多轮合成数据的训练性能: •MindForge方法胜率最高达到98.0%,最低输率仅为10%。 混合多种来源生产行业指令数据 •来自能力较强的教师模型:难点是Query生成,且Response生成质量无法超过教师模型; •已有的开源SFT指令数据集:质量参差不齐,需要采取技术手段针对业务需求进行精细筛选;•基于预训练行业数据生成:Response专业性和质量有保证,整体质量取决于构造Query的质量;•基于企业业务数据生成:同基于预训练行业数据生产,但专业质量更高;•使用互联网搜索引擎数据生产:可补充其他数据的缺失,提升数据实效性,但速度慢,且数据需要严格质量过滤。 行业指令数据的生产,最好混合使用上述来源,可在各种来源的优劣势之间做到平衡。 总结 总结 •未来企业IT系统将朝向以大模型为核心的应用体系架构发展: •大模型能力决定了系统能力上限;•多Agent系统拓展大模型能力外延;•从用户助理的视角,理解新的业务和技术特征。 •实现以大模型为核心的应用系统关键路径: •需求和业务场景引领;•数据工程、模型训练和多智能体应用系统并进。 •高质量行业指令数据集构建: •需要从任务类型,query多样性,数据鲁棒性,回复cot等角度考虑数据的制作;•重视合成数据的幻觉问题;•将制作的手工过程封装为智能体系统,实现过程重用,和自动化大规模生产;•混合多种来源生产行业指令数据。 谢谢!