AI智能总结
“•阿里云飞天实验室大模型商业化、数字人内容与互动算法负责人 •十余年人机交互领域经验,阿里小蜜与智慧数字人创始成员在人机对话系统、多模态交互、AIGC等领域有丰富经验 •带领团队在相关领域顶会发表论文三十余篇,落地业界首个超过真人转化的电商虚拟主播、首个支持双向交互的手语数字人、首批大模型落地解决方案” 赵中州 新一轮人工智能产业革命,大模型引领行业应用百花齐放 传媒领域AIGC的期望与挑战 •内容多样化和传播性->有深度有广度•事件实时跟踪和精准表达->准确实时•主流价值观、正确导向->安全稳定•策采编发运全链路协同->可控可干预 基础大模型GAP分析 四步骤落地最后一公里 •预训练阶段的数据问题•指令微调阶段的专业问题•反馈对齐阶段的成本问题•上线应用阶段的协同问题 •数据增强•事实增强•推理增强•可控增强 大模型时代下的传媒行业(理想) 在传媒行业,AIGC生产力演进呈现以下特点: 基础大模型在解决专业问题时依然面临挑战(现实) 新闻场景的要求: •事件明确:要求能够还原事件的准确的信息(包含人物、时间、地点、主要矛盾、冲突等) •观点鲜明:在事件之上能够明确的表达观点和态度(立场正确,态度可控,口吻多样,观点丰富) www.top100summit.com 基础大模型在解决专业问题时依然面临挑战 BasePre-trainLLM Instruction tuned LLM Dedicated LLM 突出的预测生成能力 更懂你的业务 白日依山尽黄河入海流 但可能不是想要的结果 结合大模型训练过程的挑战分析 大模型需要上下游的能力串联解决实际场景问题 大模型的关键优势 1.理解能力2.生成能力3.推理能力 用好大模型的依赖 1.数据+指令2.记忆(上下文、用户画像)3.函数(外部系统交互) 领域大模型+系统解决方案支撑传媒全链路落地 数据增强:知识对齐的Cycle-Instruction 反向样本构建 基于InstructionInduction新闻反向生成instruction,提升模型写作的文风和文体的专业度,对齐已有范文保障数据质量 基于SelfInstruction构建包括如分类、抽取、润色、摘要等任务的SFT数据,提升模型在传媒领域的指令理解能力,缓解新闻领域相关的通用技能遗忘问题 结合不同数据源和不同维度数据,还原写作中的原始素材,避免事实类内容无中生有 Wang,Yizhong, et al. Self-Instruct: Aligning LanguageModel with Self Generated Instructions. Dec. 2022. Zhou Y,et al. Large language modelsare human-level prompt engineers 事实增强:生产级RAG需要什么 Retrieval Augmented Generation 常见误区 •Embedding+向量数据库=RAG?•提供给LLM的输入信息越长越好?•问答效果核心取决于LLM的性能? 推理增强:多粒度知识对齐 逻辑蒸馏:CoTDistillation 逻辑迁移:CoTTransferring 基于千亿级MOE多模型,结合领域专业维度及范例,拆解思考过程与校验逻辑,增强领域模型推理效果 复用开放域多步推理样本(数学、代码、分析等) 一块7英尺的木板。9英寸长分成3等份。每个部分的长度是多少?\n选项:\n(A) 31英寸\n(B) 32英寸\n(C)33英寸\n(D) 34英寸\n(E) 35英寸让我们先想想。意识流: Assistant:好的,经分析:7英尺9英寸是84 + 9 = 93英寸。所以93/3 = 31英寸或2英尺7英寸。 Human:一块7英尺的木板。9英寸长分成3等份。每个部分的长度是多少?\n选项:\n(A) 31英寸\n(B) 32英寸\n(C) 33英寸\n(D) 34英寸\n(E) 35英寸让我们先想想。意识流:好的,经分析:7英尺9英寸是84 + 9 = 93英寸。所以93/3 = 31英寸或2英尺7英寸。请依照分析结果推理出答案。", "assistant": "所以,答案是(A)。"}{"system": "", "human": "先给出意识流再给出最终答案。如果1卢比在40年内产生9卢比,求单利?\n选项:\n(A) 22 1/8 %\n(B) 22 3/2 %\n(C) 28 1 /2 %\n(D) 22 1/2 %\n(E) 32 1/2 % Assistant:好的,经分析:9 = (1*40*R)/100\nR = 22 1/2 % Human:先给出意识流再给出最终答案。如果1卢比在40年内产生9卢比,求单利?\n选项:\n(A) 22 1/8%\n(B) 22 3/2 %\n(C) 28 1 /2 %\n(D) 22 1/2 %\n(E) 32 1/2 %好的,经分析:9 = (1*40*R)/100\nR = 22 1/2 %请依照分析结果推理出答案。 "assistant":最终答案:(D)。 可控性增强:长文写作下的复杂指令遵循 大纲可控率低,基于大纲生成的文章差,在结构和一致性上不满足大纲要求 对齐式学习 多样化学习 对话式学习 在生成每一段大纲下内容时能够将大纲信息进一步提示,从而防止模型由于context太长导致的遗忘。 通过构造多轮训练范式,合并大纲生成及following写作任务,增强任务连贯性 数据的单一性会使得模型更关注输入素材,难以建立大纲与正文的关联,通过相同输入下的不同写作框架样例来强化模型的一致性 Human:针对全流程服务对高新企业转型写一篇报道。请先思考并列出文章的大纲。 【中国高新技术产业发展面临的挑战和压力】我国经济转型升级面临着一系列挑战和压力... 【国家税务总局制定的全流程服务政策的核心理念】全流程服务政策的核心理念是...【全流程服务政策的具体内容和目的】具体而言,即通过事前精准宣传、事中辅导办理和事后回访答疑的方式...【全流程服务政策在xx、xx的成功实施情况】以内蒙古鄂尔多斯达拉特经济开发区为例...【全流程服务政策对高新企业转型升级的意义和作用】全流程服务政策的实施,对于高新企业的转型升级具有重要的意义...【全流程服务政策实施中面临的挑战及解决办法】然而全流程服务政策的实施还面临一些挑战。首先,税务部门需要加强对政策的解读和培训... Assistant:好的,文章的大纲是: 1、中国高新技术产业发展面临的挑战和压力2、国家税务总局制定的全流程服务政策的核心理念3、…… Human:请依照大纲完成文章的写作。 Assistant:我国经济转型升级面临着一系列挑战和压力,特别是高新技术产业的快速发展和转型升级对税收政策提出了更高的要求。为了更好地支持高新企业的发展,国家税务总局制定了全流程服务政策,旨在通过政策找企的方式,为企业提供更快更准的支持和服务,助力企业实现转型升级和高质量发展。 大纲-文章多轮对齐 文章生成强对齐 大纲多数据对比学习 可控性增强:稳定立场与鲁棒问答 价值观反馈学习 反事实增强 传统绿网融合 传统绿网拦截粒度粗、召回低,无法满足时政等内容处理,通过结合绿网已有标签及安全攻击类样本对齐,显著提升模型召回且保障安全性 Reward模型评估多个生成结果,混合人工偏序负样例对比学习过程,精调权重保持模型稳定 针对误导陷阱类问题,结合问题拆解、多步检索与推理链,增强模型回复鲁棒性 Q:莫奈在什么时候画了星空这幅画? DQ1:莫奈的画作有哪些DQ2:星空的创作时间和作者 Rafailov, Rafael, et al. Direct PreferenceOptimization:Your Language Model Is Secretly a Reward Model. www.top100summit.com 阿里云百炼:五级引擎构建一站式大模型服务平台 大模型AIGC将助力媒体四力持续创新发展 全媒体适配 情绪洞察 更符合受众触媒习惯 意见挖掘 微 信 官 方 公 众 号 : 壹 佰 案 例关 注 查 看 更 多 年 度 实 践 案 例