AI智能总结
链式创新,协同进化 ——Agent框架下的媒体内容供应链与效能倍增体系 腾讯云智慧传媒行业中心 人工智能进入新的阶段 人间方七日,AI历千年 22年,从决策式到生成式,AI技术与应用迎来了跨越式的发展,是为level1; 24年,Agent范式的大规模涌现,让我们看到了一个全新的阶段,是为level2; 25年,Manus的一日爆火,MCP与A2A的持续迭代,大模型从“生成答案”到“交付成果”,我们对大模型的使用进入一个全新的阶段。 知识 “信息”系统 以数据为媒介,表 现环境、沉淀知识。 思考 “模型”系统 将数据转化为技能,能针对⽬标推理和规划。 执 ⾏ “⾏动”系统 与环境互动,实现交互,达成⽬标。 人工智能进入新的阶段 给个清晰的定义:Agent是什么 OpenAI:通过大语言模型驱动,能够代表用户独立完成任务的人工智能系统。具有规划、记忆、工具、动作执行的能力。 聚焦LLM+规划+记忆+⼯具的技术集成 复旦NLP:能够感知环境、进行决策并执行动作的人工智能实体。由“控制端”、“感知端”、“行动端”构成。 强调感知-决策-⾏动的闭环架构 核⼼点: 1、⼤语⾔模型做为⼤脑驱动; 2、多模态(⾃然语⾔+视觉语⾳)交互; 3、理解⽤户意图并执⾏指令; 4、具有基于知识库的⻓期记忆和短期记忆; 5、⾃主⼯作流程管理,识别任务状态; 6、⾃主⼯具调⽤; 7、⾃主环境感知与⾏动; ; 智能体系统(agenticsystem) Anthropic:智能体系统(agenticsystems) 包括⼯作流(workflows)和智能体(agents)两种架构: 意图理解业务路由任务规划 向量库图数据库SQL库 搜索知识生成代码工具调用 洞察求解报告生成决策执行 -⼯作流(Workflows):⼤语⾔模型(LLM)和⼯具通过预定义的代码路径进⾏编排的系统。控制权更多在设计者和开发者⼿中。 -智能体(Agents):⼤语⾔模型(LLM)能够动态指导⾃⾝流程和⼯具使⽤、并⾃主控制任务完成⽅式的系统。控制权更多在LLM⼿中。 规划记忆⼯具执⾏ 修正 任务拆解结果反馈 Agent ⼤脑+感知+⾏动 请求 意图理解 任务规划 输出 业务路由 ⼯具选取代码⽣成 校验 两种智能体系统架构的示例 ⼯作流(workflows)架构和智能体(agents)架构 做⼀个酷炫的Demo容易,但要构建⼀个可靠的、能⽀撑关键业务的智能体,极其困难。 要稳定选标准模式,要定制选工作流,要自由度选Agent! 标准模式⼯作流模式Agent模式 “RAG:最强知识外挂” “智能⽣产线” “AI指挥官” 平台内置最佳实践流程,只需导⼊⽂档/问答对,即可达到更稳定和精确的知识问答效果。适⽤于企业知识服务、产品咨询等严肃问答场景。 使⽤指定的⼯作流来响应⽤户所有对话。如果你对应⽤的执⾏流程,有更加个性化的需求,可以通过⼯作流,来拖拉拽各种原 ⼦能⼒,编排你想要的流程。 Agent模式由⼤模型进⾏任务 ⾃主规划和⼯具调⽤,可实现 ⾼效应⽤搭建。适⽤于有灵活回复或快速搭建需求的服务问答场景。 更专业,满足媒体严肃场景的插件/MCP库 质疑Agent,理解Agent,拥抱Agent 构建Agent,存在诸多挑战: •Agent响应速度慢:思考+拆解+推理+流式输🎧; •Agent会出现幻觉:事实性错误和不遵循指令; •纯⽂本交互不友好:⻓篇⼤论罗嗦输出; •⾏业术语听不懂; 质疑:为啥⾮得做Agent? •Agent能做的事情,在Agent�现之前其实就能做; •使⽤Agent⽆⾮就是构建了⼀个基于⼤模型,按多步骤执⾏的流程; •通过传统的硬编码开发⽅法或者低代码的配置化平台,其实也同样能实现类似Agent的流程功能; 智能体时代流程与协同的思考 播出 新闻收录 播出 媒资 制作 播出 ? 编单广告 媒资制作 媒资制作 意图理解任务规划 ⼯具选取智能决策 …… 从娱乐级智能体到企业级智能体 娱乐级 解析引擎检索引擎 •公有数据 •通⽤模型 •简单提⽰词 视频 程 多模态⽂档⼯图⽚ 解 析表格 ⽂字 MLLM DocLLM LLM ⽂档拆分LLM Embedding 模型 Embedding 模型 知识预处理智能体 ⽂本向量Doc-ES图向量视频向量 Reranker后处理 专业级 •私有数据 •通⽤模型 •专业提⽰词 •RAG 企业级 •可信数据源 •多专有模型 •专业知识库 •⼯作流 Query包含 (多轮)意图理解 意图判定参数提槽 知识型 Query改写LLM 任务型 节点类型判定 向量检索混合检索增强检索 API节点 Funccall模型 代码⽣成模型 Query重组 搜索引擎 图⽂ ⽣成模型 外部函数调⽤ API⽣成 LLM合成输出 拒答判定 LLM合成输出拒答判定 型 数据节点Txt2SQL模 内容查询 为企业级智能体,深度优化专属模型 规划 任务拆解+流程画布 专用代码生成&Txt2SQL模型 意图理解及参数提取提升30%小参数成本降低50%+ 理解⼯具 Query改写+意图提槽 专用意图识别模型&多轮Query改写模型特有参数提槽能力 多轮对话能力提升20%+ 插件调用 MCP&专用Function-call模型 意图理解及参数提取提升30%小参数模型成本降低50%+ 知识 解析+切分+检索 基于OCR大模型解析引擎 识别准确率提升30% 业内首个语义切分大模型 比传统正则切分方式, 回答完整性提升30% Embedding模型 PEG检索模型斩获 MTEB中文榜单第一 多模态大模型 多模态内容理解 SuperCLUE-V评测国内第一 ⾏动 推理+生成 大模型阅读理解&结果生成 深入上百个客户的应用场景亿级行业数据针对性训练端到端问答精准 Agent时代内容的全新定义 语料原始数据集,需经过清洗、去噪、分词等处理后,⽅可⽤于训练模型 数据集包含标注、结构化和任务导向的数据,⽤于微调或模型评估 知识以各种模态,不同形式存储的知识 内容 ⾳视图传统媒资沉淀的各类资产 ⽂稿⻓期沉淀的⽂稿材料,内含丰富的知识 热点按⼀定分类⾃动汇聚的各类热点,⽤于指导节⽬运营 多模态视频理解能力提升标签效果,服务自动节目生产 思考中: 这段视频⽚段展示了⼀场激烈的乒乓球男⼦单打⽐赛的最后关键时刻。⽐赛场地专业,背景有观众席和多个赞助商(如ENLIO,Li-Ning,Ganten,YINHE,WTT)的标志,场地中央有“SINGAPORE”字样,表明⽐赛地点在新加坡。视频由CCTV5体育频道直播,右上⻆有CCTV.com和直播标识。画⾯聚焦于两位中国选⼿:梁靖崑 (⾝穿红紫⾊渐变上⾐,⿊⾊短裤)和王楚钦(⾝穿红⾊上⾐,⿊⾊短裤)。视频开始时,王楚钦以10-6领 先,⼿握赛点(CHAMPIONSHIPPOINT)。随后,王楚钦发球,双⽅进⾏快速对拉,王楚钦成功得分,将⽐分扩⼤为11-6,赢得了第五局。得分后,王楚钦显得⾮常激动,他先是握拳庆祝,然后兴奋地仰⾯躺倒在球台上,双臂举过头顶,⾝体扭动,表现�极度的兴奋和如释重负。镜头切换到他躺着时调整⼿腕上的⼿表,脸上露�笑容。紧接着,他起⾝,⾯带笑容地⾛向场边,似乎在与教练或队友互动。视频配有中⽂解说,确认了王楚钦获胜并最终以4-1的总⽐分战胜梁靖崑,赢得了2024年WTT⼤满贯赛新加坡站的男单冠军。整个⽚段节奏快,充满紧张感和胜利后的喜悦。 总结如下: 该视频记录了2024年WTT新加坡⼤满贯赛男单决赛中,王楚钦对阵梁靖崑的关键赛点时刻。在决胜局11-6获胜后,王楚钦以总⽐分4-1锁定胜局,夺得冠军。视频的核⼼内容是王楚钦赢得⽐赛后的激动反应——他兴奋地躺倒在球台上庆祝,充分展现了他为这场胜利付�的努⼒和获胜后的巨⼤喜悦。这个⽚段不仅捕捉了 ⽐赛的紧张激烈,更突�了运动员在重要赛事中获胜后的真情流露,传递了竞技体育的魅⼒和运动员的拼搏精神。 精调数据集累积AI时代媒体核心资产 可以面向文稿、内容入库分类、二次编辑、体例勘误、新闻服务、智能运营等场景,跑通面向大模型的数据集构建流程,并实现一站式的数据集纳管,为后续常态维护大模型服务打下基础。AI大模型友好的数据集,也是媒体机构的新质核心资产。 ⽰例:某项⽬6个数据集构建 “存量⽂稿”数据集 可用于垂类模型(无监督)学习,该模型用以生成符合要求(要求包含且不限于文风、用语、格式)的内容(内容包含标题、摘要、扩写、缩写、润色等) “⽂稿⼆次编辑”数据集 可持续用于(有监督)精调“文稿二次编辑”模型(或模型的“文稿二次编辑”能力),以 “知识语料分类”数据集 用于垂类模型(有监督)学习,用于“文稿语料分类”模型(或模型的“文稿语料分类”能力),可实现对文稿知识语料进行分类。 “体例规范勘误”数据集 用于提供统一的写作体例,文章写作规范和勘误等方向。直接基于现有体例规则文档 存储和管理 数据集管理平台 生成符合要求(要求包含且不限于文风、用语、API进行分析、整理构建。 格式)的内容(内容包含标题、摘要、扩写、缩写、润色、续写等) “专⽤词提取”数据集“社交⽹络运营”数据集 可用于提取新闻专用词服务的精调,未来可持续用于(有监督)精调“政治专用词”服务精调,该服务可对每一篇输入的文稿,输出符合要求的新闻专用词的抽取 未来可持续用于(有监督)精调“社交网络运营”模型(或模型的“社交网络运营”能力),本能力用于辅助社交网络编辑的日常运营与声场要求,提升国际传播生产力。 对⼤模型数据集实现统⼀纳管与预览 ⽀持数据集的上传、下载、预览与检索 ⽀持通过API访问和操作数据集⽂件,便于后续模型训练 高质量数据集提升模型能力 ⽂件预处理多模态数据集处理多模态数据集构建模型训练 数据源 管线 元数据理解内容描述 视频数据集 媒体⽂件描述⽂件 定时任务 多模态分析跨模态特征向量 ⾳频数据集 模型训练 预处理 存储 or 批量任务 镜头/⽚段检测 图像/视频理解 图⽚数据集其他数据集 •⽣图模型 •视频模型 面向模型进化的“视频片段-描述对”示例 画⾯以中景镜头呈现写实场景。⾝着灰⾊T恤与黄⾊安全背⼼的亚裔⼯匠侧坐于传统建筑前,右⼿执画笔在红绿⾊⽊构件表⾯涂抹⽩⾊颜料。作业区域的⽊构件可见浮雕纹饰与鎏⾦装饰,背景建筑⽴⾯布满彩绘⽊雕结构。强烈⽇光在雕刻凹陷处形成明暗对⽐,整体环境呈现明亮⽣动的古建修缮 ⼯作场景。 简短描述:"戴⼝罩男⼦在装饰性建筑结构上描绘细节" 详细描述:"亚裔⿊发男性⾝着⽜仔裤、灰⾊T恤与黄⾊安全背⼼,侧坐进⾏涂绘作业。右⼿执⼩号画笔,正将⽩⾊颜料涂抹于红绿相间的⽊构件区域。该建筑结构带有复杂雕刻与⾦⾊装饰细节。" 背景:"传统中式建筑(含复杂⽊雕与彩绘装饰)"光线:"晴朗⽇光" 氛围:"明亮⽣动" 镜头类型:"中景镜头"镜头风格:"写实风格" 画⾯呈现⼴⾓镜头拍摄的写实场景。⽇落时分,橙⾊阳光铺满浅⽔湖⾯,两只棕⾊⿅科动物站⽴⽔中:近岸⿅四肢接触�润湖床,远岸⿅躯⼲部分浸没(⽔深约达腹部)。⼆者头⾻均⽣长多叉⿅⾓,体表⽑发因⽔渍产⽣明暗变化。背景中可见⾼度约15⽶的柱状⼈造结构(外形类似瞭望塔),其混凝⼟表⾯反射⼣阳余晖。平静⽔⾯映射天空暖⾊调,整体环境呈现⽆风状态下的光学镜像效果。 简短描述:"两只⿅在浅⽔中站⽴" 详细描述:"⽇落时分的橙⾊光线照射在⽔⾯上。两只棕⾊有⾓的四⾜动物半浸在⽔中,⼀只靠近岸边站⽴,另⼀只位于较深⽔域。背景可见类似瞭望塔的⾼耸建筑物。" 背景:"⽇出时分的浅⽔湖"光线:"朝阳的⾦⾊光线"氛围:"静谧祥和" 镜头类型:"⼴⾓镜头"镜头风格:"写实风格" 可信信息源与动态知识库服务智能体自我决策 数据汇聚 数据清洗 数据仓库 数据服务 数据源 API 政策文档 媒资库 文稿库 数据埋点 数据爬虫 数据中台 知识自处理 知识库 知识去重 知识去重 数据清洗 个人助手 ChatBI 数据洞察