AI智能总结
重塑业务流程、知识体系和组织范式/科大讯飞黄鹏 自我介绍(About Me) 先后参与并主导开发推荐系统、企业级大数据平台和AI中台的架构设计与升级。专注于平台架构设计和中间件开发。 目前带领团队应用LLM与RPA技术开发AIAgent产品,推动大模型技术在企业级场景的实际应用。 科大讯飞企业数字化业务群研发部总监黄鹏 AI技术赋能的思考者和实践者。希望让AI如水般智慧,善利万物,赋能千行百业。 一、数字员工业务背景概述 目录Contents 二、大模型:破局与升维之钥 三、大模型赋能数字员工创新实践 四、数字员工价值探索与未来图景 一、数字员工业务背景概述 起源于企业数字化转型发问 企业需要将数字技术整合到业务所有领域,从根本上改变为客户提供价值的方式 根据企业的数字化成熟度,不同的不同的企业在不同的阶段:在线化、集成化、数字化、智能化 科大讯飞作为人工智能国家队,使命是“让机器能听会说,能理解会思考,用人工智能建设美好世界” 如何利用好自身能力,实现公司使命,将AI技术深度整合到各行业业务中,改变企业的运营模式,为客户创造价值 数字化转型核心思路及目标 DAMA(数据管理协会国际标准)数字化转型核心思想:业务与技术的双向动力、数据驱动决策、整合与协同、流程自动化与智能化等等 业务与技术“双向奔赴”,推进企业朝着“六化”目标迈进 立足于企业根本从源头审视技术 企业架构(EA)诸如TOGAF,虽然提供了全面的、可复用的企业架构框架和方法论,但依然存在不足,如架构脱离业务需求,面对业务变化敏捷性不足 立足于企业根本从源头审视技术 企业业务流随着需求的变化而更新,业务流的更新势必导致接口的变化。定制型接口的弊端是需要相关系统的原厂家修改接口代码实现,这样往往会导致业务的卡顿和故障率 从业务人员视角出发定义数字员工产品 以人为本,聚焦流程,梳理企业业务流程运转中的人、文、数等要素。挖掘人际互动中的隐性知识,将流程经验智慧显性化,助力业务流程数字化,激发组织效能,点燃创新活力 助力企业构建数字员工实现流程数字化转型 融合RPA、AI、LLM等技术,打造新一代的生成式数字员工平台。基于大模型和企业数据知识资产,支持以轻量化方式构建各类数字员工,提高企业生产力和创新力 星火数字员工平台概览 低代码拖拽,实现与系统、文档、数据等流程过程信息交互 二、大模型:破局与升维之钥 数字员工价值被认可但挑战依然存在 大模型技术火爆为问题带来希望 Next Token Prediction:增强上下文感知,为开发能够全面理解和交互的AGI提供了重要的技术和理论基础 Scaling Laws:模型能力随参数规模指数级增长(规模效应) 《NNCP v2: Lossless Data Compression withTransformer》Fabrice Bellard Feb 6, 2021 随着Loss的下降,一些下游任务的性能可能会出现突变,出现涌现现象,即模型智慧涌现,这种现象无法通过尺度定律进行准确预测。这项经验,刷新了人们对模型涌现能力的认知。 OpenAI研究员Jack Rae在斯坦福研讨会上通过其演讲“Compression forAGI”强调大语言模型的本质,其实是一个性能强大的数据无损压缩器,LLM= Compression Scaling Laws量化了模型性能与训练数据规模、模型架构等设计要素之间的关系,为模型开发、资源分配和选择合适的训练数据提供了宝贵的指导。 压缩理论从数学上证明了大语言模型的目的,并不是尝试“拟合”训练集,而是无损地找到训练集所代表的本质规律(概率分布),从而可以生成出哪怕在训练集之外的内容。 周边延展思考:语言符号信息学 语言符号信息学: 结合了语言学、信息理论、计算机科学等多个学科的理论和方法,以探索语言作为信息传递系统的功能和效率 如何将语言的抽象概念转换为可以由计算机系统处理的符号,以及如何从这些符号中恢复原始的语言信息 使用信息论的概念,如熵(entropy)和互信息(mutual information),来量化语言单位中携带的信息量 香农在1948年定义了信息熵概念,并于1950年通过预测实验研究英语的熵和冗余度,利用语言统计知识,为信息度量和传输提供理论支持。 信息熵:H(X) = -Σ p(x)*log2(p(x)),其中p(x)是事件x发生的概率。 信息论创始人,克劳德·艾尔伍德·香农(ClaudeElwood Shannon,1916年4月30日-2001年2月26日) 周边延展思考:知识表征与心智意识 知识表征: 知识表征是智能体用于代理或替代世界事物的方式,允许通过符号操作而非实际行动来进行思考。 它包括一套本体论承诺,定义智能体如何用术语思考世界。 知识表征形成了关于智能推理的理论,包括推理的基本看法、允许的推理集和推荐的推理集。 语言乃是世界的一个“图像”,语言表征是对世界的一种“代理”它也是人类用以思考世界的表达式中介。 从认知心理学、脑科学、哲学等角度,再看“语言”、“知识”、“心智”、“意识”:维特根斯坦在《逻辑哲学论》中提出,语言是世界的“图像”(语言图像论),是实在的一个模型,这与知识表征中的代理概念相呼应。 认知心理学将知识视为心智中储存的信息,这些信息指导我们的行为和决策。脑科学研究如何通过神经网络存储和检索信息,揭示了记忆形成和知识构建的生物学基础。 心智是指个体的思维、感知、记忆和决策能力的总和。认知心理学通过研究这些过程来理解心智的工作机制。脑科学探索心智活动的生物基础,研究大脑如何处理和响应外部信息。哲学则考虑心智的本质和存在方式,探讨心智与身体的关系以及心智如何影响我们对世界的认识。 在认知心理学中,意识通常被视为个体对自己思想、感受、环境和存在的主观感知和自我意识。脑科学试图解释意识如何在大脑中产生,研究涉及识别与意识活动相关联的特定脑区和神经网络。 以上观点共同构成了对语言、知识、心智和意识的多维视角,揭示了它们在人类认知和社会互动中的复杂作用和基本角色。 周边延展思考:贝叶斯理论与认知心理学 贝叶斯理论与认知心理学: 认知心理学研究人类的感知、记忆、思考和语言等认知过程。它是通过使用心理测量、行为观察和神经成像等方法来分析认知活动。关注如何从感官输入到信息处理再到行为输出的整个过程。 人类认识研究自然、开展社会实践,包括现在的人工智能都遵循着,做出假设、收集数据、判断决策、观察结果、修正假设的周而复始的类似过程。贝叶斯理论通过先验概率和似然性来解释人类如何基于经验进行感知和推理。它描述了人们如何利用先验知识和观察到的证据来形成对世界的认知和判断。 先验概率:旧的认知prior 大模型技术创新,升维数字员工核心能力 1.柏拉图表征假说:语言作为思想与世界的桥梁 2.多模态统一建模:打破数字员工感官藩篱 大模型学习的高维语义空间,与柏拉图所说的"理式世界"高度类似大模型将词语映射到丰富的语义表征,实现了语言符号到真实世界的关联数字员工借助大模型构建的语义表征,获得了深度语言理解与认知推理能力,可以更好地理解用户需求,提供智能服务 传统数字员工难以处理非结构化数据如图像、语音等,导致感知能力受限大模型支持文本、图像、语音等多模态数据的统一建模跨模态对比学习等技术,实现不同模态信息的融合与映射多模态大模型赋予数字员工更全面的感知能力,拓展其应用边界,实现更自然的人机交互 大模型技术创新,升维数字员工核心能力 4.持续学习:让数字员工像人一样不断进化 3.知识增强学习:为数字员工注入专家级认知 传统数字员工难以适应数据分布变化,面对新场景、新任务时需要重新训练大模型具备持续学习能力,可以在部署后持续吸收新数据,优化和扩充自身能力持续学习范式下,数字员工可以不断积累经验,日渐精进,适应环境变化元学习、少样本学习等新范式,进一步提升了数字员工持续学习、快速适应的能力,使之更加智能化、人性化 传统数字员工难以有效利用领域知识,面对复杂专业问题时常常束手无策大模型在海量文本数据上预训练,习得了广泛的世界知识将大模型与行业知识库、知识图谱相融合,可以为数字员工装载行业专家知识知识增强的数字员工能够开展专业领域的分析、推理与决策,提供更加精准、智能的服务 三、大模型赋能数字员工创新实践 大模型赋能促进数字员工跃迁 将大模型深度融入现有产品,对现有架构重新设计 大模型赋予数字员工智能大脑 从实际业务使用角度出发开始构思核心功能 业务员描述需求业务流自动生成核心能力提炼—流程助手 智能数据问答功能对话式获取分析结果 借鉴AI Agents打造全新一代数字员工 谷歌WebGUM:基于多模态的浏览器Agent 具有200多个日常工具,同时支持自定义python代码生成,并可供拓展插件智能体;港大团队OpenAgents:可扩展Agent平台 微软UFO:专为Windows定制 WebGUM同时观察网页截图和HTML页面,并输出网页漫游动作,如点击和输入。通过在大量演示数据上联合微调语言模型和视觉Transformer,实现了WebGUM的训练。 UFO(UI-Focused Agent)是一个以ui为中心的双代理框架,通过在单个或跨多个应用程序中无缝导航和操作来满足Windows操作系统上的用户请求。 对业内大模型能力进行充分验证 业内大模型能力场景验证测试结果 星火数字员工平台新一代架构 某银行客户案例演示:企查查征信查询 核心思路: 低维的操作、逻辑判断等聚合成RPA机器人或流程片段,抽象成高维可调用的能力或应用,更利于收敛 大模型负责对业务需求、数据内容进行理解、分析,输出智能化的处理逻辑,驱动机器人去执行 常规部分由AI Agent自动执行,关键决策节点或信息由人类介入,提供判断和把控,实现人机协同 数字员工技术助力会议全流程数智化升级 星火大模型和会议场景深度结合,涌现新思路、新方案,赋能会议会前、会中、会后全流程,助力会议数智化升级,同时通过统计和分析会议数据,辅助领导层管理决策。 赋能数字员工跃迁我们正在进行 将大模型深度融入现有产品,对现有架构重新设计,我们在路上 四、数字员工价值探索与未来图景 以流程规划中心为内核激活数字员工基因 构建企业可持续进化的企业大脑 数字员工形象持续丰富 个性化声音(打造城市名片) 可复刻真人声音提供百种不同类型音库资源MOS分达到4.5 多种语言表达支持中、英、日、韩、泰、越等17国语言支持藏语、维语、彝语3种民族语言支持广东话、四川话、山东话等11种方言 AI智能互动问答“面对面”实时智能交互提供场景智能回答支持自定义问答知识库 表情生动自然 AI人格–赋予数字员工以“灵魂” 通 过 模 拟海 马 体等 脑 功 能 机制 , 赋 予A I代 理 诸 如短 期 记忆 、 长 期 记 忆 、 遗 忘 和 条 件反 射 等 能 力 通 过 模 拟杏 仁 核与额 叶机制 , 赋 予A I代 理性 格 、 情绪 、 情 感 、 语 气 和 语 调 等 特 通 过 大 模 型算 法 迭 代与推理, 赋 予A I代 理任 务 处 理 、决 策 、 判 断 和 响 应 能 力 通 过 模 拟 人 类大 脑 功 能与 大 型 语 言 模 型 相 结 合 , 虚 拟 数 字 人 被 赋 予 了 类 似 于 人 类 的 人 格 反 应 , 包 括 :长 期 稳 定 的 记 忆 力 、多 样 化 的 个 性 、 丰 富 的 情 感和拟 真 的 语 气 最后:有机械者必有机事,有机事者必有哲心! 机器不再像过去一样是冰冷的器具 数字员工不仅可以完成需求,还能理解人类情感需求 《庄子》天地篇:有机械者必有机事,有机事者必有机心