内容。 介绍3 背景信息4 ⾏业趋势5技术趋势5 商业趋势5 数据管理演变6 目标商业目标9 北极星愿景11 数据统⼀与联邦12 数据 启⽤ 和 准备 AI12数据 集成 和 数据 管道 效率13数据 安全15数据 产品 和 价值15 参考架构16 标准化活动16 结论17 作者18 介绍 在接下来的⼗年中,电信领域将通过解锁和利⽤数据的全部潜⼒,在空前的规模、速度和智能上得到塑造。作为⼀个值得信赖的合作伙伴,我们观察到,在电信⾏业中,庞⼤的Hadoop架构和本地平台如何随着数据量的扩⼤和新⽤例的出现⽽快速变得脆弱。 除了数据量的扩⼤,跨领域、平台和模式的数据碎⽚化也是不可避免的结果。独⽴⽹络领域元素、服务保证引擎、客⼾体验代理以及其他类似系统产⽣了特定于领域的孤岛,这可能会延迟通信服务提供商(CSP)所寻求实现的⾼度多代理操作。 在数据管理层中,挑战在于管理来⾃不同来源的⾼容量数据流的集成,安全完整地治理数据的移动和转化,并使这些数据处于⼀种为多种消费者准备好的状态,特别是那些将应⽤各种⼈⼯智能(AI)技术的⼈。 因此,需要对CSP数据管理架构进⾏战略性增强——⼀种从设计上就能原⽣预测领域碎⽚化的架构,强制⽆缝和安全的数据交换,并确保从第⼀天开始就为多代理系统做好准备。 本⽂件捕捉了思想领导⼒和⼀个真正未来-proof的数据管理参考架构,该架构具有弹性缩放、⽀持⽆缝数据集成、可以以混合⽅式部署,并专为AI原⽣智能和⾃主⽹络及操作⽽设计。 背景概况 本章捕捉了各种⾏业、技术和商业趋势,这些趋势正在影响企业内部数据管理层的性质和期望。 ⾏业趋势 随着⽹络的不断增⻓,数据量的增⻓继续超过预测。电信运营商已有数据管理架构,但成本较⾼,因为⼤型数据集通常在不必要的数据传输和存储中操作。 电信⾏业当前不断增⻓的数据需求带来了两个问题。管理⼤量数据将继续是重要且不可避免的,但这是⼀个众所周知的⼯程问题。然⽽,⼀个不常⻅的问题是从多样化的来源策划数据的能⼒,以确保其⾼效和适当的使⽤。 技术趋势 在技术趋势⽅⾯,最明显的推动⼒是⼈⼯智能的使⽤增加,包括代理⼈⼯智能、机器⼈技术和与⼈⼯智能相关的⾃动化。⼈⼯智能的使⽤要求更⾼的数据质量和数量,这意味着更好的数据治理、集成的数据集以及关系的表达。⼈⼯智能还进⼀步推动了使数据更易于访问的需求,这是建⽴数据架构的重要驱动因素,使得通过集成⽬录和其他联合服务实现统⼀的数据访问⽅法成为可能。 商业趋势 ⼤量企业正在⼤⼒投资于⾃动化和⾃主⽹络。到2026年底,约80%的企业将加速其⾃动化努⼒,以精简运营并最⼤化收⼊,绝⼤多数企业将专注于利⽤⼈⼯智能在这些领域取得实质性进展 这将更加重视数据及其时效性、可⽤性和在⼈⼯智能流程中使⽤的准备情况。如前所述,数据的可⽤性和准备情况在数据管理领域⾄关重要,这在许多其他相关的数据管理⽅⾯也要求⾼标准 数据管理演变 数据管理系统负责处理来⾃各种来源的数据 ⼀旦获取,这些系统就需要负责对数据进⾏编⽬,应⽤去标识化和⺠主化原则,并将原始数据集精炼为可处理和可靠的数据集。这使得数据准备好供各类消费者在⼴泛的应⽤场景中使⽤ 现代数据管理系统与常⻅的数据湖提供⽆缝集成,具有利⽤数据湖作为⻓期存储和分析平台的上坡和下坡功能。此外,这些系统正在从单体架构转向分布式联合系统,在这些系统中,计算资源可以更靠近数据。这种⽅法利⽤数据联合确保数据始终可供消费者使⽤ 这些系统必须覆盖多种⽤例,以安全地管理数据并有效治理确保数据以⾼效和通过通⽤接⼝进⾏处理和暴露的能⼒ ⼀些现代数据管理系统的关键特性如下: •数据⽬录管理•数据质量报告•数据⾎缘报告•数据 市场 ⽤于 数据 产品•数据安全和审计⽇志•数据 摄取 框架•数据与数据湖屋的集成•数据 联合•数据 分类, 验证 和 转换•知识 图谱 和 数据 的 情境化 数据管理系统遵循⼀些核⼼原则: •数据管理架构采⽤联邦⽅法:数据接⼊架构可以轻松上下扩展,⽀持批量和流数据,并且对不同的数据类型、来源或变化的消费者场景具有灵活性。 •数据只收集⼀次,允许多个消费者:联邦系统具有⼀个数据接⼊架构,只收集数据集⼀次,然后可以为具有授权访问的消费者提供。 •洞⻅被共享:产⽣洞⻅的应⽤程序可以发布洞⻅,以便其他应⽤程序也能从中受益。 •数据以透明、合规和道德的⽅式使⽤,考虑到最终⽤⼾的价值:数据被⺠主化,这意味着它可供相关消费者使⽤,⽽不妨碍适⽤的安全政策和法规,这是数据处理者、客⼾、员⼯和合作伙伴之间达成的共识 数据岛可以被视为数据的所谓着陆区域,数据在这⾥到达、被处理并暴露⽤于近实时的使⽤案例。数据还需要为⻓期使⽤案例存储,例如趋势分析和历史报告。为此,数据岛必须与数据湖屋集成 ⽬标业务⽬标 本章节涵盖了与数据架构现代化相关的挑战,以满⾜在IT、⽹络和运营中的⾃主⽹络5级⾃主状态的需求 随着⽹络朝着完全的5级⾃主性发展,其中⾃主AI系统以最⼩或可能没有⼈类提⽰的⽅式进⾏感知、推理和端到端⾏动,数据管理未来状态架构必须从批量导向存储转变为实时、丰富上下⽂的AI原⽣结构。以下是与集成⽣成AI和⾃主AI相关的关键挑战的简明、结构化视图 挑战 数据碎⽚化和联邦化: •异构领域孤岛和多供应商需求,例如RAN、核⼼、边缘、基础设施运营⽀持系统/业务⽀持系统(OSS/BSS)数据领域,阻碍了⽆缝的数据统⼀ •复杂 联盟 协议 和 隐私 边界 慢 实时 数据 摄取•系统 集成商 (SI) 推动 脆弱 数据 管理 ⽽不是 ⼯业化 和 灵活 的数据 管理 实时, 低延迟 处理: •扩展 流媒体 管道 以 处理 数百万 个 遥测 事件 每 秒•通过 动态 策划 推理 时刻的 上下⽂ 来 避免 所谓的 令牌 过载 在 ⼤型 语⾔ 模型 (LLM) 调⽤中 上下⽂ 管理 和 相关性: •通过仅向代理提供它们所需的精确简报包来平衡宽度与深度 •防⽌⾃我推理循环中的幻觉和陈旧数据漂移 治理、合规和安全: •将⾃动化政策检查、个⼈⾝份信息编辑和伦理约束嵌⼊每个管道阶段. •确保每个代理⾏为的可审计决策轨迹,跨多个数据共享⽅. 可观察性和代理操作复杂性: •对数百个协作代理进⾏遥测、⽇志和反馈信号的监测. •在实时中检测和恢复代理失败或对抗性输⼊的模块集成和⽣命周期管理: •协调⼤型语⾔模型(LLMs),⼩型语⾔模型(SLMs)和特殊神经模型,跨不同数据格式和服务⽔平协议(SLAs)进⾏合作。•⾃动化再培训、漂移检测和为不断变化的⽹络条件设定⽬标的数据⽹格和产品化: •利⽤语义⽬录和知识图谱,为智能代理提供上下⽂搜索⽀持。 北极星愿景 数据管理的北极星愿景是开发⼀个演变的和AI准备好的数据管理套件,包含安全的组件,基于基本的数据管理原则构建。它也⽀持数据统⼀、联合数据服务,以及与数据源的可扩展⽆缝集成. 所有数据都是以均匀的⽅式消耗的,⽆论来源如何,利⽤复合的、良好治理的和⾼效的数据管道为AI准备好的数据提供⽀持,⽀持语义建模。这⼀愿景特别强调了以下图⽰中显⽰的不同元素. 灰⾊列表⽰数据的⾃然流动。叠加其上的则是数据管理⽅⾯,⽤蓝⾊标出,显⽰出在每个数据管理列中交叉和固有的元素。这些组件应被视为实现北极星愿景的基础。 数据统⼀与联合 联合系统在适当扩展以应对不断增加的数据量时解决了许多问题。将计算资源部署到离数据更近的地⽅可以优化处理时间,并提供⼀种有效的⽅式来更好地利⽤较⼩站点的计算资源。对于联合系统,确保⼀个全⾯且⾼效的数据分发框架,使得数据在任何需要时都能获取是⾄关重要的。 这些系统还需要⼀个共同框架来⽀持健壮且⽆缝集成的数据孤岛的创建与互通。这些孤岛可能由共同的数据处理资产和差异化资产组成。此外,它们实施⼀个⽤于数据管理和共享的共同规范。将数据孤岛结合成⼀个⽹格是⼀种现代化模式,⽤于远程和分布式数据管理系统。 数据联合可以分解为五个主要⽅⾯: 1.⼀个统⼀的数据⽬录体验,允许消费者发现参与数据⽹格的所有系统中可⽤的所有数据。 2.⼀种跨岛屿的管道编排,允许消费者请求来⾃远程系统的数据收集或数据⽣产与暴露。 3⼀个安全的远程数据访问,其中消费者经过验证以确保信任,系统配置为仅显⽰必要的数据元素 4智能数据移动,以优化延迟和⽹络流量,当多个消费者需要访问远程数据时 5数据治理原则需要在本地孤岛和全球⽹格层⾯实现 为AI提供数据准备 在⾃主AI和数字双胞胎⽣态系统中,⾃主的智能代理进⾏推理、⾏动,并从输⼊中持续学习,数据的使能和AI就绪不仅成为分析的前奏,还成为⼀种战略能⼒。AI应⽤需要可靠和及时地访问可信的数据,以⽀持接近实时的决策制定、学习循环和安全的⾃治,这⼀切都通过⾼效、可扩展的AI就绪数据管道提供 当组织加速采⽤AI就绪数据时,需要语义和上下⽂上使能和管理这些输⼊变得极为重要。在⾃主AI中,数据被⾃主消费和作⽤,特征⼯程和特征存储必须超越战术的AI或机器学习(ML)⼯具,演变为语义丰富的组件,与语义模型、本体和知识图紧密集成。这将使AI代理能够与数据互动、推理、解释和执⾏ 当特征⼯程被引⼊数据管道时,它消耗遥测信号,预处理这些信号,并创建特征,然后将这些特征放置在特征存储中,使其可以⽤于AI模型训练和推理。语义⼀致性对于确保代理在上下⽂中解释数据⾄关重要,防⽌他们做出错误的假设、进⾏错误推理或执⾏错误操作。语义感知的特征⼯程,通过利⽤具有领域知识图的本体驱动架构和语义层,为所有数据领域创建上下⽂感知特征,使其在某⼀领域本体或知识图中具备上下⽂意义 采⽤AI驱动的⾃动化来实现数据赋能和为AI的准备,允许⾃适应的数据准备循环。随着AI模型的演变和智能体的学习,数据准备也必须演变,解决新的、相关特征的⾃动发现和与机器学习操作(MLOps)平台的集成,以触发重新训练以实现持续改进。这确保了数据和智能体AI智能的共同演进。 数据集成和数据管道效率 数据集成 在今天的电信⽣态系统中,数据来⾃碎⽚化的来源,⽆论是传统系统、边缘设备、云原⽣服务、物联⽹(IoT)传感器,还是合作伙伴API。传统的僵化集成模型⽆法容纳AI驱动的实时和语义丰富的应⽤。明天的集成必须是智能的、⾃适应的和⾃主的,超越数据管道,以协调跨完整电信堆栈的多源、多格式、多速率流。 南北集成,重新构想:现代架构将北向系统,如AI/ML、分析和数字应⽤,和南向系统,如⽹络、OSS/BSS和边缘,视为在持续学习的⽣态系统中不断演进的智能实体。 能够⾃适应于模式、元数据变化和上下⽂变化的语义感知连接器将是必不可少的。 AI增强的可组合管道:集成必须变得动态,由AI代理根据数据需求和上下⽂组成。使⽤声明式元数据和策略,作为代码的集成使新领域、集成模式和外部数据产品的快速上⼿成为可能,且⼿动⼯作量最⼩。例如,⼀个上下⽂感知的AI代理可以发现⼀个5G⽹络事件流,推断其在预测性维护⽤例中的相关性,并以最⼩的⼈为⼲预⾃动集成该流。 语义互操作性:未来数据集成框架嵌⼊语义智能,利⽤本体和知识图谱确保数据在语法上连接,并在语境上对⻬。这使得跨领域的推理能够在 RAN、核⼼、OSS/BSS 和客⼾体验系统中进⾏。语义中介引擎将把来⾃不同领域的数据映射到统⼀的知识模型中,使 AI 模型能够以清晰的⽅式解释和⾏动,即使在动态环境中也是如此 ⾃主集成服务:AI 原⽣集成框架配备了 ⾃愈、⾃优化的能⼒,观察集成管道的遥测以执⾏以下操作: •⾃动重试或重新路由失败的数据流•触发模式协调⼯作流•优化数据流路径以降低延迟或成本•通过元数据收集和使⽤分析⾃动发现新来源边缘到云的集成:数据集成应⽀持边缘和云环境 。这允许从边缘设备快速⽽有效地共享数据,同时确保数据在中央分析中保持⼀致 。使⽤分布式微服务和流式架构,数据可以在⽣成地点附近进⾏处理和清理,然后将数据的有⽤部分发送到云系统。这个设置还允许边缘的⼈⼯智能与本地数据⼀起⼯作,同时仍然为更⼤、更连接的智能系统做出贡献