行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

Implementing Industrial Data Standardization through Generative AI

信息技术 2025-03-07 SymphonyAI 王英杰

统一数据模型：应用生成式AI进行数据统一

核心观点：工业运营产生的海量传感器和操作数据因命名不一致、格式不统一等问题难以整合，导致分析价值无法发挥。生成式AI，特别是支持小型语言模型（SLM）的方法，能够显著提升数据统一效率，降低成本和时间，实现规模化业务价值。

问题概述：中游石油和天然气行业数据生态系统复杂，来自SCADA系统、企业历史记录和操作日志的数据因结构、命名和格式不匹配而分散存储。麦肯锡报告指出，60%的数据集成项目因缺乏统一策略和执行而失败。数据碎片化导致专家时间和资金浪费，影响业务价值实现。

关键数据：

80%的工业数据因命名不一致而未得到分析。
麦肯锡预测，利用先进AI进行数据集成每年可为全球经济贡献1万亿美元价值。
麦肯锡研究显示，统一数据可提升中游石油和天然气行业运营效率30%。
世界经济论坛指出，制造业因数据质量问题每年花费10-30%的收入，平均损失1290万美元。

解决方案：提出基于生成式AI的传感器标签映射框架，包含设计开发、部署和执行三个阶段。重点阐述设计开发阶段，包括五个步骤：

自动化数据摄取和标准化：利用SLM解析和标准化不同格式的传感器标签数据。
语义标签映射：通过本体技术和上下文嵌入将标签对齐到统一结构。
异常检测和纠正：使用AI检测和解决标签冲突，确保数据一致性。
智能标签推荐：基于AI分析生成新的标签建议，优化数据结构。
与知识图谱集成：将标签链接到知识图谱，实现语义互操作性和高级数据分析。

中游石油和天然气案例：通过32个可编程逻辑控制器（PLC）的示例，展示了如何将不同命名规范的流量计、压力传感器、温度传感器等数据统一到统一命名空间。SLM和代理AI能够自动解析、映射和标准化标签，并实时更新知识图谱。

结论：代理AI结合SLM能够有效解决传统数据统一方法的局限性，通过语义分析和自适应学习实现规模化、可持续的数据整合。该方法不仅降低人工成本，还能提升运营效率和决策能力，推动业务增长和可持续发展。

白皮书统一数据模型：应用生成式人工智能数据统一工业内容执行摘要工业运营从各种来源产生大量传感器和运营数据。通过公共命名空间标准化这些数据对于互操作性、高级分析和改进决策过程至关重要。根据行业报告，由于数据命名实践不一致和难以理解，超过80%的工业数据未被分析。麦肯锡公司的研究表明，利用先进人工智能进行数据整合的公司每年可以释放高达1万亿美元的经济价值。这种方法的关键业务成果包括增强运营弹性和改进的决策能力，培育可扩展的商业增长和可持续性。生成式智能体AI，依托于经过微调的小型语言模型（SLM），能够在大规模上改变数据分析与处理。这些模型具有使用最小训练和有限的人类参与创建统一数据模型并达到可接受准确度的潜力。实现大规模的数据分析与处理一直是“传统”基于规则的或其他基于AI的方法的挑战。介绍尽管在数据管理基础设施上投入了大量资金，公司仍面临统一分散数据的重大挑战。分散的数据资产往往导致领域和技术专家浪费大量时间，花费数百万美元却未能实现通过统一的数据实现可扩展的商业价值层。根据麦肯锡最近的一份报告，60%的数据集成项目因缺乏连贯的策略和执行而失败。 60% 根据最近麦肯锡的一份报告，由于缺乏协调一致的战略和执行，数据集成项目中有很大一部分失败了。然而，通过适当比例以及结构化的方法应用人工智能可以有效地应对这些挑战。虽然人工智能不是万能的灵丹妙药，但它能在数据统一的每一阶段带来显著的突破，通过几个数量级减少成本和项目周期。基于生成人工智能的方法在构建统一数据模型所需的时间和努力上显著优于传统基于规则的映射模型。发挥这种潜能需要一套全面的战略和详尽无遗的执行计划。这份白皮书介绍了一种类似的方法，展示了生成式AI如何推动自动化传感器标签映射并创建统一的数据结构。所提供的示例针对中游石油和天然气（O&G）应用场景，但底层方法和流程也适用于具有类似挑战的相邻工业垂直领域。问题陈述概述：中游油气数据生态系统概述中游油气行业涉及复杂的管道网络、众多流量站以及如流量计和压缩机等多样化的数据生成资产。由于数据结构、命名和格式不匹配，来自各种来源的数据，包括SCADA系统、企业历史记录和操作日志，通常因孤岛效应而无法共享。麦肯锡的研究表明，整合这类数据可以提升运营效率通过 30% 高达30%。然而，传统方法通常由于技术限制、数据科学家与领域专家之间有限的合作以及缺乏标准化协议，未能达到预期。克服这些挑战需要采用人工智能驱动的方案以实现更根据麦肯锡的研究，通过统一这些数据可以实现运营效率的提升。有效的数据统一，与传统基于规则的统一方法相比，已被证明以最少的投入和努力提供最佳解决方案。问题陈述详情：数据碎片化典型的工业设施或生态系统包含以下不同类型的数据、数据格式和数据来源（机器生成数据称为“标签”）：这些不同的数据类型在企业运营的各个点收集。然而，数据格式差异、不一致的标签、分散的存储系统以及许多其他数据命名规范和异常往往阻碍了有效的数据统一策略。不一致的数据命名规范可能导致这些设施效率低下和财务损失。《世界经济论坛》指出，制造商在解决数据质量问题上花费10-30%的收入，平均每年因数据质量差导致约1290万美元的损失。 10-30% 其中一部分收入用于解决与数据质量相关的问题麦肯锡公司指出，数据处理和清理可能占用一个分析团队超过一半的时间，这限制了可扩展性并让员工感到沮丧。这些见解突显了制造业中不良数据命名实践所关联的财务和运营风险。建议解决方案：由生成式人工智能驱动的传感器标签映射框架建议的解决方案包括三个关键阶段：设计与开发：涵盖完整的数据统一算法流程，详细情况每个流程中的步骤和具体内容数据统一流程暗示在每个步骤应用的算法，倾向于小型语言模型（SLM），因为其在语言推理上的优越性，能够在广泛的和大型的数据集中携带上下文，以及其减少了对超参数处理的依赖。设计与开发算法数据统一流程部署 • 边缘基础设施• 资产附近/上• 通用层• 分析层部署：覆盖了在哪里部署统一模型（或多个模型）及成本与效益的关键方面。执行：涵盖执行阶段与数据交互的关键方面，以三种重要方式进行：一次性批量加载、考虑增量变化的多次批量加载以及动态连续加载过程。执行批量Δ动态实时虽然所有三个阶段都必须解决，但这份白皮书侧重于将生成式代理人工智能应用于统一过程的设计和开发阶段。设计与开发：算法流程算法流程的范围始于从源系统中获取数据，创建统一的数据模型，并将输入提供给知识图谱。知识图谱是基于神经网络的对运营生态系统的实时数字表征。用户可以与之互动以绘制数据驱动的见解，衡量结果，并执行操作，使图谱能够主动和互动地学习和编码人类知识。本文件不涉及知识图谱的设计或更高级别的AI赋能终端用户功能。算法流程不是一个新的建议，而是重新表述了一个包含五个基本步骤的已证实标准过程。每个步骤内的细节概述了：机会将代理人工智能和SLM应用于替换笨重、劳动密集型、易出错的基于传统规则的途径，并简化复杂的判别式人工智能方法。 1自动数据摄取和规范化：收集、解析和标准化传感器标签数据，考虑到各种格式，确保无缝集成和准确的数据表示。 2语义标签映射：对标签进行统一结构化，运用本体技术、上下文嵌入和特定领域模型进行对齐。动态标签解析 3异常检测与纠正：检测并解决标签冲突，确保数据一致性并减少人工干预。 4标签推荐：资产（或设备）、流程以及人与设备之间的互动产生了大量不同格式的时序数据。这些数据为运营提供了法医足迹。活动和为AI分析提供了极好的机会工具以创建数据驱动的见解。 5集成知识图谱：将链接标签关联到知识图谱，实现语义互操作和高级数据分析。第一步：自动化数据采集与标准化 1数据上下文：将数据摄取并转换为具有公认模式的标准化格式，以准备解析摄取的数据 a. 传统方法：在传统的系统中，数据接入涉及手动ETL（提取、转换、加载）管线。工程师编写脚本来解析数据并根据预定义的词典创建映射规则。模式识别基于规则，需要大量的手动干预。 b. 驱动式人工智能方法：人工智能驱动的摄取自动化标签解析通过使用自然语言处理模型，机器学习算法能识别 schema（模板；规范）的结构。动态适应，无需手动重新编程。标签如“FlowMeter_01”和“FM_Main”会自动解析并标准化。 c. 基于SLM方法的代理人工智能使用SLM通过分析模式并推断标签结构之间的关系（例如，Flow_Rate_Sensor和FRS视为等同）来解析传感器标签。实施具有代理功能的AI以监控传入的数据流、适应实时模式变化并自动生成更新后的标准化规则。 SLM将类似于FlowRate和Flow_R的列头识别为语义相关的，同时有代理智能更新方案来处理新的标记格式，以确保不对持续进程造成中断。标签解析：处理来自SCADA系统的传感器标签企业历史学家和其他来源 a. 传统方法：解析依赖于基于固定规则的静态映射脚本。任何偏离预期格式的都需要手动修正。 b. 驱动式人工智能方法：利用上下文嵌入，AI模型从标签中提取相关组件。如“Compressor_Temperature”和“Comp_Temp”这样的标签通过语义解析被视为等效。 c. 基于SLM方法的代理人工智能轻量化模型用于语义理解和增加一个代理层以实时解决解析歧义。例如，当遇到类似“Cmp_Tmp”的未知标签时，模型查询数据字典或元数据API，通过相似度评分来识别可能的匹配项，并基于置信度阈值自动纠正。代理还可以记录未解决的案例以供未来的训练更新，确保具有最小的人工监管下的动态适应性。模式识别：适应OSIsoft PI或AspenTech IP 21等数据系统所使用的不同架构。架构变体将被自动识别和解决。 a. 传统方法：手动检查和定义数据模型是必需的。工程师为每个数据源创建映射和转换规则。 b. 驱动式人工智能方法：机器学习模型自动识别并适应模式变体。在行业上训练的模型数据集检测来自OSIsoft PI或AspenTech IP 21等系统中的模式定义不一致性。 c. 基于SLM方法的代理人工智能这种方法通过分析元数据中的结构模式，并应用于特定行业的预训练嵌入，来处理模式检测。代理组件持续监控模式异常，根据学习到的规则自动提出映射或转换建议。例如，通过动态生成交叉映射，可以解决来自OSIsoft PI和AspenTech IP 21的数据模型之间的差异问题。与实时数据相对，并通过用户反馈循环精炼。确保架构集成既快速又精确。数据标准化：清理不一致的标签，如“Comp_Temp”并且“CompressorTemperature”，将它们标准化为统一的格式。 a. 传统方法：工程师使用预定义的字典创建标准化脚本。此过程容易出错且需要频繁更新。 b. 驱动式人工智能方法：NLP模型通过理解缩写、噪声和拼写变体来标准化标签。例如，“Compressor _Temperature”和“Cmp_Temp”被统一成统一格式。 c. 基于SLM方法的代理人工智能SLM分析标签不一致性使用预训练嵌入，识别语义在复杂案例中也适用于关系。例如，“Cmp_Temp_Main01”和“Compressor.Te mp.Zone1”之类的标签通过解析结构模式和上下文进行映射。代理型人工智能监控标签流，检测偏差（如“CmprZone_T01”），应用相似度评分，并自动生成标准化规则。它与元数据层级和历史上的映射进行验证，确保实时标准化且需要最少的 manual oversight（注：manual oversight 在此直接保留原文，因为它描述的是一种流程）。步骤2：语义标签映射此过程通过应用上下文理解和基于本体对齐，将标签分配给统一命名空间。 •传统方法：手动本体匹配：数据工程师手动地图传感器标签，如“Flow_Rate”或“Temp_Sensor”等不同供应商的系统到通用数据模式。固定规则和词典：创建预定义词典，例如“Pressure_Sensor”与“Pres_Sens”的术语。静态领域模型：基于已知行业标准（例如API标准）的模型定期手动更新。 •AI驱动方法：本体匹配：AI将来自多个供应商的传感器标签（例如，“FlowRate”、“Flow_R”、“FR_01”）映射到基于学习关系的统一模式。上下文理解：利用历史传感器日志，BERT等NLP模型将“Pressure_Sensor”和“Pres_Sens”识别为同义词。特定领域标签库：在特定领域上训练的定制AI模型，例如：中途作业数据集确保管道映射的准确性资产 •代理式AI与SLM方法：一个SLM通过整合上下文嵌入将标签映射到不同的供应商系统中，而代理人工智能动态地将标签与统一命名空间对齐。例如，在处理像“ZoneA.FlowRate.Pipe01”和“Flow_P01.Zone1”这样的复杂标签时，SLM解析结构层次，推断等价性，并将它们映射到一个共享的本体中。代理人工智能持续监控新的标签（例如，“PipeFlow_Zone_A01”），进行概率评分以实现对齐，并实时更新本体。这确保无缝集成并减少对复杂、领域专用系统第3步：异常检测与纠正此过程包括一系列冲突解决和数据规则分析。 •传统方法：手动冲突解决：工程师在来自不同来源的流量不匹配时比较多个传感器的读数。预定义数据规则，如“运行期间流量>0”，将在定期审计中进行检查。定期审计：每月数据审查将识别缺失或错误的传感器读数。步骤4：智能标签推荐传统方法： • 手动标签创建：工程师根据系统扩展或运营变化手动创建新标签。• 定期审查：安排审计以识别缺失的标签或需要新测量的区域。• 专家咨询：征求领域专家意见以确定合适的标签命名和位置。 AI驱动方法： • 模式识别：机器学习模型通过识别现有标签中的重复模式来建议新的标签。• 预测分析：人工智能分析运营数据，以推

点击免费查看完整报告

你可能感兴趣

Generative AI and Agent Unstructured Data Essential Guide

信息技术Snowflake2025-12-31

Data Science in the New Economy: A new race for talent in the Fourth Industrial Revolution

信息技术世界经济论坛2019-07-02

Monthly Economic Data Preview –Dec 2021/4Q2021：Steady industrial activity but slow momentum in domestic activity;credit cycle stabilizing while CPI inflation eases again on food prices

建银国际证券2022-01-05

Health data secondary use, from legislation to implementation: Building trust through de-identification in the European Health Data Space (EHDS2)

医药生物IQVIA2024-01-15

The rise of generative AI: modelling exposure, substitution and inequality effects on the US labour market

国际清算银行2024-09-02

A generative AI reset: Rewiring to turn potential into value in 2024

信息技术麦肯锡2024-03-20

Implementing Industrial Data Standardization through Generative AI

统一数据模型：应用生成式AI进行数据统一

你可能感兴趣

Generative AI and Agent Unstructured Data Essential Guide

Data Science in the New Economy: A new race for talent in the Fourth Industrial Revolution

Monthly Economic Data Preview –Dec 2021/4Q2021：Steady industrial activity but slow momentum in domestic activity;credit cycle stabilizing while CPI inflation eases again on food prices

Big Data Democratization Through Data Portals

7 Examples of the Incredible Value of Industrial Data

Developing Integrated Timber Data to Enhance Legal Timber Trade of the APEC through Xylaria Networking - Final Report

Maximizing Collaboration Through Secure Data Sharing

Health data secondary use, from legislation to implementation: Building trust through de-identification in the European Health Data Space (EHDS2)

The rise of generative AI: modelling exposure, substitution and inequality effects on the US labour market

A generative AI reset: Rewiring to turn potential into value in 2024