AI智能总结
融合计划第二部分:技术报告 探索人工智能在范围3会计和转型金融中的应用 2025年10月 内容 概述 3 数据转换5人工智能在数据转换中7供应链数据采集8供应链数据收集中的AI9API 和集成10 生成器服务13人工智能数据分类15建模引擎17LCA数据库21影响类别灵活性22 23 25 概述25NEMO26功能和功能27减法分析器28发生器30匹配器36投资匹配38NEMO LLM 评估和结果39评估方法39评估结果——生成器45评估结果——匹配器52 缩写、首字母缩略词和定义 55 概述 正如第一部分所述,项目共生体的首要目标是探索如何利用先进数据技术和人工智能(AI)来更准确地收集、解读和计算企业供应链中的范围3排放及其他影响数据。为此,该项目执行了应用 探讨和解释可能用到的人工智能技术技术研究用于实现这一点。项目共生(Project Symbiosis)的第二个目标是探索识别减少此类范围三排放的机会的方法。第三个目标是设计一个“匹配引擎”,以匹配供应商与资金来源,以脱碳供应链(称为可融资的减排机会)。为了实现这些目标,该项目开发了一个名为概念验证(POC)的验证原型。.新排放优化器或NEMO12 综合起来提供蓝图应用技术研究与NEMO寻求解决针对:一些挑战 ̵减少涉及的摩擦和费力为了计算一个数据收集企业碳足迹(CCF)。持续的高摩擦水平导致碳足迹准确性降低,并减少了脱碳措施的重视程度。 提高排放精度通过利用更细粒度的计算排放因子的集合和使用建模技术,选择与一系列缺失数据点一致的针对性代理选择制度。报告 帮助用户识别和理解of有影响力的还原能脱碳措施,具有预测和将预计排放与目标对齐的能力。 一、数据收集 数据收集由于供应链碎片化和数据不一致,是碳核算中最具挑战性的方面之一。因此,在协同项目(Project Symbiosis)中,我们探索了简化数据收集、自动化不同数据格式的转换、支持供应商参与以及用逻辑假设填补数据空白的解决方案。尽管新兴的人工智能技术在进一步自动化流程方面显示出潜力,但到目前为止其效果不佳,需要进一步的研究和发展。 涵盖了用于帮助用户收集的一组功能数据收集计算一个CCF需要大量的数据。鉴于计算的准确性among the data collected, reducing the与质量直接相关 收集的当涉及到 时,一直是一个焦点。摩擦力高质量数据材料, 功能开发。 数据收集被用户频繁指出是碳核算过程中的最痛苦的部分,原因有几点: • 所需数据的广度和多样性意味着需要与广泛的利益相关者进行沟通,其中绝大多数人对碳计算所需的数据了解有限。 • 由于缺乏全局性的、已建立的数据战略及其治理支持,数据往往被孤立、不一致且不完整。 • 供应链数据的获取非常有限。供应链的庞大规模和复杂性质使得通过传统方式进行个体沟通变得困难。 为解决这些问题,探索了与若干关键要求相关的功能。这些功能能够: • 顾客可上传任何格式的数据,以减少与手动操作相关的摩擦。 • 将不同质量和格式的数据转换为可用于计算的可用数据。 • 扩大用户覆盖范围,从其供应链中为数据收集提供支持。 由于它们对供应链排放的相对重要性,探索了专注于产品和物流数据集的功能: A. 数据转换 有效利用客户数据集进行排放计算需要确保数据经过标准化并映射到计算所需的数据格式。在一个所有客户数据都遵循统一格式且所有第三方系统都以相同方式导出数据的世界上,数据转换将是一个低成本的、一次性的任务。然而,情况并非如此。假设所有客户数据都具有相同质量是不合理的,尽管为了碳核算目的而始终如一地导出数据的第三方系统在未来可能会成为常态。 归一化– 清洗和结构调整数据,使其遵循一致格式。这包括标准化计量单位(例如将重量从磅转换为公斤),解决不一致性问题(例如相同材料的拼写不同)并确保数据字段完整。规范化至关重要,因为不一致或不完整的数据会导致计算错误。 映射—将客户的数据库字段与排放计算所需的格式进行对齐。由于客户可能以不同格式提供数据——使用不同的列名、分类或详细程度——因此需要将数据转换为与计算框架匹配的标准化结构。这确保了在排放模型中使用正确的输入,从而获得可靠的结果。 产品及物流数据集中常见的质量问题和格式问题可见表2.2。 为了使客户能够上传这些不同的格式,而不是要求他们a在用户界面中手动填充模板或表单,数据已被提出.转换流水线(图2.2) The是一个基于对象的云存储解决方案,允许客户文件管理器上传数据(例如产品物料清单)于多种支持的格式;CSV、XLSX和JSON。用户可以通过用 户界面上传这些文件。例如,它所属的温室气体协议类别提供上下文到以及数据的简要描述。在用户有大型文件(>500 MB)或希望上传大量文件的情况下,可以通过 一旦文件上传完毕,用户将使用SFTP进行文件传输。主要职责已完成,也就是说他们不必亲自执行任何数据转换。 文件随后被加载到基于云的SQL数据库中,在那里数据可供分析和后续转换。转换是一个使数据工程师能够和服务高效编写存储基于脚本的转换器以将数据转换为预期的计算格式。应用程序具有许多功能,包括自动化数据验证并且能够在transformers之间,校验重用自定义函数优化了数据工程师实现transformer所需的时间。完成后,转换后的数据将被发送到众多中的一个。, 其中生成器服务计算处理开始。 人工智能在数据转换中 数据转换是一项非常手动的工作,之前为何没有被自动化? 近年来人工智能的发展为自动化开辟了真正的机遇,但由于本报告中描述的特定数据质量问题复杂,所需的准确性和性能水平尚未达到。鉴于准确的输入数据对排放计算至关重要,准确性和性能的要求必须很高。 探索功能– 一个用于自动化文件分析并生成数据工程师可执行的映射数据的 AI 代理。该代理可以触发一组工具(例如手动预定义的 Python 函数调用),使其能够分析数据并提出转换映射。认识到文件中可能存在的多样性数据,该代理尤其专注于分析数据,而不仅限于简单的列匹配,以识别通常驱动转换工作异常或边缘情况。 测试方法—自动生成的映射与手动生成的映射的比较,使用以下关键指标: • 准确率——正确映射到目标数据模式的客户字段的百分比;以及 • 完整率——映射的客户字段占目标数据模式字段总数的百分比。 定性性能– 到目前为止,此功能的性能不佳,这反映了由于许多客户出口的多样性和特定于上下文的性质所带来的挑战的复杂性。尽管在数据收集过程中会收集上下文,但目前看来似乎不足以让代理能够像人类一样进行推断和推理。 性能也受到标记数据集有限可用性的影响,即手动生成的映射,由于用例的特殊性,与可以公开获得大型标记数据集的常见用例相比。这阻碍了微调目前成为一种可行的性能改进方法。 outlook– 在适用的带标签数据集未可用的情况下,性能提升将取决于底层LLM的性能提升、核心提示结构的更改(提示工程)以及使用检索增强生成(RAG)来使用先前的映射丰富提示以提供附加上下文。 B. 供应链数据收集 数据转换解决用户花费大量时间导入模板和表单。然而,它确实手动收集和输入数据不处理与用户相关的问题从一开始就没有数据。 为解决这个问题被探索了一种供应链数据收集方法通过该平台,中小企业用户将能够为其设施提供能源和资源消耗数据,并对其供应商的追溯 性进行管理,从而实现供应商地图的持续构建。最终,这将允许将一个供应商层级映射回企业用户希望计算其碳足迹的产品。 所开发的解决方案可以包括许多功能,以最大化收集的数据的准确性和有效性,包括: • 强类型验证(即严格的求数据类型要求)以最小化数据质量问题; • 定制数据收集节奏,提供自动提醒和警报; • 与电子邮件和其他数据格式集成,以满足多样化的供应链需求; • 收集和分析交易证书;以及 • 基于必要的上下文的动态语言翻译。 对于用户已具备供应链原始数据访问权限的情况,概念解决方案将允许将供应链数据上传至文件管理器,在那里进行转换并可用于计算。此用户流程也可在混合场景中发挥作用,即用户拥有部分供应链原始数据并希望使用这些数据通过供应链界面触发持续的数据收集。 供应链数据收集中的AI 解决方案特性—使用 GPT-4o 解析和存储与交易证书相关的数据,交易证书是证明交易中产品符合标准的文件,例如全球有机纺织品标准。具有此功能后,一旦供应商通过供应链界面上传 PDF 文件,该 PDF 文件将被解析,提取并结构化的数据将被发送到目标 API。用户和供应商都可以通过界面以结构化的方式查看数据,从而减少分析和审计所花费的时间。 测试方法— 将自动解析的证书与手动解析的证书进行比较,使用以下关键指标: • 准确率——正确解析的客户字段占目标数据模式的百分比;以及 • 完整性——解析的客户字段占证书中客户字段总数的百分比。 定性性能– 尽管其性质与之前提到的数据转换人工智能代理相似,但由于交易证书格式的标准化和可控性,这里的性能要好得多。一个预期且一致的格式,以及数据变异性有限,足以达到准确性和完整性水平,可以将其用于实际生产环境。 尽管当前应用程序比较专业,但它确实突出了扩展的潜力,以应对那些以一致方式表达主要数据的PDF文件的转换,例如采购订单或公用事业账单。 outlook——对于当前应用,性能预计仅会随着底层大型语言模型(LLM)的通用性能提升而小幅度改善。扩展到PDF中包含的其他数据集可能需要通过调整提示或使用LLM可用的后处理工具进行模式驱动提取。 C. 接口和集成 当涉及到数据收集时,数据转换在减少用户工作量方面很有效,但它更适合批量处理而不是实时收集。尽管实时收集和处理目前对用户来说是一个较低优先级,但随着脱碳路线图的加速实施,需要实时反馈 一种概念解决方案被探索,它将依赖于一个数字循环会增加。of向第三方解决方案。这是接口和开箱即用集成考虑到这种需求日益增长,以及这些技术所带来的普遍努力减少。 首先,公共表征状态转移应用程序编程接口(REST API)可以启用用户集成他们的任何包含与产品、物流和设施相关的数据集的软件应用程序,因此不受企业用户使用的软件应用的广度影响。约束的一旦用户集成了API,a实时收集和计算管道已建立,允许用户查看产品或活动的排放影响关于它发生的。为确保适当的数据几分钟内质量,API采用严格验证,以防止严重的质量问题。 对于中小企业,通过获取降低分析以及过渡融资(如后文第二部分所述),参与将得到激励,从而促进其在日益碳规管的环境中获得更强的竞争力。 一个REST API是一种让不同软件系统通过互联网进行通信的方式。它允许应用程序以结构化的方式发送和接收数据,例如使公司能够以自动化方式将企业资源规划(ERP)系统中的产品数据发送到项目协同平台。 其次,通过整合开箱即用的集成可以进一步实现收集,这些集成解决与API解决的问题类似的用户问题,尽管没有灵活性。这些集成存在于供应链中常用的技术中,包括数据仓库、电子商务平台和ERP平台。 虽然集成可以供任何类型的用户使用,但它们最常被资源有限(用于收集数据)且数据集较少的小型企业使用,从而增加了包含在这些系统之一中的数据的百分比。 II.影响计算 项目共生探索了将现实世界数据转化为可靠排放估算的解决方案,即使输入不完整或不一致也是如此。其核心是探索的建模引擎方法,该方法使用图数据库和概率推理来识别上下文关系,智能地填充数据空白,并在各种场景中保持计算准确性,即使输入不完整。 本节涵盖了对负责使用收集的数据进行计算的特性的探索用户的产品和环境影响商务活动。虽然探索的数据收集功能旨在帮助用户最大化可以收集的材料数据的质量,但现实是数据点总会缺失。因此,需要一个能够灵活地到有必要。cater数据质量混合 explored计算流程方法的关键组成部分是: ̵—负责部分计算的一些软件服务生成器服务业务逻辑、与分类器或第三方服务等支持应用程序集成以及生成建模引擎查询。 ̵– 基于人工