AI智能总结
安东尼·巴格特加布里埃尔·希波什 交通报告 关于我们 TRAFFIC 是一家领先的非政府组织,在全球范围内工作,以确保野生物种的贸易合法且可持续,以利于地球和人类。 本报告出现的材料需经出版商书面许可后方可复制。 该出版物中地理实体的名称以及材料的表现形式,并不意味着TRAFFIC或其支持组织对任何国家、地区或地区的法律地位、其当局或其边界或界限的划定有任何意见表示。 本指南所依据的研究得以顺利进行,得益于美国人民通过美国国际发展署(USAID)的慷慨支持。内容责任属于作者,并不一定反映USAID、美国政府或目标自然资源腐败(TNRC)联盟个别成员的观点。 关于针对自然资源腐败的目标 “目标自然资源腐败(TNRC)项目旨在通过帮助实践者应对腐败对野生动物、渔业和森林构成的威胁,进而改善生物多样性成果。TNRC利用现有知识,生成新证据,并支持创新政策和实践,以实现更有效的反腐败项目。更多信息请访问tnrcproject.org。” 出版: 交通国际,剑桥,英国。 建议引用 Bagott, A., Šípoš, G. 交通(2024)。利用大数据技术监控公开信息中的腐败风险:技术指南。 © TRAFFIC(2024)。本报告所发表材料的版权归TRAFFIC所有。 英国注册慈善机构编号 1076722 免责声明 本出版物得以实现,得益于美国人民通过美国国际开发署(USAID)的慷慨支持。内容责任由作者(们)承担,并不一定反映USAID、美国政府或个别针对自然资源腐败项目联盟的观点。. 成员 内容 引言 大数据集的分析以揭示趋势和风险,随着计算能力的提升和大型数据仓库的可用性增加而变得司空见惯。 在经过此类方法的试点之后探讨2022年林业特许经营中的腐败风险。我们已寻求将我们的经验应用于其他广泛可获得林业数据的地区或国家。 通过创新地使用现有技术,TRAFFIC旨在确定“大数据”1分析公开信息的方法可以为监控和调查提供可信的证据,尤其是在林业部门可能发生腐败的情况下。但我们的模型也可以作为预防工具实施——当得到良好管理时,增加合同采购中利益冲突的透明度可以有助于减少腐败事件的发生。 在这份报告中,我们提供了使用工具分析大量数据集并揭示林业部门涉及的个体或公司潜在腐败风险的技术指导。我们还将概述腐败风险指标,并描述在处理此类信息时面临的挑战,以帮助寻求在保护领域及反腐败领域应用类似技术的相关人员。 我们的方法 数据处理模型 数据处理模型描述了收集、存储、分类、分析和丰富数据所采取的步骤。它概述了达到每个结果所需的主要行动、决策、数据类型和分析工具。 • 政治公众人物(PEPs)名单2我们在目标国家搜索PEPs(政治公众人物),旨在确定那些与林业(即使间接)有关联或向公司分配采伐许可/特许权的个人。 在某些情况下,PEP名单将包含有关收入和支出、资产、负债、礼物、房地产、车辆等信息。 该模型展示在下页的流程图中。随后是对该流程每个阶段的全面描述。 核心数据源的识别: • 森林特许权登记册 我们在重点国家寻找与伐木权分配相关的信息。这至少应包括相关公司的名称、每家公司内的负责人以及分配权利的公众人物(PEP)。如有可用的信息,我们还包括其他信息,例如分配的地点、允许采伐的木材数量以及采伐目的。 第一步是确定核心数据来源,即提供实体(如个人和公司)名称及其在林业中的参与情况(如其角色和采伐权)的公开信息来源。获得此类信息的关键数据来源包括: 关键字 图2 一个列出该国过去十年授予的林业特许权的网站。一些可能涉及敏感信息的部分已被模糊处理。 数据收集 在网站结构一致、网页布局连贯且数据由文本而非图像组成的情况下。 在涉及大量数据时,自动数据收集过程(如网页抓取)通常比手动过程更加高效。这些过程的效率取决于网站上的可用功能、网站结构的稳定性、网页设计的复杂性、图像和/或文本的存在,以及执行抓取的个人技术能力。 • 定制网页爬虫 在视觉网络爬虫无法收集数据的情况下,可能需要在内部构建一个定制的网络爬虫。这些爬虫通常为每个网站单独设置。由于这种方法成本高、时间消耗大,因此应仅在没有其他方法可行、没有其他来源包含相同信息以及有极高机会获得大量有价值数据的情况下使用。 根据源网站权限和结构的不同,我们可以通过原始网站功能下载数据,使用预构建的视觉网站爬虫抓取网站,或使用定制网站爬虫抓取网站。 数据存储和处理 数据最初存储的方式取决于其收集后的格式。如果收集到的数据是结构化在表格格式下,例如,它可以存储为CSV、XML或JSON格式,以便于后续分析和导入到其他软件中。 • 原生站点功能 如果该网站允许用户下载数据——例如,通过应用程序编程接口(API)或简单地通过“导出”按钮,我们使用此方法。 • 预构建的视觉网页抓取器 如果数据是无结构化在叙事格式如PDF的情况下,在大多数分析软件能够理解它之前,我们需要对其进行额外处理。处理过程如下: 如果使用原生网站功能无法下载所需数据,我们将使用预先构建的视觉网络爬虫软件,如:ParseHub为了实现高效的数据收集。视觉网页抓取器效果最佳 ParseHub,一款提供简单“点击选择”界面的视觉网页抓取工具,用户可以通过该界面选择和抓取网页上的元素。一些可能包含敏感信息的部分已被模糊处理。 (OCR)在文本文档上的应用,确保文件是机器可读的。• 自然语言处理(NLP) 浏览大量不同类型的文件内容,在Windows原生文件资源管理器中可能是一个耗时过程。数字调查工具如Nuix Workstation允许用户检查数千种非结构化数据类型,通过正则表达式(regex)挑选出相关信息,并在文本中识别实体。Nuix Workstation还执行光学字符识别(OCR)。 自然语言处理工具,例如罗索卡文本分析 可以在文本中找到实体之间的联系。当与视觉分析软件搭配使用时,IBM i2 分析师笔记本在文本中,可以看到实体(人物、物体、地点和事件)之间关系的视觉表示。 Rosoka 文本分析,作为 IBM i2 Analyst’s Notebook 的插件,用于直观地展示人物、物体、地点和事件之间的联系。此图像已被模糊处理,以消除对人物和/或地点可能敏感的引用。 识别感兴趣实体 这些分析工具可以帮助用户找到具有多个分离程度的实体,或者与其它实体有统计上显著数量关系的实体。 一旦数据格式化为可用于其他分析软件的格式,就可以查询和分析以识别感兴趣的实体,即关键人物和公司。 • 应用评分系统 在可以大规模导出来自多个数据集的不同腐败风险因素的情况下,应用评分系统可能会有所帮助。我们依靠TRAFFIC内部和外部反腐败专家来识别腐败风险因素。关于我们探索的具体风险因素的更多信息,可在本报告的风险因素部分找到。 • 交叉引用数据点 一种简单的方法是在两个数据集中交叉引用数据点是使用:Excel的模糊查找插件3这确保了对同一实体的拼写变异、修改和错别字都得到考量。它还能在名、中姓、姓以不同的顺序呈现或根本省略的情况下检测到匹配——在根据所用语言的命名习惯对姓名进行不同的排列时,或当姓名的一部分被保留在一个来源而在另一个来源中被省略时,这一点尤其有用。用户可以调整导致匹配的相似度水平。预构建的视觉网络爬取器 评分系统结合了这些不同的风险因素,应用相应的权重,按比例进行调整,并最终产生一个风险得分。4这个分数可以用来评估大量不同个人和公司的相对腐败风险。 数据丰富化 一旦识别出感兴趣的对象,我们可以利用社交媒体、公司注册处和泄露的文件等手段丰富我们所持有的数据。此过程通常需要一定程度的手动开源调查,但可以通过Videris等在线调查平台和数据仓库如OCCRP Aleph等进行部分自动化。 制作仪表盘数据可视化和社交网络图表 仪表板数据可视化可以使用多种程序生成,包括Power BI和IBM i2 Analyst’s Notebook。这些可视化可以通过手动查询,但这些程序还提供了一系列自动化功能,以简化该过程。 i2 Analyst’s Notebook 允许用户创建涉及数据集的实体及其之间关系的网络图——例如,雇员与雇主之间的专业关系,公司与政治家之间的财务关系,父亲与儿子之间的家庭关系,等等。 额外的潜在见解包括对有益所有权的证据、政治融资、制裁以及持有的资产或财富。公司高级管理人员名单及其社会和专业联系的证据也可能很有用。 图5 Videris,一个在线调查平台,允许用户从多种在线来源搜索有关个人和公司的最新数据,在关系图中可视化信息,并在需要时进一步丰富内容。 风险因素 风险因素被用来为每个林业参与者的相对腐败风险提供背景信息。在应用评分系统时,它们尤为重要。在这种情况下,风险因素应分为“分数”和“乘数”。 木材被允许在一定的特许区域进行砍伐。 • 获胜拍卖的比例 一个人或公司在其林业合同投标中持续或定期成功,可能会表明投标过程中存在更大的腐败、贿赂或裙带关系的风险——尤其是对于大型合同(即那些收入较高的合同)。 “分数”用于表示腐败风险增加的因素。这些分数被相加以创建一个初始风险评分。“乘数”用于那些自身不一定表示额外的腐败风险,但可能会增加任何现有风险影响的因素。这些乘数被用于将初始风险评分乘以,以创建最终评分。 • 未知来源的财富 如果PEPs拥有无法解释的财富,例如未申报的财产或资产、超过其薪水的货币资产、豪华汽车等,腐败的风险更高。 风险因素“评分”中已被有效应用的包括: • 按体积计价格 合同价格异常偏低(即每立方米木材价格低)或异常偏高(即每立方米木材价格高)可能导致腐败,例如,获得可疑的好运可能表明裙带关系或贿赂起了作用,有人为合同支付过高的金额可能表明存在洗钱风险等。 •卫生采伐 折扣列出的“卫生”伐木可能基于含有虚假信息的文件,例如错误地声称树木感染或死亡。根据我们咨询的专家,3%至6%的卫生清理是标准。因此,超过10%的情况可能表明存在风险水平,尤其是如果卫生清理的量很大。 风险因素“乘数”被有效使用,包括: 由全球森林监视机构提供的数据,我们可以确定某些林业行为者在一定时期内是否超出了其许可的采伐量。这一风险因素因树种和年龄差异导致的树木大小不规则而变得复杂,这意味着可能很难确定与一定面积树木覆盖率损失相当的木材体积。在进行此类分析之前,建议研究当地有关允许采伐树木最小尺寸的法律。基于该数据做出的任何估计至少能提供一个关于正在进行的采伐量的大致数字。 • 合同数量 在林业参与者存在腐败行为的情况下,拥有更多合同的人更有可能对林业区域产生负面影响(并且更有可能涉及更高层次的腐败),与拥有较少合同数量的林业参与者相比。然而,仅凭合同数量本身并不能准确反映风险。 • PEP状态 林业从业者同时也是高层官员(PEPs)——或与其相关联/有联系——在处理林木采伐权分配时更容易出现利益冲突。然而,在林业区域通常由国家所有的情况下,仅仅PEP身份并不能准确反映风险。 • 政治周期动态 进行政治周期(即政府变动)与特许权使用数据比较分析,可能会突出政治影响力对收获权分配地点和对象产生统计影响的案例。 其他我们希望在未来的方法中包含的因素包括: • 自然灾害数据 尽管本身不是风险因素,自然灾害数据可以帮助区分合法的卫生伐木与非法的卫生伐木。 • 树冠损失数据 通过将林业特许权采伐限额与卫星数据上的林木覆盖损失进行比较,使用交互式地图 挑战与经验教训 核心数据源识别 • 低质量复印件 一些来源提供的数据是以PDF格式的文本文档的复印件。在某些情况下,这些复印件质量较差,且尚未经过OCR(光学字符识别)处理以读取其中的文本。这可能会给OCR软件带来问题。 我们遇到了一些来自某些来源的自动收集数据的挑战,这是由于数据展示的方式造成的。以下是这些挑战的列表: 通过图像处理软件可以在PDF上进行质量改进。这些改进可能包括对比度、亮度、