您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[CIGI]:数字数据与先进人工智能赋能全球智慧 - 发现报告

数字数据与先进人工智能赋能全球智慧

信息技术2025-02-11-CIGI张***
AI智能总结
查看更多
数字数据与先进人工智能赋能全球智慧

球情报体系更加丰富。 Danielle Goldfarb 特别报告数字数据与先进人工智能助力全 球情报体系更加丰富。 Danielle Goldfarb Credits 国际治理创新中心(CIGI)是一个独立、无党派的智库,其同行评审的研究和值得信赖的分析影响着政策制定者进行创新。我们由跨学科研究人员组成的全球网络和战略合作伙伴关系为数字时代提供政策解决方案,目标只有一个:改善世界各地人们的生活。总部位于加拿大滑铁卢的CIGI得到了加拿大政府、安大略省政府以及创始人吉姆·鲍尔西利(Jim Balsillie)的支持。 主席,CIGIPaul Samson总监,项目管理Dianna English项目主管Jenny Thiel出版物编辑Susan Bubak高级出版物编辑Jennifer Goyder平面设计师Sepideh Shomali 关于CIGI 国际治理创新中心(CIGI)是一个独立、无党派的政策智库,其经同行评审的研究和可靠分析激励决策者进行创新。凭借其全球跨学科研究人员网络和战略合作伙伴关系,CIGI为数字时代提供量身定制的政策解决方案,唯一目标是为全世界人民改善生活。总部位于加拿大滑铁卢的CIGI,获得加拿大政府、安大略省政府及其创始人吉姆·巴利斯利的支持。 Copyright © 2025 by the Centre for International Governance Innovation 本出版物中表达的观点是作者的观点,不一定反映国际治理创新中心或其董事会的观点。 对于出版物方面的查询,请发送邮件至 publications@cigionline.org。 本作品的文本根据CC BY 4.0协议授权。欲查阅该许可的副本,请访问http://creativecommons.org/licenses/by/4.0/。如需转载或分发,请包含此版权声明。本作品可能包含根据许可或经第三方授权使用或再现的内容(包括但不限于图形、图表和照片)。如需再现该内容,必须直接从第三方获得许可。 Centre for International Governance Innovation and CIGI are registered trademarks. 67 Erb Street West Waterloo, ON,Canada N2L 6C2 www.cigionline.org 目录 i关于作者1执行摘要3引言5人工智能的进步实现了大规模快速的新数据收集。6从新兴实验中学习19实时数据世界中的治理20结论21参考书目 Danielle Goldfarb她是CIGI高级研究员,同时也是数字经济、实时数据、国际贸易和公共政策领域的顾问与专 家。她是伍德罗·威尔逊中心加拿大研究所的全球研究员、加拿大亚太基金会杰出研究员、魁北克人工智能研究所(Mila)公共政策顾问,以及全球事务与公共政策学院(Munk School)高级研究员。她的TEDx演讲《预测未来的最佳方式》,探讨了利用新技术解决数据偏差、提升预测能力。 Danielle是2025年1月写作小组的成员。国际人工智能安全报告她主持加拿大商业经济协会的经济学家贸易新工具系列,并在Munk学院任教。丹尼尔·莱夫在加拿大C. D. Howe研究所、加拿大会议委员会和实时互动全球情报公司(一家实时数据公司)领导了新颖的尖端研究。 Danielle毕业于剑桥大学,获得国际关系哲学硕士学位,以及麦吉尔大学荣誉经济学学士学位。 执行摘要 本特别报告探讨了数字数据集和人工智能(AI)的进步如何为全球性挑战提供及时、透明和详尽的洞察。 数项实验表明这些工具可用于公共利益目的。例如,研究人员正利用人工智能的进步快速收集数百万家在线超市的价格,从而创建更替代性且更具时效性的通货膨胀指标。一家航运数据公司运用机器学习处理船载传感器数据,揭示了西方国家对俄罗斯实施制裁后俄罗斯构建影子石油市场的速度。学术研究人员结合私营部门在线税务、求职信息、信用卡和薪资数据,揭露了新冠疫情大流行对低收入工人造成的长期经济影响。在中国突然撤销“动态清零”政策后,网络搜索、卫星图像和智能手机定位显示,官方指标严重低估了健康损害程度并夸大了经济复苏情况。此外,越来越多的实验在贫困国家运用丰富的卫星图像、移动数据及机器学习,构建更详细、更频繁的状况图,包括偏远地区的情况。 这些实验说明政府和社会分析师如何可以重用数字数据来识别新兴问题、分析特定群体影响、补充传统指标或验证可能被操纵的数据。新的AI进展进一步扩展了可用的新数据类型,以增加透明度和细节。大型语言模型(LLMs)能够快速准确地分类大量的文本和图像,并实现无缝的语言翻译。由此产生的更完整和透明的图景使政策制定者能够更有效地应对挑战,同时也能对他们进行问责。 人工智能和数据治理应超越解决损害问题。国际机构和政府需要主动管理数字数据和人工智能工具,以支持我们对社会重大挑战的认识实现飞跃性进展。他们应在数据稀缺、滞后或不完整的地方投资;在涉及关键公共利益问题的地方投资;以及在缺乏市场激励进行投资的地方。他们还需要认识到这些方法的局限性,避免依赖单一指标,维护并增强对基础数据的投资,将私营部门数据整合到公共数据池中,并应用透明度、伦理和隐私框架。 引言 为了最好地预测、理解和应对地方及全球事件和问题,政府、国际机构和公民社会的分析师需要获取可靠、准确和及时的信息。 这份特别报告探讨了数字数据集和人工智能的进步潜力,旨在基于传统指标深化我们对世界的理解,进而提升我们应对全球挑战的能力。报告还考虑了政府或学术界分析师在有效利用这些工具方面将需要面对的挑战。 该分析基于先前的一篇论文(Goldfarb 2024),该论文探讨了数字数据集的出现,旨在为发达经济体提供更及时、更详细的衡量标准。本报告研究了世界各地更广泛的一系列实验,这些实验中数字数据的使用——以及新出现的AI工具——能够提供更透明、更详细、更及时的画面。例如,生成式AI的主要进展使得从文本和图像中收集多种语言的新型数据成为可能。 仅传统数据无法满足当今的信息需求。 几十年来,政府、统计机构和国际机构一直投资于官方指标来监测本地和全球状况。这些指标——包括调查、海关数据和行政记录——成为信息锚点,显著提升了决策的依据基础。 随着经济和社会变得更加复杂和数字化,传统数据未能跟上这种演变。 决策者越来越需要更及时、更详尽的信息。然而,官方数据往往缺乏地方细节或特定兴趣群体的信息。此外,它们系统性滞后于现实情况数周、数月甚至数年,并且一些主要经济数据(如就业情况)在发布后往往会大幅修订。滞后数据代价高昂:例如,当美国进入衰退时,如果美联储在2007年12月(而非经济学家最终在数字中看到这一情况时的2008年12月)将利率下调至接近零,全球金融危机的破坏性可能会小得多。 发达国家官方调查响应率正在下降,引发了准确性方面的担忧。例如,在加拿大,劳动力调查响应率从2019年的87%下降到2023年的71%,这一趋势不能完全归因于疫情时期的调查方法(加拿大统计局2023年)。 此外,随着经济和社会变得更加复杂和数字化,传统数据未能跟上这种演变进程。美国统计机构——被视为全球资源最丰富的机构之一——发现,要生产及时、可信且相关的统计数据以满足“21世纪的证据要求”(美国统计协会,2024年)是一项挑战。 近年来,国家统计机构和国际机构积极致力于改进其方法,以应对这些问题。 数据短缺在较贫穷或威权政权中更为严重。 在较贫穷的国家,数据挑战更为严峻。家庭调查——对于监测贫困状况和政策影响至关重要——最多几年开展一次。这些调查成本高昂、耗时费力,而且准确性仍然不高(Burke et al.2020)。许多国家难以收集到追踪实现联合国可持续发展目标进展所需的数据(Fraisl et al.2024)。即使数据可用,也无法进行细分,这阻碍了政策制定者监测和应对不同情况的能力(ibid.)。在危机期间,关键干预措施往往基于过时、有限或不存在的数据。 In all countries — but especially those under authoritarian rule — leaders can manipulatedata reporting. Under Chinese President Xi Jinping, Chinese authorities have increasinglywithheld or strategically altered technical data to present more favourable results (Burn- Murdoch 2022). Similarly, Russian authorities have selectively withheld budget, financial and trade data since the Ukraine war started (Anisimova and Smitt Meyer 2023). These practices create significant uncertainty about true conditions. 如今,数据保留问题同样适用于美国。在2025年1月美国总统唐纳德·特朗普就职后,许多政府网站上的官方数据似乎已被删除,包括一些公共卫生和人口普查数据。 全球最大实时数字数据集已发布 随着传统数据方法揭示了这些局限性,我们社会的数字化导致了数据的爆炸。全球的扫描仪、传感器、卫星、智能手机和在线平台产生了大量、多样化和持续的数据流。 这项“数字排放”可以被用于公共利益研究。例如,网约车或公共交通应用收集的个体数据可以汇总再利用,以分析交通模式、经济活动和潜在疾病传播。互联网也使研究者在公共利益目标下能够收集新型数据。诸如eBird.org之类的公民科学网站众包鸟类观察数据,随后研究者可利用这些数据追踪迁徙模式。 表1展示了一些示例数字数据类型以及一些相关的示例公共利益应用。政府、国际机构和公民社会的分析人员正在试验这些新型数据类型,以更清晰地了解一系列社会挑战,从追踪疾病爆发到近乎实时地确定移民的需求。 人工智能的进步实现了大规模的快速新数据收集。 人工智能的进步极大地扩展了为公共利益目的收集、收集和从数字数据中提取意义的可能性。 在大量文本数据集上训练的大型语言模型(LLMs)现在能够“理解”上下文,因此可以将非结构化数据(来自文本或图像)提取并分类为结构化信息(行、表格和列中的数据)。LLMs可以分析全球新闻文章以获取早期疾病爆发信号或经济指标,从招聘信息中提取劳动力市场洞察,或从信息公开请求数据库中综合政策发展。 表2展示了当前在不同公共利益领域中可用的数据类型示例,从传统结构化数据到结构化数字数据再到非结构化数字数据。 数据。能够对非结构化数据进行分类和提取意义,意味着现在可以结合结构化和非结构化数据的洞察力,提供更全面的社会、经济、技术或地缘政治发展趋势图景。在最新的AI技术进步之前,这是不可能实现的。 研究人员还在使用其他人工智能技术从数字数据集中提取意义和预测。一个例子是使用神经网络从在线搜索数据中学习经济趋势。这种技术通过学习许多国家的经验来弥补每个国家缺乏在线搜索历史的问题(ibid.)。 从新兴实验中学习 这份报告审视了世界各地进行的几项实验,这些实验展示了使用数字数据和人工智能进步来提升对关键问题理解潜力的机遇与挑战。每个案例都识别了信息空白,探讨了如何单独使用新数据集或结合人工智能的进展来填补这些空白,以及从中得出的部分经验教训。 基于包括研究论文、访谈、博客、新闻报道以及作者本人与数字数据集合作的经验等多样化来源,该报告探讨了工业、金融或公共政策领域人士的实验,以及独立学术机构或智库的研究。 研究。这项分析具有挑战性,因为许多实时数字数据集并非公开