您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[世界银行]:SmartFi 项目 : 为金融科技新闻搜索 AI _ ML ( 汉 ) 2023 - 发现报告

SmartFi 项目 : 为金融科技新闻搜索 AI _ ML ( 汉 ) 2023

2023-09-15-世界银行极***
SmartFi 项目 : 为金融科技新闻搜索 AI _ ML ( 汉 ) 2023

ABSTRACT 世界银行金融和技术部与世界银行技术和创新实验室合作,与GoogleCloud和SyntasaInc.合作,了解人工智能和机器学习如何增强全球金融科技主题的新闻来源和情绪。本成果报告分享了作为原型探索和开发的一部分的关键学习和见解。 确认 本报告中概述的主要学习内容由项目SmartFi(智能金融)团队准备。 世界银行财政部金融与技术(TREFT):Paul Snaith,Patrick Cheng,JaskaranSingh 世界银行技术与创新实验室(ITSTI:)YusufKaracaoglu,StelaMocan,MoraFarhad,MaheshChandrahasKarajgi,OleksandraPostavnicha,YujuanSun 世界银行公司采购:Sanjay Colaco, Shweta Mesipam SyntasaIncorporated:ShawnZargham,MichaelFinn,KyleWitt,JamesWilson,EricBugin,KareemSharaf,TedBlake GoogleCloud:RyanWright,RajatGupta Contents 缩写和缩略语v 执行摘要1项目背景3项目团队和赞助商4 研究方法5业务挑战范围6 第3部分:与GoogleCloud和Syntasa 与技术合作伙伴进行快速原型设计9解决方案概述和关键结果14技术方法(Syntasa)22 数字和表格 表2.16图3.1:Syntasa解决方案10图3.2:建模的提及16图3.3:WordCloud17图3.4:域来源18图3.5:域和PDF来源19图3.6:趋势主题20图3.7:情绪验证21图3.8:情绪模型可解释性21图3.9:解决方案体系结构23图3.10:数据和AI管道24图3.11:中文应用程序配置25图3.12:主题建模参数27图3.13:仪表板趋势短语28图3.14:情绪可解释性29图3.15:情绪验证30图3.16:语言翻译性能32图3.17:PDF来源33图3.18:情绪可解释性34图3.19:解决方案体系结构35图4.1:主题建模38图4.2:主题建模解释器39表4.1:情绪分析模型40 缩写和缩略语 缩写DescriptionJSONJavaScript对象表示法KPI关键绩效指标LDA潜在狄利克雷分配LLM大型语言模型LookMLLooker建模语言ML机器学习NLP自然语言处理NMF负矩阵分解OCR光学字符识别POC概念证明PoV价值证明罗伯塔BERT模型的变体RPA机器人过程自动化Saas软件即服务SmartFi智能金融中小企业主题专家TI实验室世界银行技术与创新实验室TRE财政部TREFT世界银行财务处金融技术股UI用户界面VPC虚拟私有云 执行摘要 在当今快节奏的世界里,随时了解最新的金融科技新闻和趋势可能是一项挑战,这有助于为财务和运营战略的决策提供信息。互联网上可用的信息和意见数量可能是压倒性的,过滤掉对企业用户最相关和最重要的信息可能是一项挑战。技术 不断发展;新的趋势和发展可能每天都在出现。为了应对这一挑战,世界银行财政部金融技术部门(TREFT)和世界银行集团技术与创新实验室(ITSTI)(以下简称“项目团队”)开展了一项框架研究,以探索新兴技术如何提供解决方案,以帮助用户访问策划的,可信的和相关的新闻来源,使他们了解趋势主题的情绪。 ITSTI实验室遵循结构化方法,使用设计思维方法来了解最终用户的需求,需求和痛点。项目团队确定了关键主题和感兴趣的术语的样本列表;各种可信来源(包括开源和订阅内容以及社交媒体渠道);以及感兴趣的地理区域,以帮助指导数据需求。该团队还进行了市场研究,以了解如何解决类似的问题,并以实验室知识为基础。 在整个研究过程中,我们与最大的搜索提供商GoogleClod合作。GoogleClodPlatform(GCP)提供了一系列工具和服务,这些工具和服务有助于使用机器学习来获取新闻,例如,云自然语言API可以从新闻文章中提取实体、情感和见解,以及许多其他功能。我们还与GoogleClod的合作伙伴公司SytasaIc.合作。,专门从事情感分析,通过数据分析生成见解,并了解数字行为,为业务用户定制解决方案。 借助由GoogleCloud提供支持的Syntasa,我们合作设计和创建了仪表板的原型,该仪表板为用户提供了 以深入了解情绪趋势,以便可以按主题和区域快速识别行为变化。我们创建的可视化工具还提供了自定义过滤器的灵活性,以便快速访问易消化的FinTech主题,从而帮助用户了解最新趋势及其行业的发展;确定新的机会;并做出明智的决定。 我们的合作为项目团队提供了机会,不仅可以探索潜在的解决方案,还可以向Syntasa学习科技公司规划和开发人工智能(AI)和机器学习(ML)原型,以扩展到企业采用。世界银行技术与创新实验室(TILab)技术团队与Sytasa和GoogleClod密切合作,了解数据科学家如何构建定制的AI/ML模型,并测试其在透明度、问责制和合规性方面的准确性和可解释性,并确保AI系统公平、符合道德且使用安全。本报告概述了我们开发的解决方案的技术知识、价值驱动因素和功能。 项目背景 世界银行的财务业务,金融技术部门(TREFT)与财务业务部门和技术开发人员密切合作,从构思阶段到开发并成功实施,帮助领导财务部门的技术进步计划。 TREFT积极与本行各业务部门合作,为资金业务中的业务用例确定和实施合适的技术解决方案,并通过 内部和/或现成的解决方案。这一过程需要不断审查银行的内部技术能力,并与现有行业标准和新的市场发展进行比较。因此,对于TREFT来说,有选择地监控新技术趋势和解决方案,并随后确定它们是否适合改善财务业务,这一点非常重要。目前,该过程主要是手动执行的,有大量的人员时间和资源定期专用于此。当前的一些挑战包括:。 手动采购和整合最相关和信息丰富的金融科技新闻和事件是乏味的。跟踪市场讨论以及围绕着著名的金融科技主题和事件的公众情绪。搜索范围有限在新闻来源方面,考虑到时间和资源的限制。确定真实性新闻来源、主题相关性和潜在的主题分类。•••• 为了应对这些挑战并系统地协调FinTech和技术新闻采购的流程,TREFT看到了一个独特的机会探索模仿人类方法的AI系统,以便快速有效地获取与特定业务部门感兴趣的主题相关的策划新闻。一个相关的机会是自动化量化相关性,测量情绪和确定新闻来源后的偏见的过程。这可以通过镜像人类策略来衡量一篇文章的相关性,并确定其整体情绪和偏见来实现,这一过程也可以通过人工智能方法来支持。 鉴于这些机会的存在以及将这种人工智能解决方案部署到财政部内的多个用例的潜在好处,TREFT与其合作伙伴创新实验室合作,探索可以满足用例要求的内部和现成解决方案。 项目团队和赞助商 TREFT在所有机构项目,维护,预算和计划周期中协调世界银行财务处信息技术基础设施的有效内部管理,确保其符合目的,最新,安全和可靠。该部门还根据财政部在全球金融市场中的重要地位制定和维护适当的战略技术规划,并利用这一地位为市场和发展效应建立内部和外部伙伴关系。TREFT的技术计划包括领导财政部参与大规模系统更新和金融技术领域的新兴技术项目,如AI/ML,区块链,RPA和世界银行的金融范围项目。 TI实验室是世界银行集团信息和技术副总裁的一个专门部门,围绕三个主要支柱:创新、实验和能力建设。TI实验室与世界银行集团内的各个部门和单位以及外部合作伙伴密切合作,以确定可应用新兴技术解决业务和发展问题的潜在领域。它的目的是协助。 世界银行集团(WBG)业务团队负责问题框架、需求收集、数据准备、技术指导和原型交付,以帮助决策者评估一项投资是否值得投入运营。TI实验室的任务是边做边学,并在团队之间共享知识,以实现持续创新。 SECTION2 研究方法 收集和策划与特定主题或一组主题相关的新闻文章的最有效方法是什么? 方面有何不同? 型的见解? 功能和功能对这些用户可能很重要? 业务挑战范围 ThescopeofthePoCwasdeterminedbytheprojectteamincollaborationwithSyntasa.FoundationaldataandbasematerialwasprovidedasinputtotheSyntasateamasdetailedbelow: TREFT业务运营感兴趣的相关主题以具有以下结构的整体Excel文档的形式提供给Sytasa。开发了主要主题,并将各种子主题归类为主题,然后形成了相关的FiTech和与技术相关的关键字库。为了提供额外的过滤机制并考虑到主题的地理相关性,提供了额外的地理位置和区域列表,主题子主题产生了更具体和相关的搜索结果。输入结构的简要示例可以在表2.1中看到,附录B中提供了详细的概述。 价值主张 以下是建议解决方案的价值驱动因素: 随时了解行业趋势和新闻:允许用户及时了解金融和技术行业的最新消息和发展,包括新兴趋势和主题。深入了解情绪趋势:允许用户快速识别对特定主题或公司的情绪变化,提供对市场趋势和情绪的宝贵见解。监控合作伙伴:用户可以跟踪成员国、非政府组织、商业银行和其他合作伙伴的新闻和情绪,使他们能够随时了解自己的行动和战略。制定数据驱动的决策:对所需主题进行准确可靠的情感分析,以帮助用户根据实时见解做出数据驱动的决策。节省时间和资源:用户可以节省手动搜索和分析新闻文章所花费的时间和资源。••••• 可以包含在仪表板中以支持这些价值驱动因素的功能包括: 可定制的新闻提要:用户可以自定义其新闻源,以便仅显示与特定主题或关键字相关的新闻文章,从而确保他们仅看到相关内容。情感分析:灵活地按特定主题或跨地理环境的情绪进行过滤,以了解不同地区或行业对金融科技的反应实时更新:用户可以调整时间范围,以了解金融科技中的主题是如何随着时间的推移而演变的,或者实时接收警报。可定制的警报:用户可以设置警报,通知他们与特定主题或公司相关的情绪或新闻的变化,使他们能够随时了解情况,而无需不断监控仪表板。与其他工具集成:仪表板可以与其他工具集成,例如交易平台或财务分析工具,允许用户直接从仪表板做出数据驱动的决策。将来集成生成AI的可能性。••••• 通过整合这些价值驱动因素和功能,通过情绪分析显示与金融和技术相关的新闻的仪表板可以提供有价值的见解,并为用户节省时间。 SECTION3 与技术合作伙伴进行快速原型设计 添加有关从GoogleCloudPlatform(GCP)平台学习的动机以及与技术合作伙伴一起设计原型解决方案的内容。 关于Syntasa Syntasa是一个基于云的数据和AI平台,使用户能够连接各种数据源,构建和部署定制的AI/ML模型,并通过仪表板,数据共享和API跨各种渠道激活它们。该工具为用户提供了对完整数据管道的可见性,包括数据源、依赖关系以及如何使用数据来推动洞察。Syntasa平台采用领先的开源技术构建,并由GCP服务提供支持。 Syntasa平台使用应用程序的概念(以及这些应用程序的排序)来加快实现价值的时间;提高可靠性和效率;并提供比本土基于云的显着投资回报解决方案。这些应用程序提供低代码或无代码到全代码功能,这允许业务用户、分析师、数据科学家和数据工程师进行协作,并利用和分享他们的专业知识。 Syntasa平台在组织的GCP中本机运行,数据存储在GoogleCloud存储和BigQuery中。组织可以将其敏感数据保存在其虚拟私有云(VPC)中和防火墙后面,从而保持完全控制,同时利用Syntasa和GoogleCloud服务提供的大数据处理和AI/ML的强大功能。 Syntasa的功能使其成为快速原型设计的强大工具,使用户能够根据实时数据和见解快速迭代和改进原型。好处包括: 集成的生产数据+功能+激活管道 从低代码拖放