您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [Snowflake]:2024年五大数据科学和人工智能发展趋势报告 - 发现报告

2024年五大数据科学和人工智能发展趋势报告

信息技术 2024-06-15 - Snowflake 张彦男 Tim
报告封面

前五名数据科学和遗传2024年AI趋势 在生成AI时代,拥有全面的数据战略比以往任何时候都更加重要 3Introduction4向预测中添加一些上下文5趋势1:组织正在优先考虑整理他们的数据屋7趋势2:矢量和功能存储将并排直播以管理AI数据8趋势3:通用聊天机器人将为更多任务调整的语言模型提供途径10趋势4:LLM将出现新一代AI应用程序12趋势5:开源将继续成为创新的催化剂14让雪花帮助加速您的机器学习计划15关于雪花 INTRODUCTION 2023年,生成AI(generativeAI)成为技术和文化的焦点。尽管作为generAI工具基础的大型语言模型(LLM)已经开发了多年,但像OpenAI的ChatGPT,GoogleBard和Anthropic的Claude这样的聊天机器人似乎在一夜之间就出现了公众的意识。 •AI指数2023年度报告据斯坦福大学估计,2022年人工智能的并购、少数股权、私人投资和公开募股总额为1896亿美元,2023年的数字仍在计算中。 随着这些里程碑的到来,人们越来越认识到数据是使生成AI工作的燃料-全面的数据治理和高效的数据管理可以决定企业AI项目的成败。 因此,企业立即调整路线以抓住机会也就不足为奇了。值得注意的是: •ChatGPT于2022年12月作为公开测试版首次亮相。到2023年2月,它已经吸引了超过1亿用户-数字服务的创纪录采用率。•对gen AI工具的投资正在增加。为了证明这一点,看看Nvidia的市值。在2023年5月, AI就绪的“超级芯片”的制造商飙升超过1万亿美元. 在预测中添加一些上下文 在雪花,我们已经看到这种情况发生了很长时间。我们的2023年6大数据科学与分析趋势报告预测,持续的开源增长将加速整个企业对Gene AI的使用。事实上,在过去的一年中,我们已经看到了许多开源基础Gene AI模型的发布,包括Llama,猎鹰,Mistral还有更多. 在接下来的12个月中,随着创新的继续,我们可能会看到更广泛地采用此类工具以及更多的大量投资。同时,组织将采取具体步骤来简化其数据操作,打破组织孤岛,简化治理策略,并开发更小,更集中的LLM应用程序。 我们的研究使我们强调了五个新兴趋势,组织可以利用这些趋势来告知其数据策略并加速其AI工作: 1.组织正在优先考虑按顺序获取其数据中心 2.矢量和功能存储将开始并肩管理AI数据3.通用聊天机器人将被任务调整的同行取代4.LLM将出现一种新的AI应用程序5.开源将继续成为创新的催化剂 趋势1:组织优先获得他们的数据屋 2023年对首席数据官的调查星座研究和AWS发现只有一个五个组织都有部门或企业范围内的人工智能项目,只有不到一半的组织修改了数据环境以启用GeneralAI应用程序。 Gene AI的迅速崛起给2023年许多企业的数据运营带来了额外的压力。公司面临着如何以安全,可靠和合规的方式实施这一强大的新技术的问题。一些组织选择在 随着数据量继续以指数速度增长,这种情况可能会在2024年发生变化。超过80%的体积,企业将渴望有效的方法来将不同的数据类型整合到一个可以在整个组织中共享的集中式存储库中,同时还允许他们实施统一的数据治理策略。 SnowflakeHorizon如何简化数据治理? 以员工个人为基础,将如何更广泛地实施该技术的决定推迟到以后。 随着数据量的爆炸式增长和企业数据生态系统的日益复杂,企业需要一种统一的方式来管理其数据,保护数据并确保遵守法规准则。雪花地平线(某些功能可能是预览中)是Snowflake的内置治理解决方案,在整个云中提供统一的合规性,安全性,隐私性,互操作性和访问功能。 Snowflake Horizon使组织可以轻松管理云、团队、合作伙伴和客户(组织内外)的数据、应用等,并对其采取快速行动。 虽然将数据整合到单个存储库中的工作通常是组织数据的重要第一步,但仅靠这一步是不够的。公司需要在数据湖上建立额外的结构,特别是部署开放表格式。开放表格式可以存储各种数据类型,并在不同的数据处理和分析工具中运行,从而使您可以优化数据并更有效地管理数据。 冰山下面是什么? 冰山表(公开预览)是一种新型的Snowflake表,它将Snowflake强大的性能引擎和平台功能与开放格式配对。这允许使用不同格式的组织从存储在云中的数据中提取见解,而无需更改或移动它。冰山表,就像您对任何Snowflake表一样-包括应用本地列级安全性-而不会失去开放表格式提供的互操作性。 在2024年,我们预计会看到更多的企业转向基于云的数据湖,使他们能够更经济高效地存储数据,并访问按需GPU计算基础设施来训练AI模型 冰山表功能为用户解决了一些棘手的问题。它适用于各种分析引擎,它提供了丰富的支持工具和扩展的生态系统,以及它的开源性质允许从各种贡献者中快速改进。Iceberg让用户尽可能接近Snowflake原生表,而不会破坏开源兼容性。 趋势2:矢量和功能商店将开始生存并排管理AI数据 在云中整合数据对于统一的数据治理策略至关重要,也是准备数据以训练机器学习(ML)模型的关键。虽然训练AI模型总是一个时间-和资源密集型的努力,最近的创新有助于简化这个过程。我们在边栏中有更多的信息。 矢量数据库可帮助执行任务,例如帮助AI驱动的聊天机器人理解句子中单词之间的关系,使电子商务网站能够根据以前的内容建议相关产品 功能商店的兴起 购买,并允许流媒体网站根据类似的节目推荐新的节目观看。 通用聊天机器人将被任务调整的同行取代,并允许流媒体网站根据类似活动推荐新节目观看。基于矢量的搜索也允许LLM更快地响应查询,需要更少的计算资源,并使其更具成本效益。 去年秋天,雪花发布了雪花功能商店(在私人预览)。它是一个集中的集线器,用于存储,处理和访问ML编程中常用的功能。每个特征都是可测量的数据,可用于教导模型根据过去的数据对未来进行预测。例如,针对电子商务调整的ML模型可以使用来自先前购买或网站访问的数据(“功能”)来预测未来的销售。拯救和的能力。 第二个,最近的创新是使用 向量数据库用于训练LLM。向量数据库将数据存储为数学值,其中包含有关数据所在上下文的信息,例如它附近有哪些其他类型的数据以及哪些其他数据对象相似这使得计算机程序能够识别各种数据对象之间的关系并进行比较。 在2024年,我们相信功能存储和矢量数据库将使基于LLM的应用程序开发人员能够更快,更有效地工作,同时使所有非数据科学家的学习曲线变平。 重用功能促进了模型之间的一致性,同时减少了所需的时间和精力建立和部署新的。 趋势3:一般目的聊天机器人将成功实现更多任务调整的语言模型 Google趋势数据讲述了这个故事。基于平均每日Google搜索量的增加,对特定于医疗保健,金融和制造业的LLM应用程序的兴趣急剧上升160%-614%从2022年11月到2023年11月。最大的兴趣领域是在政府中使用人工智能(每天搜索“政府中的人工智能”480%)和广告(“广告中的AI”的每日搜索量增加了614%). OpenAI的ChatGPT的惊人采用率以及其他LLM和受支持的聊天机器人的快速引入,例如MicrosoftCopilot,Google Gemini(以前称为Bard)和Anthropic的Claude 建议将来可以回答用户可能提出的任何问题。 增加对LLM应用程序的兴趣 然而,尽管大型大众兴趣聊天机器人可能会继续引起人们的注意,但企业中所有行业聊天机器人的魅力已经开始减弱。事实上,我们更有可能看到针对特定用例和行业的较小LLM的出现。 较小的,特定主题的LLM不仅培训和管理成本较低;他们也可以更准确,因为它们依赖于预先审查的数据集,这些数据集处理与特定业务或行业相关的用例。 雪花皮质:任务调整的AI模型背后的大脑 Snowflake Cortex支持Snowflake Data Cloud中的关键AI功能,包括从PDF文件中提取结构化数据的Document AI(私人预览),Snowflake Copilot(私人预览),LLM支持的编码助手和通用搜索(私人预览),这是一种用于您的数据云的发现工具。 随着企业利用生成AI应用程序的潜力来推动创新,他们将考虑使用他们信任的数据创建自己的迷你LLM。这就是我们开发的原因之一雪花皮质,(某些功能可能在预览中),一种智能、完全托管的服务它托管并提供业界领先的ML模型、LLM和向量函数。除了为基础LLM提供无服务器推理外,Snowflake Cortex还允许您使用较小的、安全的、 使用Cortex的无服务器SQL和Python函数库,企业可以通过嵌入式矢量搜索快速构建上下文丰富的应用程序。 具有成本效益的LLM可以做一些事情,如计算情绪,在语言之间翻译或总结文本简介。 趋势4:新的AI应用程序将从LLMS中涌现 •保险公司可以将诸如汽车服务报告之类的索赔文档馈送到自定义LLM中,然后使用数据来识别事件评估潜在的欺诈行为,衡量汽车维护的趋势,并评估其维修服务合作伙伴的表现。•财务顾问可以从对每个客户的市场和投资组合数据进行培训的LLM得出的数据中获得下一个最佳行动见解。他们还将能够以可能影响个人投资策略的方式总结新闻和时事。•零售商可以使用genenAI应用程序来分析客户情绪,并围绕营销活动做出数据驱动的决策。这些应用程序将帮助他们快速确定哪些产品收到最积极或消极的反馈,这些信息包括作为地理位置和季节性天气模式,并使用这些见解来个性化在线购物体验。•电子商务供应商可以通过将客户购买历史记录与SnowflakeDataCloud中存储的专有数据以及来自雪花市场. 2023年,近18, 000名开发人员使用近30, 000个应用程序(其中包括仍在开发中的应用程序)Streamlit,我们的可视化UI是构建LLM支持的应用程序的首选,例如虚拟助手,情感分析工具,语言翻译器和内容摘要器。这些应用程序中的近三分之一是聊天机器人,允许与LLM进行流畅的、人性化的对话。 •Manufacturing文档AI(私有预览)可用于从质量检验报告中提取相关数据,并改善制造流程并减少返工需求。GenAI应用程序还将增强质量控制流程,并允许制造商使用来自传感器,图像捕获设备和历史性能记录的数据对机器故障进行根本原因分析。 •广告、媒体和娱乐公司可以使用LLM和ML开发因果分析模型。这将使他们能够进行A / B测试并实时优化广告活动,从而使他们能够衡量哪些营销工作正在最大程度地提高销售额。对提案、报告和广告日志中的非结构化数据进行培训的LLM将帮助活动策划者确定哪些供应商正在交付公司的核心KPI,并重新分配预算。根据需要。 Streamlit的简单可视化界面和丰富的开源Python工具库使应用程序民主化 开发,允许工程团队和其他业务人员开发生成满足其精确需求的AI解决方案,然后分享他们获得的见解组织。 在2024年,我们预计这一趋势将持续下去,并在多个行业和用例中扩展。数据科学领域以外的更多员工将能够构建有影响力的人工智能应用,以推动新的见解。潜在用例范围广泛: 11 •公共部门机构已经在使用genAI来发现成千上万的日常交易中的欺诈行为,验证支付完整性,同时保护纳税人免受浪费和滥用。使用genAI,地方,州和联邦机构可以评估其他PB级的非结构化政府文件,以告知政策决策并分析他们监督的计划的有效性。 •医疗保健和生命科学组织可以构建从实验室和现场报告中综合见解的应用程序,降低其文档负担,同时改善实验室和现场操作。LLM支持的应用程序还可以通过分析已发表的研究摘要,同行评审期刊上的文章和其他研究发现来帮助极大地加速医学研究和药物发现。 •电信公司可以使用集成了运营和业务支持系统(OSS和BSS)数据的生成AI应用程序简化其网络运营,使其能够简化工作流程并对设备故障进行根本原因分析。由LLM应用程序提供支持的实时能源使用报告可以帮助他们测量和减少碳排