行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

生成式人工智能时代终极指南：奠定夯实数据基础

信息技术 2025-02-06 亚马逊云科技善护念

引言

数据是现代创新的核心，生成式人工智能的兴起进一步凸显了数据的重要性。企业需要有效管理和利用数据，以加速创新、挖掘洞察、优化流程并打造个性化客户体验。

构建数据驱动型企业的关键

企业转型为数据驱动型需要构建适当的数据基础，而非全盘重来。亚马逊云科技等云服务提供商已帮助多家企业（如AstraZeneca、BMW Group、LG AI Research）实现数据整合和AI功能扩展。

当前数据挑战

企业面临数据量激增、数据孤岛、分析/机器学习技能缺乏、传统治理限制和数据安全威胁等挑战。根据埃森哲报告，97%的企业网络安全威胁增加，外部入侵成功率高达61%。

四大关键属性

成功的数据基础应具备四大属性：

面面俱到：提供适合任何用户、数据类型和应用场景的工具，以卓越性价比满足需求。
集为一体：打破数据孤岛，整合企业所有数据，使其发挥有效作用。
严格治理：管理数据访问权限，确保用户安全访问，提高团队行动速度。
智能：利用AI简化数据管理，优化数据查找、使用和洞察获取。

亚马逊云科技解决方案

亚马逊云科技提供全面数据工具和服务：

数据库：Amazon Aurora、Amazon RDS等，提供高性能和成本效益。
Amazon SageMaker：统一数据访问和治理，支持分析和生成式AI应用。
- SageMaker Unified Studio：集成开发环境，加速AI开发。
- SageMaker Lakehouse：统一数据湖和仓库，打破数据孤岛。
分析服务：Amazon Redshift、Amazon EMR等，支持SQL查询、日志分析、流式传输和Spark。
人工智能/机器学习：Amazon Bedrock、Amazon Q等，支持基础模型和生成式AI应用。
数据治理：Amazon DataZone、Amazon SageMaker Catalog等，实现端到端数据治理。
智能功能：Amazon Q、Amazon Redshift Serverless等，利用AI简化数据管理。

案例研究

ADP：利用Amazon Redshift和Neptune管理海量员工数据，提升同工同酬水平。
宝马集团：通过Amazon Aurora构建集中式数据湖，处理数百万辆汽车的遥测数据。
ENGIE：构建Common Data Hub，消除数据孤岛，支持零碳排放转型。
Pinterest：利用Amazon S3实现精细访问权限控制，确保数据安全和公平使用。

集为一体：打破数据孤岛

零ETL集成：支持Amazon Redshift和SageMaker Lakehouse无缝连接多种数据来源。
SageMaker Lakehouse：统一访问S3数据湖和Redshift数据仓库，简化数据架构。

严格治理：简化数据访问

数据治理策略：与业务计划一致，确保数据安全和合规。
Amazon DataZone：管理和治理数据访问，支持生成式AI功能。
Amazon SageMaker：简化数据、模型和AI构件的发现、治理和协作。

智能化：利用AI简化流程

Amazon Q：基于自然语言提供数据洞察和代码建议。
Amazon Redshift Serverless：AI驱动的扩展和优化，自动组织数据。
高可靠性和安全性：Amazon S3、Amazon Lake Formation等提供数据存储和保护。

结语

企业需将数据作为战略资产，通过数据AI推动创新。亚马逊云科技提供全面服务支持企业构建数据基础，发挥数据价值并实现实时洞察向实质性创新转化。

助力企业发掘数据更大价值的关键属性目录引言..................................................................................................3转变为数据驱动型企业...............................................................................5面面俱到.............................................................................................8集为一体............................................................................................16严格治理............................................................................................19智能.................................................................................................22结语.................................................................................................23 简介数据如星星之火，可点燃创新之源数据一向是每个应用程序、流程和商业决策的核心，现今更是如此。数据可谓现代发明的源泉，在当今快速变化的复杂环境中，如何用好企业的数据是加速创新和达成企业目标的关键。生成式人工智能的问世又再次凸显了数据的重要性。如果您希望打造专门适用于自身业务需求的生成式人工智能应用程序，数据是让应用程序具有特色的关键因素。数据是实现从通用应用程序转向生成式人工智能应用程序的关键要素，可为您的客户和业务带来巨大价值。数据分析和机器学习之间的界限越来越模糊，重塑了我们访问数据和与数据交互的方式。通过高效地管理和利用数据，企业不仅可以推动人工智能计划的发展，还可以挖掘新的见解，优化流程，打造更加个性化的客户体验。能否正确地收集、处理和利用数据（无论是真实数据还是合成数据），已成为区分行业领导者和跟风者的关键因素。具备这样的能力之后，企业就可以实现更快的创新周期，做出更明智的决策，推动业务的可持续增长。简介没有必要全盘重来打造数据驱动型企业，要从构建适当的数据基础着手。好消息是，经过验证的数据基础已然存在，企业已经纷纷借助亚马逊云科技来利用这些数据。例如，AstraZeneca在整个企业内整合并扩展其数据和人工智能（AI）功能，以此加速推动创新，改善患者疗效。该公司现在能够在不到30个小时的时间里运行超过510亿次统计测试，加速提供药物研发项目所需的基因组学洞察。BMW Group利用数据来优化其供应链并提高生产能力。LG AI Research则利用数据来开发旨在改变企业业务流程的生成式人工智能应用程序，推动人工智能在时装、制造、科研、教育和金融等各个行业中的普及。由此可见，构建适当的数据基础来实现企业转型是切实可行的。继续阅读来一探究竟。主要挑战和考虑因素生成和存储的数据量远超从前本地工具和传统数据存储已然无法满足当前需求。企业需要能够扩展的数据存储，来满足PB级到EB级数据需求。而且他们需要能够在不牺牲性能的情况下，以经济高效的方式存储这些数据。孤立存在于多种来源的数据导致生产率低下，成本高涨组织需要处理各种不同类型的数据，包括日志文件、点击流、语音和视频等。而这些数据通常分别存储在不同的数据存储和部门，彼此孤立。这就让利用数据和挖掘切实可行的洞察变得非常困难。要将基础设施打造成创造价值的引擎，而不再是复杂性和支出的源头，企业就必须打破这些孤岛来整合所有数据。分析与人工智能/机器学习计划呈现出融合趋势分析与人工智能之间的关系日益紧密。我们的客户表示，他们发现自己的分析和人工智能工作负载越来越多地围绕大量相同的数据融为一体，这正在改变他们使用分析工具处理数据的方式。客户并非孤立地使用分析工具和人工智能工具。他们将以往用于分析或业务报告的数据，输入到机器学习（ML）模型和人工智能驱动的应用程序中，以期发挥作用。例如，一家零售公司过去只将销售数据用于月度控制面板，现在则会将这样的数据输入机器学习模型，用于自动库存管理、动态定价和个性化产品推荐，这体现了传统分析数据集如何越来越多地为人工智能应用程序提供动力。转变为数据驱动型企业分析和机器学习的采用仍然面临着技能缺乏和企业惰性等障碍尽管数据驱动型决策具有明显的优势，但许多企业在全面接受分析和机器学习方面仍举步维艰。人才缺口仍然是一个重大障碍，市场对数据科学家和机器学习工程师有大量需求，但这方面的人才存在短缺。即使公司拥有合适的人才，也往往面临文化阻力和企业惯性。长期以来的手动流程、对人工智能驱动型见解的怀疑态度，以及对“我们一直以来的做事方式”的安于现状，仍在延缓对更先进的数据工具和方法的采用。要突破这些障碍，既需要技术培训，也需要文化转型。传统的治理实践和工具存在限制传统的数据治理方法将数据束缚在孤岛之中，难以适应不断变化的业务需求，扼杀了创新。团队将宝贵的时间浪费在管理权限和访问控制方面，这些时间本可用于开发新产品和提升业务价值。虽然企业需要快速行动和快速迭代，但过时的治理流程让他们不得不缓慢而谨慎地行动，进一步加剧了安全性与速度之间的紧张关系。确保数据安全日益困难加快创新的压力给数据安全性和隐私性带来了更大的压力。过去，IT团队还能在架构的速度和安全之间择一取舍，而如今，两者必须兼顾。同时，根据埃森哲公司的《State of Cybersecurity Resilience 2023》报告，从2022年到2023年，有97%的企业遭遇的网络安全威胁不断增加，而外部网络入侵的成功率仍然很高，达到了61%。1企业如何大幅提高隐私保护和安全性？四大关键属性助力企业发掘数据更大价值与那些对数据依赖程度较低的企业相比，高度依赖数据的企业在制定决策方面取得显著改进的可能性要高三倍。2 实施数据基础来简化转型之旅中各个环节的数据管理（从数据摄取、存储和查询，到分析、可视化和运行机器学习模型等），而这需要具备四个基本属性。不论企业面临着什么样的挑战，数据基础都应该： •面面俱到：针对任何用户、数据类型和应用场景，提供具有卓越性价比的合适工具•集为一体：打破孤岛，整合企业所有数据，让数据可以有效地发挥作用•严格治理：严格管理数据，让用户能够根据需要随时随地安全地访问数据，以此提高团队的行动速度，进而加速创新•智能：借助人工智能简化数据管理，优化查找、使用数据以及从数据中获得洞察的过程成功建成数据驱动型企业可能还需要更广泛的思维模式转变，即目标和决策都由涵盖人员、流程、工具和教育在内的数据基础提供支持。面面俱到驱动任意数据工作负载或应用场景所需的全部工具和功能企业需要构建可持续的数据基础，才能够满足企业现在和未来的需求。企业要高效利用数据，需要的不仅仅是一个数据湖、数据仓库或商业情报（BI，Business Intelligence）工具，而是需要搭配一套全面工具的数据基础，才能应对各种规模和种类的数据，从而满足您所需的各种用途。选择具有创新精神的云提供商合作伙伴，他们会不断为您提供所需的全部数据工具，并为您的应用场景提供合适的性价比，这就能够确保您拥有一个能够与您一起成长的数据基础。亚马逊云科技提供广泛、深入的数据功能，能够支持各种数据工作负载或应用场景。从应用程序的数据库到数据湖的存储，到分析，再到人工智能/机器学习和最终用户工具，亚马逊云科技在每个领域都提供了合适的功能，因此您不必在性能、成本或结果方面做出妥协。亚马逊云科技不断加快创新步伐，确保您的数据需求始终能够得到满足。亚马逊云科技在我们的数据服务中注入了智能，消除了管理数据和从数据中获取价值相关的繁重工作。使用亚马逊云科技数据库扩展数据驱动型应用程序使用亚马逊云科技数据库，在现代化的数据基础上大规模构建应用程序，为您的应用场景提供卓越性价比。例如，10万多家企业使用AmazonAurora在全球实现了无与伦比的高性能和可用性，而成本仅为商业数据库的1/10。对于图形、流式传输和文档等各种应用场景，亚马逊云科技提供了八种专用数据库引擎，每个引擎均经过专门的设计，可以为您的应用程序提供卓越性能，并让您在拥有数据库方面更具经济效益。亚马逊云科技还在其非常受欢迎的数据库中提供向量功能，这些数据库包括Amazon Aurora、AmazonRDS、AmazonOpenSearchService、AmazonNeptune以及AmazonDocumentDB，便于开发人员使用向量搜索功能进行创新，打造独特的体验。面面俱到数据基础案例研究实现经济高效的数据基础且不牺牲性能。通过优化成本，使企业能够最大化其现有能力： Carrier公司连通了其冷链物流网络，助力客户优化冷链运营，降低能源消耗，并通过降低运输过程中的成本、延误、货物丢失及变质情况，取得了更好的业务成果。美国联合航空公司打造了一座智能机场，采用2万多个传感器生成数据来推动实时洞察，优化地面设备功能，并通过减少不必要的设备部署节省了1.2亿美元的费用。三星在迁移到Amazon Aurora PostgreSQL之后，每月运营成本节省了44%，且维护费用也节省了22%。面面俱到新一代Amazon SageMaker：面向所有数据、分析和人工智能服务的中心新一代AmazonSageMaker通过统一的数据访问和治理，解决将所有企业数据用于分析和人工智能时的挑战，而不受数据存储位置的限制。利用该服务，团队能够安全地查找、准备和协作处理数据资产，并通过单一平台构建分析和生成式人工智能应用程序，从而加快从数据到价值的转化。使用单一数据和人工智能开发环境加快协作和构建速度 AmazonSageMakerUnifiedStudio提供了一种集成体验，可将您的所有数据和工具用于分析和人工智能服务。发现您的数据，并使用熟悉的亚马逊云科技工具将其用于模型开发、生成式人工智能、数据处理和SQL分析。使用统一的笔记本处理计算资源，使用内置的SQL编辑器发现和查询各种数据来源，大规模训练和部署人工智能模型，以及快速构建自定义生成式人工智能应用程序。创建并安全地共享分析和人工智能构件，如数据、模型和生成式人工智能应用程序，以便更快地将数据产品推向市场。面面俱到利用各种工具开发和扩展人工智能应用场景借助采用安全设计的全面人工智能开发功能组合，在Amazon SageMaker中加速人工智能的发展。在高性能且经济实惠的基础设施上训练、自定义和部署机器学习及基础模型（FM）。从高性能的集成式开发环境（IDE）和分布式训练，到推理、用于IT运维的人工智能（AIOps）、治理和可观测性，在整个人工智能生命周期中，有各种专用工具可供使用。利用先进的模型和您的专有数据，根据自身业务，快速创建量身定制的生成式人工智能应用程序。使用Amazon Q开发者版，您可以通过自然语言更轻松地发现数据、构建和训练机器学习模型、生成SQL查询以及创建和运行数据管道作业，从而加速人工智能开发。利用开放式智能湖仓统一所有数据，减少数据孤岛借助AmazonSageMaker智能湖仓，跨AmazonSimpleStorageService（AmazonS3）数据湖以及AmazonRedshift数据仓库，实现对所有数据的

点击免费查看完整报告

生成式人工智能时代终极指南：奠定夯实数据基础

引言

构建数据驱动型企业的关键

当前数据挑战

四大关键属性

亚马逊云科技解决方案

案例研究

集为一体：打破数据孤岛

严格治理：简化数据访问

智能化：利用AI简化流程

结语

你可能感兴趣

2026年行业数据与AI终极指南：从炒作到商业价值，驾驭数据、生成式AI与AI智能体

2025年数据与人工智能终极行业指南

游戏数据与人工智能终极指南

生成式AI圣经：生成式AI颠覆的终极指南

首份生成式人工智能数据合规指南

2026年人力资源人工智能转型终极指南

人工智能在社交媒体管理中的终极指南

精通人工智能2025——超越ChatGPT的终极分步指南，提升生产力并使您的技能面向未来。

终极购买指南：人工智能支付采购软件

生成式人工智能应用于教育与研究领域的指南