行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

探讨AI对数据基础设施的影响

2024-03-17 未知机构喵小鱼

1.Al 数据集与存储挑战随着 Al 模型复杂度的增加，如 GPT-4 等大型横型的数据存储需求急剧增长，达到几十到几百 TB 级别，并且预训练数据集规模预期将持续扩大至 PB级别。 -Al 模型训练不再依赖传统关系型数据库，而是采用分布式文件系统。为了提升训练效率，需要对数据加载器和文件系统进行深度优化。数据库厂商在提供大模型推理服务时面临同质化竞争，只能通过提高推理框架性能和降低价格来争取市场份额。2.机遇与挑战-Snowflake 虽然在执行层面和数据存储格式上进行了优化，但仍难以满足部分大客户对于处理大规模数据的需求，导致这些客户可能转向开源表格格式(例如 Icebeg 以及自托管服务器。这种转变不仅影响 Snowflake 在数据存储方面的收入，还降低事客户迁移成本，减弱了其市场粘性。3.AI 数据基建新角逐-UnitStore 作为一种新型结构，旨在提升数据压并发性能和分析性能，日前正处于公测阶段，预计半年后将正式发布。然面产晶仍需进一第优化以适应市场需求。 -DataBricks 基于开源 Spark 框架构建的点品具有较强的 Al 基因，通过收购和战略投资增强了白身在 Al 数据领域的竞争力，尽管其主要收入来源并非数据仓储业务。4.Al 时代数据基础设施洞见-AWS 凭借其多样化的数据库产品，如 RDS、Auror a 和 DynamoDB，在 Al 领域占据领先地位，年营收中的 30%~40%来源于比业务线。-谷歌云数据库敏拥有先进的技术如 BigQuery，但在服务精神和吸引客户方面尚不如 AW S 和 Microsot 导致市场份额相对较低。. .. Orace 在传统数据库市场稳固，尤其在政府和银行行业有深厚基础，但其云服务 Oracle Cloud nfrastruature (OCl)还需在 Al 方向加大投入，以缩小与领先者的差距。…5.人才招聘与竞争优势-DataBricks 在 Al 模型训练和推理性能优化上的优势使其更具吸引力，尤其是 Pre-IPO 状态和知名 CTO 的加盟，有助于吸引更多 Al 人才加入。相比之下，Snowflake 近期的收购效果不尽人意，对 Al 人才的吸引力相对较弱，这可能对其在 Al领域的竞争地位造成不利影响。6.Al 拓展传统数据基建技术趋势显示，数据库厂商正积极探索“techto SQl”技术，如 snowflake pilot 可将自然语言转化为 SQL 指令，简化操作流程。同时，“tech to code”也逐渐成为关注点，未来或将成为标配。为适应 Al 发展，现有数据库产品支持 CQL 访问和 Python 等编程语言直接操作数据，但对于大型模型训练，则不适合放在关系型数据库中，更倾向于使用专门的大规模并行计算环境。7.矢量搜索市场及 Al 应用策略矢量搜索作为新兴技术，市场规模有限，各数据库厂商争相开发此功能，但由于容量限制，市场可能无法支撑所有参与者的生存， Al 大语言模型的应用前景广阔，销售和服务软件提供商可通过集成 Al 模型提高数据分析能力，降低成本，实现多方共赢。8.边缘计算与 Al 安全-边缘计算的发展要求 AI 技术小型化、低延迟，将在边缘端发挥关键作用，同时，AI 模型需要针对边缘设备的硬件特性进行压缩和优化。对于数据安全，企业会加大对差分隐私等技术的投入，尽管该技术可在保护个人隐私的同时进行数据分析，但可能会影响机器学习模型的准确性。9.Al 对数据处理的影响-Al 模型在处理隐私数据时必须严格遵守相关法规，确保预训练后的数据清洗和模型设计能够避免输出敏感信息。在部署和推理优化上，市场竞争激烈，许多公司提供的解决方案存在同质化现象，而推理优化带来的盈利并不显著，其至有的公司因此选择减少投入。10.泛娱乐 Al 产品的市场潜力泛娱乐类 Al 产品由于用户接受度高、容错率较高，因此在市场前景上有更大优势，相比工具类产品而言，具备更强的商业发展潜力。Q&AQ：Al 对数据储存和分析的影响是什么？尤其是深度学习模型在数据储存方面的需求？ A：日前深度学习模型，特别是像 GRT⁴这样的大型模型，它们在预训练阶段所需的数据集大小已经达到几十甚至几百 TB 的规模。随着稍型能力的扩展，例如从文本到图像再到视频处理，其数据集的规模正在不断增加，未来可能发展到 PB 级别(即百万 GB)。这类海量的训练数据一般不会存储于传统的关系型数据库中，而是存情在大型的分布式文件系统内。在大规模分布式预训练中，数据加载(dataloader)需要与底层交住系统结合，进行优化以提升数据由硬盘到内存再到 GPU 显存的加载效率，形成一个高效的流水线，这些变动将对数据存储技术提出更高的要求。 Q：数据岸而支持 Al 模型推理服务的情况如何？Al 在数据分析方面的作用是什么？A：日前，数据库厂商都在支持大模型推理服务，他们通过集成开源模型并将其包装成用户自定义函数(userdefinedfunction)，允许数据库用户直接在数据库中使用这些模型。这些函数可以应用于数据库表的行上，例如自动总结用户的投诉内容。然而，大多数数据库厂商没有自己训练模型的能力，依赖于开源模型，使得他们之间的差异化较小。他们能做的主要是优化推理框架的性能并降低成本，但在模型层面无法提供独特优势。所以，虽然 Al 带来了一定的影响，但在数据分析方面可能并没有造成显著的增量需求。Q：Al 对传统数据库需求的影响如何？为什么 Snowflake 和 MongoDB 等数据库公司对未来展望保守？ A：对于 Snowflake 和 MongoDB 这类公司来说，他们的主要收入仍然来源于传统数据库的工作负载、以 Snowflake 为例，其 AIML 相关营收仅占总收入的 2%到 3%。即使这部分收入翻倍，对整体收入的页献也相对有限。在业绩上，Snowflake 在 2023 财年预期增长速度下调，且不断下调预期，导致股价表现不佳。这种情况表明，尽管 Al 的发展对数据基础设施提出了一定需求，但并没有带来数据库需求的大幅增长，同时公司的传统数据库业务增长放缓也影响了其业绩预期。 Q：Iceberg 数据库对传统数据库需求的影响如何？A：Iceberg 是一个开放的表格式(open tableformat)，允许不同的数据库产品使用通的储存格式，但并不一定要按照关系型数据库的方式去存储。这种大数据存储形式可能会使得客户对传统关系型数据库的需求降低，因为它提供子吏灵活和优化的数据存储方案。事实上，在业绩会上，此概念被大量提及，表明 Snowflake 等公司正将精力投入到这类创新数据库技术上，可能在一定程度上改变现有数据储存和分析的格局。Q：Snowflake 的数据存储优化和客户需求有什么问题？数据迁移趋势对 Snowfla ke 有哪些影响？ A：Snowflake 针对执行层面和数据存储格式进行了一些优化，但由于目前无法完全满足一些大客户全部需求，这些客户要求 Snowflake 支持一种名为 Xberg 的开源表格格式，以便于数据迁移。问题在于这会导致这些客户将数据托管在自己的服务器上，而不是 Snowflake 的云环境中。对 Snowflake 而言，意味着潜在的储存收费损失，此外，由于客户的数据可以在众多数据库厂商间轻易迁移，进而导致用户粘性降低。这两个因素都对 Snowflake 的营收构成了负面影响。Q：Sberg(指 Xberg)的出现对整体数据库行业迁移成本有什么影响？A：Sberg 作为一种新的开源数据格式，可能会被多家数据库厂商文持，这将大大降低客户随时更换数据库系统的成本和门槛。从长远来看，这对整个数据库行业意味着企业迁移的成本降低，也意味着存在着供应商多样化竞争加剧，Q：各个头部数据库厂商有哪些特点和产品？ A：Snowflake 起初专注于“数据仓库托管和使用”场景，擅长处理分析性能极致的情况，但这只是数据库的一部分。现在 Snowflake 除了数据仓库外还开发了其他功能，例如Snowpark(一个内部重写的 Spark 系统)，以及 DataMarketplace，家允许客户通过 API 共享他们存储在 Snowflake 中的数据，使得数据使用更加多样化。这表明 Snowflake 不断在扩展其产品线以满足更多不同客户的需求。Q：对最近中国 unitstors 以及它对数据仓库 hybridtable 的创新的看法？ A：Unit store 是个提升数据处理并发性能的新型表结构，即 hybridtable。它能够支持每秒几千到几万的 tahsaction，并发度达到几千到几万，同时还能够保持接近传统 datawarehouse 百分之七八十的分析作能速度。目前，这个产品还处于publicpreview 阶段，并预计在半年后实现 generalavailabllty(GA)，意味着产品可能仍需多方面的优化。 Q：能否就 Databricks 和它在数据处理方面的特色进行比较说明？ A：Databricks 在数据处理方面有其独特之处。它源自 Berkeley 的一个叫 Spark 的开源框架，后来 Saas 化并开始收费。我记得数据显示，Databricks 在数据仓库方面的收入约为 2.5 亿美元，而去年的总营收大约是 16 亿美元，表它的大部分收入并非仅仅来自数据仓库。Databricks 的 Spark 产品化是其主要的收入来源。与传统的数据仓库相比，spark 提供了更丰富的前端接口支持，包括 Java、Python 等多种语言，使得它可以通过类似 MapReduce 的编程范式进行更复杂的数据pipeline 处理，例如应用不同的 filter 对数据进行连续处理。Q：如何看待 Snowflake 和 Databricks 在 Al 领域的差异？ A：Snowflake 虽然在数据库方面表现突出，但在 Al 领域相比较显得缺乏基因。它的创始团队更擅长数据库技术，对 Al 的理解不深。而 Databricks 在 Al 方面则更胜一筹，先是收购了 MLflow，一个优秀的 Al 数据平台，接着又战略投资了 MixtureAl，这家公司由 FacebookAIResearch 团队的成员创立，表现也相当不错。我个人认为，在 Al 领域，Databricks 相较 Snowflake 有着更明显的优势。 …………Q：AWS 的数据库产品有哪些特点？他们在 AWS 的营收中占比如何？A：AWS 的数据库产品主要有三种，第一种是 AmazonAurora，它是与 MySQL 和 PostgreSQL 兼容的关系型数据库产品。第二种是 AmazonRedshit，适合处理数据仓库需求。第三种是AmazonDynamoDB，它是一个非关系型数据库，以键值对形式存储数据，没有关系型数据库的一些约束条件，像主键约束和外键约束。根据我所知，AWS 年营收约为 800 亿关金，其中30% 到 40%来白数据库产品，这意味着 AWS 的数据库服务每年可以费献约 300亿美金的收入。 Q：谷歌在数据库领域的状况如何？为何谷歌没有在云数据库市场中取得领先地位？A：谷歌拥有技术的领先优势，比如 Spanner 和 Google CloudBigtab le。Spanner 是全球分布式的数据库，非常先进，但市场上能充分利用其特性的公司非常有限，故谷歌并未将其广泛推向市场。谷歌试图将内部用于处理广告数据的 F1 数据库商业化，推出了名为 BigQuery 的外部板本，不过，谷歌在云计算服务方面的发展似乎不够好，主要是由于服务性质的产业需要更高的服务精神和客户服务质量，但谷歌传统依赖广告收入较为容易，可能缺乏服务客户的热情。因

点击免费查看完整报告

探讨AI对数据基础设施的影响

你可能感兴趣

策略周评：新“国九条”对部分行业中长期格局影响的探讨

银行间流动性周报：增发国债对债市的影响探讨

中国对荷兰未来海上物流枢纽功能的影响探讨

专题报告：钢材厂库对表观消费的影响因素探讨

PTA MEG专题报告：增值税下调对聚酯产业影响逻辑的理论探讨

对老板电器渠道变革的分析探讨：渠道变革对未来3年构成决定性影响

中概股回归对港交所ADT增厚影响的探讨：双重上市和二次上市有本质区别，港交所提供制度保障

探讨新“国九条”、大规模设备更新政策对白酒行业的影响

探讨ChatGPT的情感化使用及其对用户情绪健康的影响（英）

在中国“新”经济与人口结构背景下如何平衡工作与家庭探讨政策选择及其对女性和性别平等的影响

探讨AI对数据基础设施的影响

你可能感兴趣

策略周评：新“国九条”对部分行业中长期格局影响的探讨

银行间流动性周报：增发国债对债市的影响探讨

中国对荷兰未来海上物流枢纽功能的影响探讨

专题报告：钢材厂库对表观消费的影响因素探讨

PTA MEG专题报告：增值税下调对聚酯产业影响逻辑的理论探讨

对老板电器渠道变革的分析探讨：渠道变革对未来3年构成决定性影响

中概股回归对港交所ADT增厚影响的探讨：双重上市和二次上市有本质区别，港交所提供制度保障

探讨新“国九条”、大规模设备更新政策对白酒行业的影响

探讨ChatGPT的情感化使用及其对用户情绪健康的影响（英）

在中国“新”经济与人口结构背景下如何平衡工作与家庭 探讨政策选择及其对女性和性别平等的影响

在中国“新”经济与人口结构背景下如何平衡工作与家庭探讨政策选择及其对女性和性别平等的影响