您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:探讨AI对数据基础设施的影响 - 发现报告

探讨AI对数据基础设施的影响

2024-03-17未知机构喵***
探讨AI对数据基础设施的影响

1.Al 数据集与存储挑战随着 Al 模型复杂度的增加,如 GPT-4 等大型横型的数据存储需求急剧增长,达到几十到几百 TB 级别,并且预训练数据集规模预期将持续扩大至 PB级别。 -Al 模型训练不再依赖传统关系型数据库,而是采用分布式文件系统。为了提升训练效率,需 要对数据加载器和文件系统进行深度优化。数据库厂商在提供大模型推理服务时面临同质化竞争,只能通过提高推理框架性能和降低价格 来争取市场份额。2.机遇与挑战-Snowflake 虽然在执行层面和数据存储格式上进行了优化,但仍难以满 足部分大客户对于处理 大规模数据的需求,导致这些客户可能转向开源表格格式(例如 Icebeg 以及自托管服务器。这 种转变不仅影响 Snowflake 在数据存储方面的收入,还降低事客户迁移成本,减弱了其市场粘 性。3.AI 数据基建新角逐-UnitStore 作为一种新型结构,旨在提升数据压并发性能和 分析性能,日前正处于公测阶段,预计半年后将正式发布。然面产晶仍需进一第优化以适应市场需求。 -DataBricks 基于开源 Spark 框架构建的点品具有较强的 Al 基因,通过收 购和战略投资增强了白 身 在 Al 数据领域的竞争力,尽管其主要收入来源并非数据仓储业务。4.Al 时代数据基础设施洞见-AWS 凭借其多样化的数据库产品,如 RDS、Auror a 和 DynamoDB,在 Al 领域占据领先地位,年 营收中的 30%~40%来源于比业务线。-谷歌云数据库敏拥有先进的技术如 BigQuery,但在服务精神和吸引客户方面尚不如 AW S 和 Microsot 导致市场份额相对较低。. .. Orace 在传统数据库市场稳固,尤其在政府和银行行业有深厚基础,但其云服务 Oracle Cloud nfrastruature (OCl)还需在 Al 方向加大投入,以缩小与领先者的差距。…5.人才招聘与竞争优势-DataBricks 在 Al 模型训练和推理性 能优化上的优势使其更具吸引力,尤其是 Pre-IPO 状态和知 名 CTO 的加盟,有助于吸引更多 Al 人才加入。相比之下,Snowflake 近期的收购效果不尽人意,对 Al 人才的吸引力相对较弱,这可 能对其在 Al领域的竞争地位造成不利影响。6.Al 拓展传统数据基建技术趋势显示,数据库厂商正积极探索“techto SQl”技术 ,如 snowflake pilot 可将自然语言转化 为 SQL 指令,简化操作流程。同时,“tech to code”也逐渐成为关注点,未来或将成为标配。为 适应 Al 发展, 现有数据库产品支持 CQL 访问和 Python 等编程语言直接操作数据,但对于大型 模型训练,则不适合放在关系型数据库中,更倾向于使用专门的大规模并行计算环境。7.矢量搜索市场及 Al 应用策略矢量搜索作为新兴技术,市场规模有限,各数据库厂商争相开 发此功能,但由于容量限制,市 场可能无法支撑所有参与者的生存, Al 大语言模型的应用前景广阔,销售和服务软件提供商可通过集成 Al 模型提高数据分析能力,降低成本,实现多方共赢。8.边缘计算与 Al 安全-边缘计算的发展要求 AI 技术小型化、低延迟,将在边缘端发挥 关键作用,同时,AI 模型需要 针对边缘设备的硬件特性进行压缩和优化。对于数据安全,企业会加大对差分隐私等技术的投入,尽管该技术可在保护个人隐私的同时进 行数据分析,但可能会影响机器学习模型的准确性。9.Al 对数据处理的影响-Al 模型在处理隐私数据时必须严格遵守相关法规,确保预训练后 的数据清洗和模型设计能够 避免输出敏感信息。 在部署和推理优化上,市场竞争激烈,许多公司提供的解决方案存在同质化现象,而推理优化 带来的盈利并不显著,其至有的公司因此选择减少投入。10.泛娱乐 Al 产品的市场潜力泛娱乐类 Al 产品由于用户接受度高、容错率较高,因此 在市场前景上有更大优势,相比工具 类产品而言,具备更强的商业发展潜力。Q&AQ:Al 对数据储存和分析的影响是什么?尤其是深度学习模型在数据储存方面的需求? A:日前深度学习模型,特别是像 GRT⁴这样的大型模型,它们在预训练阶段所需的数据集大小已经达到几十甚至几百 TB 的规模。随着稍型能力的扩展,例如从文本到图像再到视频处理,其数据集的规模正在不断增加,未来可能发展到 PB 级别(即百万 GB)。这类海量的训练数据一般不会存储于传统的关系型数据库中,而是存情在大型的分布式文件系统内。在大规模分布式预训练中,数据加载(dataloader)需要与底层交住系统结合,进行优化以提升数据由硬盘到内存 再到 GPU 显存的加载效率,形成一个高效的流水线,这些变动将对数据存储技术提出更高的 要求。 Q:数据岸而支持 Al 模型推理服务的情况如何?Al 在数据分析方面的作用是什么?A:日前,数据库厂商都在支持大模型推理服务,他们通过集成开源模型并将其包装成用户自定 义函 数(userdefinedfunction),允许数据库用户直接在数据库中使用这些模型。这些函数可以应 用于数据库表的行上,例如自动总结用户的投诉内容。然而,大多数数据库厂商没有自己训练模型的能力,依赖于开源模型,使得他们之间的差异化较小。他们能做的主要是优化推理框架 的性能并降低成本,但在模型层面无法提供独特优势。所以,虽然 Al 带来了一定的影响,但 在数据分析方面可能并没有造成显著的增量需求。Q:Al 对传统数据库需求的影响如何?为什么 Snowflake 和 MongoDB 等数 据库公司对未来展望保 守? A:对于 Snowflake 和 MongoDB 这类公司来说,他们的主要收入仍然来源于传统数据库的工作负 载、以 Snowflake 为例,其 AIML 相关营收仅占总收入的 2%到 3%。即使这部分收入翻倍,对 整体收入的页献也相对有限。在业绩上,Snowflake 在 2023 财年预期增长速度下调,且不断下 调预期,导致股价表现不佳。这种情况表明,尽管 Al 的发展对数据基础设施提出了一定需求,但并没有带来数据库需求的大幅增长,同时公司的传统数据库业务增长放缓也影响了其业绩预期。 Q:Iceberg 数据库对传统数据库需求的影响如何?A:Iceberg 是一个开放的表格式(open tableformat),允许不同的数据 库产品使用通的储存格式,但并不一定要按照关系型数据库的方式去存储。这种大数据存储形式可能会 使得客户对传统关 系型数据库的需求降低,因为它提供子吏灵活和优化的数据存储方案。事实上,在业绩会上,此概念被大量提及,表明 Snowflake 等公司正将精力投入到这类创新数据库技术上,可能在一定程度上改变现 有数 据储存和分析的格局。Q:Snowflake 的数据存储优化和客户需求有什么问题?数据迁移趋势对 Snowfla ke 有哪些影响? A:Snowflake 针对执行层面和数据存储格式进行了一些优化,但由于目前无法完全满足一些大 客户全部需求,这些客户要求 Snowflake 支持一种名为 Xberg 的开源表格格式,以便于数据迁 移。问题在于这会导致这些客户将数据托管在自己的服务器上,而不是 Snowflake 的云环境中。对 Snowflake 而言,意味着潜在的储存收费损失,此外,由于客户的数据可以在众多数据库厂 商间轻易迁移,进而导致用户粘性降低。这两个因素都对 Snowflake 的营收构成了负面影响。Q:Sberg(指 Xberg)的出现对整体数据库行业迁移成本有什么影响?A:Sberg 作为一种新的开源数据格式,可能会被多家数据库厂商文持,这将大大降低客户随时 更换数据库系统的成本和门槛。从长远来看,这对整个数据库行业意味着企业迁移的成本降低,也意味着存在着供应商多样化竞争加剧,Q:各个头部数据库厂商有哪些特点和产品? A:Snowflake 起初专注于“数据仓库托管和使用”场景,擅长处理分析性能极致的情况, 但这只 是数据库的一部分。现在 Snowflake 除了数据仓库外还开发了其他功能,例如Snowpark(一个 内部重写的 Spark 系统),以及 DataMarketplace,家允许客户通过 API 共享他们存储在 Snowflake 中的数据,使得数据使用更加 多样化。这表明 Snowflake 不断在扩展其产品线以满足更多不同 客户的需求。Q:对最近中国 unitstors 以及它对数据仓库 hybridtable 的创新的看法 ? A:Unit store 是个提升数据处理并发性能的新型表结构,即 hybridtable。它能够支持每秒几千到 几万的 tahsaction,并发度达到几千到几万,同时还能够保持 接近传统 datawarehouse 百分之七 八十的分析作能速度。目前,这个产品还处于publicpreview 阶段,并预计在半年后实现 generalavailabllty(GA),意味着产品可能仍需多方面的优化。 Q:能否就 Databricks 和它在数据处理方面的特色进行比较说明? A:Databricks 在数据处理方面有其独特之处。它源自 Berkeley 的一个叫 Spark 的开源框架,后 来 Saas 化并开始收费。我记得数据显示,Databricks 在数据仓库方面的收入约为 2.5 亿美元,而去年的总营收大约是 16 亿美元,表它的大部分收入并非仅仅来自数据仓库。Databricks 的 Spark 产品化是其主要的收入来源。与传统的数据仓库相比,spark 提供了更丰富的前端接口支 持,包括 Java、Python 等多种语言,使得它可以通过类似 MapReduce 的编程范式进行更复杂 的数据pipeline 处理,例如应用不同的 filter 对数据进行连续处理。Q:如何看待 Snowflake 和 Databricks 在 Al 领域的差异? A:Snowflake 虽然在数据库方面表现突出,但在 Al 领域相比较显得缺乏基因。它的 创始团队更 擅长数据库技术,对 Al 的理解不深。而 Databricks 在 Al 方面则更胜一筹,先是收购了 MLflow, 一个优秀的 Al 数据平台,接着又战略投资了 MixtureAl,这家公司由 FacebookAIResearch 团队的 成员创立,表现也相当不错。我个人认为,在 Al 领域,Databricks 相较 Snowflake 有着更明显 的优势。 …………Q:AWS 的数据库产品有哪些特点?他们在 AWS 的营收中占比如何?A:AWS 的数据库产品主要有三种,第一种是 AmazonAurora,它是与 MySQL 和 PostgreSQL 兼容 的关 系型数据库产品。第二种是 AmazonRedshit,适合处理数据仓库需求。第三种是AmazonDynamoDB,它是一个非关系型数据库,以键值对形式存储数据,没有关系型数据库的一些约束条件,像主键约束和外键约束。根据我所知,AWS 年营收约为 800 亿关金,其中30% 到 40%来白数据库产品,这意味着 AWS 的数据库服务每年可以费献约 300亿美金的收入。 Q:谷歌在数据库领域的状况如何?为何谷歌没有在云数据库市场中取得领先地位?A:谷歌拥有技术的领先优势,比如 Spanner 和 Google CloudBigtab le。Spanner 是全球分布式的 数据库,非常先进,但市场上能充分利用其特性的公司非常 有限,故谷歌并未将其广泛推向市场。谷歌试图将内部用于处理广告数据的 F1 数据库商业化,推出了名为 BigQuery 的 外部板本,不过,谷歌在云计算服务方面的发展似乎不够好,主要是由于服务性质的产业需要更高的服务精神和客户服务质量,但谷歌传统依赖广告收入较为容易,可能缺乏服务客户的热情。因