您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:数据库领域专家交流纪要-20240320 - 发现报告
当前位置:首页/会议纪要/报告详情/

数据库领域专家交流纪要-20240320

2024-03-20未知机构f***
数据库领域专家交流纪要-20240320

数据库领域专家交流纪要Q:AI 对数据储存和分析的影响是什么?尤其是深度学习模型在数据储存方面的需求?A:目前深度学习模型,特别是像 GPT-4 这样的大型模型,它们在预训练阶段所需的数据集大小已经达到几十甚至几百 TB 的规模。随着模型能力 的扩展,例如从文本到图像再到视频处理,其数据集的规模正在不断增加,未来可能发展到 PB 级 别(即百万 GB)。这类海量的训练数据一般不会 存储于传统的关系型数据库中,而是存储在大型的分布式文件系统内。数据库领域专家交流纪要Q:AI 对数据储存和分析的影响是什么?尤其是深度学习模型在数据储存方面的需求?A:目前深度学习模型,特别是像 GPT-4 这样的大型模型,它们在预训练阶段所需的数据集大小已经达到几十甚至几百 TB 的规模。随着模型能力 的扩展,例如从文本到图像再到视频处理,其数据集的规模正在不断增加,未来可能发展到 PB 级 别(即百万 GB)。这类海量的训练数据一般不会 存储于传统的关系型数据库中,而是存储在大型的分布式文件系统内。在大规模分布式预训练中,数据加载(dataloader)需要与底层文件系统结合,进行优化以提升数据由硬盘到内存再到GPU 显存的加载效率,形成一个高效的流水线。这些变动将对数据存储技术提出更高的要求。Q:数据库厂商支持 AI 模型推理服务的情况如何?AI 在数据分析方面的作用是什么?A:目前,数据库厂商都在支持大模型推理服务,他们通过集成开源模型并将其包装成用户自定义函数(userdefinedfunction),允许数据库用户直接在数据库中使用这些模型。这些函数可以应用于数据库表的行上,例如自动总结用户的投诉内容。然而,大多数数据库厂商没有自己训练模型的能力,依赖于开源模型,使得他们之间的差异化较小。他们能做的主要是优化推理框架的性能并降低成本,但在模型层面无法提供独特优势。所以,虽然 AI 带来了一定的影响,但在数据分析方面可能并没有造成显著的增量需求。Q:AI 对传统数据库需求的影响如何?为什么Snowflake 和 MongoDB 等数据库公司对未来展望保守?A:对于 Snowflake 和 MongoDB 这类公司来说,他们的主要收入仍然来源于传统数据库的工作负载。以 Snowflake 为例,其 AIML 相关营收仅占总收入的 2%到 3%。即使这部分收入翻倍,对整体收入的贡献也相对有限。在业绩上,Snowflake 在 2023 财年预期增长速度下调,且不断下调预期,导致股价表现不佳。这种情况表明,尽管 AI的发展对数据基础设施提出了一定需求,但并没有带来数据库需求的大幅增长,同时公司的传统数据库业务增长放缓也影响了其业绩预期。Q:Iceberg 数据库对传统数据库需求的影响如何?A:Iceberg 是一个开放的表格式(opentableformat),允许不同的数据库产品使用通的储存格式,但并不一定要按照关系型数据库的方式去存储。这种大数据存储形式可能会使得客户对传统关系型数据库的需求降低,因为它提供了更灵活和优化的数据存储方案。事实上,在业绩会上,此概念被大量提及,表明 Snowflake 等公司正将精力投入到这类创新数据库技术上,可能在一定程度上改变现有数据储存和分析的格局。Q:Snowflake 的数据存储优化和客户需求有什么问题?数据迁移趋势对 Snowflake 有哪些影响?A:Snowflake 针对执行层面和数据存储格式进行了一些优化,但由于目前无法完全满足一些大客户全部需求,这些客户要求 Snowflake 支持一种名为 Xberg 的开源表格格式,以便于数据迁移。问题在于这会导致这些客户将数据托管在自己的服务器上,而不是 Snowflake 的云环境中。对 Snowflake 而言,意味着潜在的储存收费损失,此外,由于客户的数据可以在众多数据库厂商间轻易迁移,进而导致用户粘性降低。这两个因素都对 Snowflake 的营收构成了负面影响。Q:Sberg(指 Xberg)的出现对整体数据库行业迁移成本有什么影响?A:Sberg 作为一种新的开源数据格式,可能会被多家数据库厂商支持,这将大大降低客户随时更换数据库系统的成本和门槛。从长远来看,这对整个数据库行业意味着企业迁移的成本降低,也意味着存在着供应商多样化竞争加剧。Q:各个头部数据库厂商有哪些特点和产品?A:Snowflake 起初专注于“数据仓库托管和使用”场景,擅长处理分析性能极致的情况,但这只是数据库的一部分。现在 Snowflake 除了数据仓库外还开发了其他功能,例如 Snowpark(一个内部重写的 Spark 系统),以及DataMarketplace,这允许客户通过 API 共享他们存储在 Snowflake 中的数据,使得数据使用更加多样化。这表明 Snowflake 不断在扩展其产品线以满足更多不同客户的需求。 Q:对最近中国 unit store 以及它对数据仓库hybridtable 的创新的看法?A:Unit store 是一个提升数据处理并发性能的新型表结构,即 hybridtable。它能够支持每秒几千到几万的 transaction,并发度达到几千到几万,同时还能够保持接近传统 datawarehouse 百分之七八十的分析性能速度。目前,这个产品还处于publicpreview 阶段,并预计在半年后实现generalavailability(GA),意味着产品可能仍需多方面的优化。Q:能否就 Databricks 和它在数据处理方面的特色进行比较说明?A:Databricks 在数据处理方面有其独特之处。它源自 Berkeley 的一个叫 Spark 的开源框架,后 来 SaaS 化并开始收费。我记得数据显示,Databricks 在数据仓库方面的收入约为 2.5 亿美 元,而去年的总营收大约是 16 亿美元,表它的大 部分收入并非仅仅来自数据仓库。Databricks 的 Spark 产品化是其主要的收入来源。与传统的数 据仓库相比,Spark 提供了更丰富的前端接口支 持,包括 Java、Python 等多种语言,使得它可以 通过类似 MapReduce 的编程范式进行更复杂的 数据 pipeline 处理,例如应用不同的 filter 对数据 进行连续处理。Q:如何看待 Snowflake 和 Databricks 在 AI 领域的差异?A:Snowflake 虽然在数据库方面表现突出,但在 AI 领域相比较显得缺乏基因。它的创始团队更擅长数据库技术,对 AI 的理解不深。而Databricks 在 AI 方面则更胜一筹,先是收购了MLflow,一个优秀的 AI 数据平台,接着又战略投资了 MixtureAI,这家公司由 FacebookAIResearch 团队的成员创立,表现也相当不错。我个人认为,在 AI 领域,Databricks 相较Snowflake 有着更明显的优势。Q:AWS 的数据库产品有哪些特点?他们在AWS 的营收中占比如何?A:AWS 的数据库产品主要有三种,第一种是AmazonAurora,它是与 MySQL 和 PostgreSQL兼容的关系型数据库产品。第二种是AmazonRedshift,适合处理数据仓库需求。第三种是 AmazonDynamoDB,它是一个非关系型数据库,以键值对形式存储数据,没有关系型数据库的一些约束条件,像主键约束和外键约束。根据我所知,AWS 年营收约为 800 亿美金,其中30%到 40%来自数据库产品,这意味着 AWS 的数据库服务每年可以贡献约 300 亿美金的收入。Q:谷歌在数据库领域的状况如何?为何谷歌没有在云数据库市场中取得领先地位?A:谷歌拥有技术的领先优势,比如 Spanner 和Google CloudBigtable。Spanner 是全球分布式的数据库,非常先进,但市场上能充分利用其特性的公司非常有限,故谷歌并未将其广泛推向市场。谷歌试图将内部用于处理广告数据的 F1 数据库商业化,推出了名为 BigQuery 的外部版本。不过,谷歌在云计算服务方面的发展似乎不够好,主要是由于服务性质的产业需要更高的服务精神 和客户服务质量,但谷歌传统依赖广告收入较为容易,可能缺乏服务客户的热情。因此,在吸引客户方面,谷歌云数据库并未像 AWS 或MicrosoftAzure 那样吸引力十足。Q:微软在数据库领域有哪些产品?这些产品的特点是什么?A:微软同样在数据库领域有着深厚的历史,主要产品包括 Microsoft SQLServer 和 AzureCosmos DB。SQL Server 是类似于AmazonAurora 的可与 MySQL、PostgreSQL 兼容的云数据库。CosmosDB 则是一个多模型数据库,支持键值、文档、列族和图形这些数据模型,但对它具体的定义存在一定的困难,因为它的多功能性。Q:Oracle 在数据库市场中的现状怎样?他们在云服务方面有哪些动作?A:Oracle 在云计算出现之前一直是数据库市场的霸主,特别是在金融机构中广泛使用。但在云服务方面,他们有些落后。Oracle 通常被分为两大部分,一个是传统的数据库服务,客户群相对稳定,营收增长主要通过提价实现;另外,OracleCloud Infrastructure(OCI)是他们在云服务市场的主要推动者。OCI 近期在 AI 方面做得不错,且即将在与英伟达的合作中发布一些新的消息。Oracle 有稳定的既有客户基础,尤其是政府和银行等不太愿意转移到新品牌的客户端,而OCI 在云服务方面发展势头良好。Q:DataBreak 在 AI 哪些方向相比其他数据库厂商有领先优势?A:DataBreak 在 AI 方面的主要优势在于他们有比竞争对手快的大模型训练速度。去年,他们发布了一个大模型,虽然我忘记了具体名字,但关键是他们的模型训练速度比其他厂商如Snowflake 要快。Snowflake 曾提到从微软吸收了大约五名人员组建了团队进行大模型开发,但在进度上比 DataBreak 落后约一年。另外,DataBreak 的 CTO 是马佩,他和 Youngboxer 都是学术界的知名教授,这对招聘有影响力,可以吸引更多的 AI 候选人。在对大模型进行推理性能优化方面,DataBreak 通过收购公司增强了自己的能力,而 Snowflake 的近期收购看起来没有达到预期效果。Q:为什么说 Snowflake 在 AI 方面的大模型没有像 DataBreak 那样形成差异化优势?A:尽管 Snowflake 在 AI 的模型层面有努力,但他们在推理性能优化方面相对落后,这是 DataBreak 的领先领域之一。此外,Snowflake最近的收购似乎没有太成功。他们收购的两家公司,一家产品未能成功,另一家则是创始人及其团队离职,造成了核心实力的流失,因此在吸引AI 人才上也不如 DataBreak。这些因素合在一起可能使得 Data Break 在 AI 领域更具领先。Q:在 AI 趋势下,数据库厂商需要在哪些方面进行投入,可能形成差异的优势?A:数据库厂商在 AI 趋势下首先需要投入大模型的开发与训练,在这个过程中加速模型的推理性能优化。此外,招聘在 AI 领域有影响力的人才是重要的一环,能够提升研发能力和产品创新速度。厂商还需要通过收购或内部研发来完善自身的 AI 技术栈,提供更加丰富和集成化的解决方案,这将有助于形成技术和市场上的差异化竞争优势。Q:AI 对数据基础设施的影响表现在哪些方面?A:AI 对数据基础设施的影响主要体现在以下几个方面:首先是通过技术如 techtoSQL,使得通过自然语言给出指令生成 SQL 代码成为可能。目前,一些数据库公司如 snowflake 内部已经有了这样的产品,例如 snowflakepilot。其次是数据库访问接口的改进,比如能通过类似 notebook的 Python 接口直接读写数据库,改善模型训练过程中的数据读取和处理体验。再

你可能感兴趣

hot

数据库领域专家交流纪要

未知机构2024-03-20
hot

铜专家交流纪要-20240320

未知机构2024-03-20
hot

橡胶专家交流纪要-20240320

未知机构2024-03-20
hot

生猪专家交流纪要-20240320

未知机构2024-03-20