您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[Coalesce]:2025年顶级数据趋势 - 发现报告

2025年顶级数据趋势

信息技术2024-12-02Coalesce善***
AI智能总结
查看更多
2025年顶级数据趋势

行业专家分享他们对来年的预测 目录 4引言:实践创新之年 5从数据管道到知识管道 9通过整合,提供更强大的数据解决方案 33人工智能增强数据工程效率和工作流 37使用半结构化数据进行数据管理中断 贡献者 肯特·格拉齐亚诺T数据战士 TEJAS MANOHAR联合首席执行官兼联合创始人Hightouch FRANK BELL 创始人,数据思想领袖ITS——雪flake解决方案s 巴瑞·摩西首席执行官兼联合创始人 蒙特卡洛 贾斯汀·格里梅 首席运营官和联合创始人Fivetran 商业智能经理Shane Co. 帕特里克·比尔 CINDI HOWSON首席数据战略官 ThoughtSpot ARMON PETROSSIAN 联合创始人兼咨询副总裁 Hakkoda 首席执行官兼联合创始人合并 克里斯·塔布首席运营官兼联合创始人莱特数据 约翰·科斯格雷夫 SATISH JAYANTHI 首席技术官和联合创始人融合 伙伴云威克斯 帕维尔·季诺夫CTO和联合创始人 Cube ARTYOM KEYDUNOV 李德尔克斯CEO DigBI Consulting 首席执行官兼联合创始人 Cube MATT FLORIAN练习总监,SAP交付 hakkoda 古谢 HUGO LU 数据工程组负责人 1001 首席执行官兼创始人乐团 亚当·福克坎 首席技术官和联合创始人ph数据 实践创新之年 2024年是具有里程碑意义的年份。大胆的生成式AI实验吸引了人们的想象力,也吸引了投资资金,而文化讨论则转向了支撑它们的那些数据。在新的一年里,人工智能将继续塑造社会,但方式日益实际,与具体业务价值紧密相连。随着IT团队和企业领导者计算投资回报率并持续面临高利率,许多人正将注意力重新集中在实际应用上,而不是那些理想化的应用上。同时,人工智能正在重塑基础设施,创造了对于数据素养的需求,同时也挑战着企业文化和管理实践,要求它们与时俱进。我们看到很多理由让我们对即将到来的一年充满期待,因为在这一年中,智能数据实践将继续塑造我们周围的世界。 新年的开始不仅是一个展望未来、期待2025年即将到来的创新的时间,也是一个反思的时期。在Coalesce,我们很感激在2024年建立了新的合作伙伴关系,引入了新的集成,并在一个不断挑战和令人兴奋的生态系统中进行了创新。 正如我们在此采访的许多专家所指出的,人类始终是意义重大的变革的核心。Coalesce在数据领域持续转型、改进和创新的能力,得益于我们与该领域最优秀人才的合作。其中一些专家与我们分享了他们对2025年行业走向的观察。凭借他们的智慧和洞察力,我们期待新的一年有一个鼓舞人心的开端。 从数据管道到知识管道 我强调“巨大”有两个原因:首先,我们谈论的是已经被完全释放的LLMs。到2025年底,如果所有客户咨询中还没有至少10%甚至20%涉及LLM互动,我会感到惊讶。这从我们开始的地方是一个巨大的飞跃:基本上是零。未来的消耗潜力是巨大的。 大规模知识管道将走向主流 毋庸置疑,我最大的预测——坦白说这有点作弊,因为我在已经开始着手研究了——是我所说的知识大管道的巨大主流化。这些管道是指将RAG(检索增强生成)工业化到AI中。我们现在处于这个令人难以置信的交汇点上,可以说是“完美风暴”。如果我们还在谈论像过去五年用传统机器学习传送非结构化数据那样,那就不会那么引人注目了。但情况不再是这样了。 让我感到惊讶的是,那些对生成式AI的未来潜力仍然持怀疑态度的人的固执,即使在我看来它已经...明显比我们预想的加速更快. 我们现在看到的是一种新型管道,它不关注传统的关系结构,如元组,而是关注语义结构。这种管道需要适应多语言处理意义的方法,这是一种更全面的关于数据的思维方式,更符合旧的本体论和语义知识概念。这不再仅仅是关于表格——这里有很多不同的结构在起作用。这源于去年关于向量和图数据库兴起的预测。现在,我们有清晰的模式正在出现,将可信知识导入到您首选的LLM的上下文窗口中,并以规模化进行。 约翰·科斯格雷夫合作伙伴云威克斯 但是,我之所以称其为庞大的知识管道,是因为我们过去几年一直在建立这些充满文档、视频、图像和数百TB表格的数据湖。这个多语言环境已经准备好采取行动。因此,当我们谈论将数据转换为向量时,例如,它已经准备就绪。许多公司已经进行了投资,对于尚未投资的公司来说,现在是时候了。这是一个真正的警钟。你负担不起落后,因为如果你这样做,你将在生成式AI的世界中处于劣势。 我认为2025年将成为每个人对科技舒适感产生深刻动荡的一年。我们这个行业中的所有人都将不得不与这样一个事实作斗争:我们的工作正在改变。到2026年,我想其他人也必须这样做。 我相信,业内大多数人已经以某种形式部署了这种系统。我们现在将要看到的是这些数据中心正在被导入新型的管道。它们仍然会像管道一样运作,在意义上传递信息、知识和物质,从任何存储位置传输到特定的终点,一个用于生成的增强检索点。但这些管道的性质从根本上不同。它们更加全面、更加细致。 作为一个在过去两三年里全身心投入生成式人工智能并日常规模化使用它的人,我可以自信地说,我们才刚刚开始揭开潜在语义空间的广阔丰富性。有那么多方法可以将你的知识空间、本体论锚定,以实现特定的RAG结果——你可以根据需要进行定制。这就需要一种配置、工具和迭代的水平,听起来像是现代数据管道开发,就像使用SQL或Python一样。但现在,我们处理的对象不再代码,而更像是一个图书馆索引。 约翰·科斯格雷夫伙伴云威克斯 多个引擎,统一存储 它将变得更加有价值来弄清楚如何拥有对一切事物的统一视图。人们将想要以统一的方式与所有这些计算引擎进行交互,使用一个对各种技能水平都易于接近的单一界面。所以虽然难以预测短期内大型计算引擎公司将做什么,但最合理的未来数据架构将是一个具有统一数据存储、多个引擎(每个引擎都为它最擅长的用例选择)以及一个提供内置治理和从同一系统轻松进行开发和运维的统一视图。 更多公司将依赖多引擎计算 组织将越来越多地使用多个计算引擎来处理数据。我们之前看到了传统本地系统中的这种情况,但现在我们也将开始在云系统中看到它。趋势总是要整合事物,但现在这越来越不重要——拥有两个或多个系统是可以的,特别是因为现在有很多开发者正在使用不同的系统。除此之外,并非所有计算引擎都针对相同的问题,并且有时你必须为特定的用例使用特定的计算引擎。事实上,一些数据库供应商(如Snowflake)正在鼓励组织使用更开放的源格式,例如Iceberg表,这使得数据更容易被竞争对手的系统访问。 人们正逐渐意识到,构建一个AI解决方案非常容易,但是构建一个真正具有价值的AI解决方案要容易得多。 我们将看到向统一存储的大转移 但即使你有多个引擎,所有这些引擎也需要与单个存储层进行通信。这就是为什么我们将开始看到的一个大的趋势是转向统一存储,很可能是在这些开源 Iceberg 表格中。因此,与其整合系统, SATISH JAYANTHI首席技术官和联合创始人融合 数据质量与可观察性将日益重要 我们不应假设某项新技术有一天会出现,从而解决所有我们的问题。我们非常关注技术的演进,但我们不应忘记我们使用这项技术的目的——处理数据。 尽管数据质量和可观测性问题已经被讨论了一段时间,但鉴于它们在人工智能中的关键作用,在接下来的年份里它们的重要性只会持续增长。这意味着拥有一个良好的数据质量和可观测性系统——一个与您的数据转换流程紧密结合的系统——将是未来至关重要的。 数据网格终将起飞 虽然数据网格在行业内已经是一个热门话题有一段时间了,但挑战在于将其从一个有趣的理论转变为一个有用、现实世界的模型。但随着这种新的数据架构出现,它将带我们到达数据网格最终似乎可以实施的地步。 而且这些数据量还将持续增长。所以即使技术不断发展,这个问题也越来越大。 SATISH JAYANTHI首席技术官和联合创始人融合 通过整合,提供更强大的数据解决方案 ARMON PETROSSIAN首席执行官兼联合创始人合并 我们会看到供应商整合成为一种趋势 供应商自身将从整合趋势中获益 人们一直在谈论很多最近由风险投资家支持的公司很快就会用光资金,但我认为这已经发生了。当大多数风险投资支持的企业获得资助时,通常在开始用光资金时,他们可以采取一些策略——例如,使用过桥融资或动用他们的信贷额度来获得大约另外六个月的运作时间。但对于许多数据领域的新创企业,这两个最后的“安全阀”已经被拉起。 这次整合也将有利于供应商自身。随着大型云数据仓库的功能越来越丰富,它们开始对许多外围点解决方案构成威胁。除非你正在构建一个更广泛的平台,否则独特的差异化将变得越来越困难。因此,这种整合趋势将导致许多公司合并,形成更强大、规模更大的组织。 如果你在2021年或2022年进行了轮融资,你可能很快就会在明年年初用光现金。因此,我预计在接下来的一年里,数据领域中的许多供应商将被合并到更大的公司中。好消息是,这实际上将有利于整个行业。过多的风险投资资金导致市场上选项过多,对买家来说可能会令人不知所措。每个特定类别的整合将为客户提供建议更少但功能更全面的解决方案。它也将提供更大的稳定性,因为客户不必担心他们正在使用的解决方案可能会倒闭。 2024年有哪些让你感到惊讶的趋势? 我们都惊讶于开放式表格式(如Iceberg表)在上一年被迅速接纳。这种格式的流行是我们预计将持续到未来的一个趋势。 2025年你希望看到哪种趋势减少? 不要再有考虑不周的AI应用案例了。当然AI很重要,但AI倡议应该聚焦且经过深思熟虑。不幸的是,去年我们看到很多都没有做到这一点。 2025年,你最希望哪个最大的误解得到消除? ARMON PETROSSIAN首席执行官兼联合创始人合并 那SQL的重要性正在下降。事实上,SQL正变得越来越常用,并且已经非常成熟。处理大型数据集没有更好的语言了。 SATISH JAYANTHI首席技术官和联合创始人融合 一个健康的行业重置 实用型、生产级AI应用 将会有一个健康产业的重新洗牌和市场的整合 另一方面,我认为我们将会在一些工具中看到更多有趣的人工智能生产应用。生产级的应用最终可能不会像两年前最初预测的那样酷——我们很可能将从小的规模开始。更多的工具将会获得它们的Copilot,例如。Copilot很棒。它很有用,但它并不完全像魔法;相反,它感觉更像是一个更好的自动补全功能。我相信许多工具将会获得人工智能驱动的改进或更好的工作流程,这些改进在最初似乎不会具有革命性,但将会是人工智能非常好的生产级应用,并且也许会解锁以前不可能实现的一些改进。 分析行业就像过山车:一切都很顺利,然后又跌落,仿佛正在重置。这种情况发生在Hadoop和大数据上,然后在2021年新冠疫情期间现代数据栈变得火热,而去年和今年并非完全一片惨淡,但感觉也快了。我相信这对行业进行这次重置实际上是健康的。每个供应商、每家公司,甚至每个数据团队都应该思考他们创造的价值以及如何实现这些价值。 这导致一些人开始思考,我们这个领域是否供应商太多,工具太多。我的感觉是,这种情绪至少会持续到明年,而我们将达到一些整合将发生的点。我们将从某些类别中多个供应商的混乱过渡到一个更结构化的市场。 AI代理弥补行业健忘症 你最钦佩哪位商业领袖?为什么? 鲍勃·穆格利亚,投资人、顾问,以及曾是雪flake公司的CEO:“他的 领导能力与技术洞察力的结合令人印象深刻。他可以谈论商业,也可以谈论技术。” —肯特·格雷兹尼欧,数据勇士 帕维尔·季诺夫CTO和联合创始人 Cube 朱迪思·福尔克纳,Epic系统公司的创始人和首席执行官:“她太投入策略了 确保企业不会被收购、上市或失去其使命的地方——其目标是将其交给员工未来,因为他们的工作建立了这家公司。” —马特·弗洛里安,箱根 人工智能将弥补行业