AI智能总结
据和 AI 趋势 未来一年的行业定义想法 Introduction 03 贡献者 03 考虑 AI 的局限性 04 道德 AI 移动前面和中心 05 数据建模回来了 , 但现在是关于语义 06 增加采用矢量数据库 07 AutoML 变得无处不在 08 文化(和工具) 进化 09 Conclusion 09 Introduction 人工智能在过去一年几乎触及了每一个行业,并在广泛的文化层面产生了影响。它极大地改变了我们思考、讨论和规划未来的方式。事实上,人工智能几乎影响了我们对明年所有预测的方方面面。 福雷斯特研究公司估计,生成式人工智能的投资将从2022年的400亿美元增长到2032年的1.3万亿美元,这凸显了其在起步阶段的增长势头和主导地位。随着行业适应人工智能,关于伦理框架、建模以及人们如何参与这一过程的讨论正逐渐成为焦点。 在Coalesce,我们热切期待与同事和合作伙伴共同迎接充满创新的一年,构建公平可及的数据基础。欢迎2024年。 贡献者 Kent Graziano Data Warrior LLC 所有者兼首席战略顾问 Armon Petrossian 首席执行官兼联合创始人 , CoalescE Satish Jayanthi 首席技术官兼联合创始人 Michael Tantrum 全国销售总监 ,结果 考虑 AI 的局限性 General AI 的务实方法 但不仅仅是部署AI成本高昂——维持AI系统同样代价不菲。随着基于AI的应用需求不断增加,驱动AI的高级图形处理单元(GPU)供应变得越来越紧张。由于生产产能受限,AI开发可能会因芯片供应问题而变得更加昂贵或进度缓慢。 现实情况是,我们仍在理解AI的过程中,Coalesce首席技术官兼联合创始人Satish Jayanthi解释道。“这项技术还处于早期阶段,我认为今年我们将意识到我们仍在努力理解和掌握这些模型及其局限性。” 考虑到开发、托管和训练模型的成本,我们预计到2024年,许多新的AI模型将会缩小规模,开发者会在规模与性能之间进行权衡。他们将专注于更小的企业级模型,并注重可持续性,同时密切关注供应链情况。“随着我们进入AI的第二阶段,我们将看到更多务实的做法来构建这些模型,”Jayanthi预测。 人工智能的热潮不会消退,但在新的一年里,企业将开始正视人工智能的实际挑战,而不仅仅是被其 hype 所吸引。这其中的确存在不少挑战,包括成本问题。主导文化讨论的人工智能程序,如 OpenAI 的 ChatGPT、Google Bard 和 Synthesia,都需要大量的计算能力来处理查询并生成响应。Jayanthi 指出,组织在构建自己的模型时很快意识到,“获得具有特定延迟的答案并不容易——而且肯定不便宜。” 现实是,我们仍在理解AI的过程中。这项技术还处于早期阶段,今年可能会有承认我们仍在努力理解这些模型及其局限性的声音。 Satish Jayanthi 首席技术官兼联合创始人 道德 AI 向前移动并居中 专注于数据沿袭和治理 在应对构建AI程序的局限性的同时,我们也在处理与之相关的伦理和信任问题,特别是它们在训练过程中所依赖的数据基础。“数据基础是使AI程序成功的关键因素,”Coalesce首席执行官兼联合创始人Armon Petrossian指出。因此,血统和治理比以往任何时候都更加重要。 重视使用高质量数据和持续监督来引导AI程序并非易事。努力必须集中在实施上,并以具体的指标为基础。这需要在后台展现出创新性和合作性,因为没有现成的方法可以衡量像透明度这样复杂的东西。然而,依靠技术最佳实践为前进的道路提供了可能。“我们必须有意识地让相关人员达成共识,”Tantrum建议道,“当我们在这类系统中发现不良数据时,我们就知道这些数据的归属以及是否可以修复。其次,自动化确保每一条新获取的数据都会被测试并符合预期的标准。” 我们必须能够展示我们使用AI生成的每个答案的来源——而不仅仅是作为一种一次性练习,而是作为数据计划DNA的一部分,“National Sales Director” Michael Tantrum在Resultant表示。“透明度和信任变得至关重要,因为如果你用坏数据训练AI,它有可能造成灾难性的影响。” 大多数组织不再质疑是否应该采用人工智能,而是关注何时会全面将其整合到运营中。因此,他们无法忽视关于伦理和数据治理的对话。将质量与来源问题转化为具体的协议和指标,使公司能够提前应对可能对客户、声誉或底线造成伤害的情景。 甚至白宫也在通过近期发布的指导原则来参与讨论AI的开发和训练,以确保在使用和部署AI时保护消费者。去年7月,拜登政府还呼吁进行第三方安全检查,并对AI生成的内容进行水印标注,以帮助用户轻松识别。然而,这些规定仍然是自愿性的,许多人担心它们并未涵盖AI产品的基础部分。 我们必须能够展示我们使用AI生成的每一个答案的来源——而不仅仅是作为一个一次性的工作,而是作为我们数据项目DNA的一部分。透明度和信任变得至关重要,因为如果你用糟糕的数据训练AI,这有可能造成灾难性的影响。 Michael Tantrum Data modeling is back,但现在它是关于语义 Creating a connection between natural language,语义模型和技术数据库 language models (LLMs).去年我们预测数据建模将卷土重来 , 尽管失宠为企业优先考虑的速度 , 有时在质量的代价。随着 AI 继续使其在每个行业中都是众所周知的 , 数据建模是重新进入数据程序。定义数据如何被组织、存储以及其中的关系 ,数据模型是高性能人工智能的关键。到 2024 年 , 这些模型将越来越语义化以满足不断变化的 AI 和大型 directly to business value.能够从数据中收集见解 , 创建更孤立的环境 , 转弯能力有限数据转化为可操作的智能。语义模型通过映射 AI 和 LLM 模型来弥合差距 to increase accessibility and performance.知识图是一种语义建模获得普及 , 因为他们立即使用数据和数据库中的关系。知识图是机器可读的数据结构 , 表示与公司相关的语义知识 ,使数据更容易找到和部署由较少的技术团队成员。知识图可以提高 LLM 响应的准确性高达 52% , 使其成为一个有价值的方法 physical database—that’s the technical part.”“语义模型使用商业和自然语言来描述之间的关系事物 ” , 数据所有者 Kent Graziano 解释说Warrior LLC and a Coalesce advisor. "You need具有正确术语的语义模型普通人可以使用由此产生的 AI然后 , 你必须把它映射到 “我们必须在自然之间建立联系语言、语义模型和技术数据库真正利用数据 , “Graziano 说。 “这是我们将看到的学习曲线人们在 2024 年苦苦挣扎。 “ 随着数据量的增长 , 越来越难以企业利用它。太多时候 , 只有 IT 团队 “我们必须在自然语言之间建立联系 ,语义模型和技术数据库来真正利用数据。这是我们将看到的学习曲线人们在 2024 年苦苦挣扎。 “ Kent Graziano Data Warrior LLC 增加对矢量的采用数据库 为什么可以大规模搜索数据 今天。然而 , 矢量数据库配备了有效地处理大型和复杂的数据类型 ,使用高级索引和搜索算法更有效的相似性搜索 , 有助于建立单词、短语和理解它们是如何的句子相关和不同。这些关系允许将现有数据与任何查询匹配的模型 , demand for vector databases.LLM 和 AI 在塑造数据管理的未来 , 刺激了更容易搜索的矢量数据库。对可搜索数据库的需求在伴随着对事物的不容忍时间 , ” Tantrum 说。虽然这个概念已经在过去的 30 多年里 ,可搜索的数据库越来越可能由于快速采用 AI 和 LLM 及其 conjuring directionally correct answers.training model.他们通过允许用户避免通过运行每个新查询 searchable data is possible at scale,” offers Jayanthi. 矢量数据库捕获数据中的模式 , 并具有自定义算法 , 用于快速搜索 , 产生精确或相似矢量的结果。 “矢量数据库是数据库技术的另一种演变。我们有关系数据库 , 我们有 NoSQL数据库 , 我们有图形数据库 , 现在我们有矢量数据库。它们是专门为 AI 构建的和 LLM 应用程序是唯一的原因 数据库倾向于发展以满足当前技术。矢量数据库已经发展为了满足 AI 的需求 , 与非结构化数据结婚集合和 LLM 的力量。 2024 年将需要更好地理解、访问和部署矢量数据库 , 以匹配 AI 的扩展系统。作为 AI 准确性和可用性的驱动力 ,这些数据库将成为无所不在的数据管理在新的一年。 传统数据库在处理方面存在局限性非结构化数据 - 生成的大多数数据 "2024 will demand greater understanding, access, and deployment矢量数据库 , 以匹配人工智能系统的扩展。 “ AutoML 接管 像 Copilot 这样的工具变得无处不在 皮特罗西亚尼认为:“我认为像Snowflake Copilot这样的工具将在未来一年内变得普遍。”该解决方案可以通过LLM技术根据输入的问题生成SQL。格里亚诺补充道:“这类工具使企业能够自动化以前非常技术性的任务,并从其数据中获得更多的价值。” 去年我们对 2023 年的另一个预测是正确的 : 自动化确实在我们的行业中变得无处不在。 自动化机器学习(AutoML)正呈上升趋势,随着对使人工智能(AI)普及化的需求增长。AutoML 允许非技术用户快速训练、优化和部署模型。预计从2023年到2028年间,复合年增长率(CAGR)将达到43.9%,AutoML 将成长为一个接近80亿美元的市场。 随着AutoML提高效率,相关工具将迅速增加。企业在急于采用这些工具之前,需要评估其团队将如何使用AutoML工具和数据科学专长。公司还需要确定这些程序如何最有效地支持现有的技术栈和业务智能需求。 接管数据科学家和开发人员的常规任务,如数据预处理、模型选择、调整和优化,这些工具正迅速发展,以创建更具效率和可扩展性的模型。它们甚至可能取代迄今为止AI和ML应用的传统开发方式。 未来五年 AutoML 市场的预期规模 来源 : Mordor Intelligence 文化(和工具) 演变 人比工具和技术更重要 长期以來,信息技术行业专注于开发能够解锁自动化、人工智能和机器学习潜力的工具。如今,我们已进入IT工具的新时代,并重新思考人们在数据项目中的角色。“现在,人比工具更重要,”Jayanthi表示,“我们如何构建数据项目及其人员配置将带来新的范式转变,这一转变可能需要一段时间才能显现出来。” 这在很大程度上与整个生态系统的变化有关,”格拉齐亚诺补充道。“业务分析师正在使用数据库,整个文化正在转向以商业语义方式进行操作。因此,将数据建模为商业术语并建模业务概念非常重要。无论你拥有多少工具,如果没有能够进行商业与IT之间转换的人,这一切都将无法实现。” 数据工具现在使非技术性的商业用户能够更接近企业的数据基础。同时,随着数据分析项目的益处扩展到业务的每一个环节,对IT团队的需求也在发生变化。“世界变得更加协作性更强,”Tantrum说,“随着工具处理工程技术方面的工作,我们需要能够创造性思考和有效沟通的人才。这是一套与之前我们要求数据人才具备的不同技能。” 随着