行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

使用 NLP 改进生成式 AI _ Seuss

信息技术 2024-05-13 Data Summit 2024 数据峰会邓轶韬

使用 NLP 改进生成型 AI

生成式 AI 在商业研究中的应用
哈佛商学院研究发现，使用 ChatGPT-4 的顾问绩效提升显著：
- 高水平顾问绩效提升 17%
- 低水平顾问绩效提升 43%
- 任务完成速度提升 40%，质量提升 25%
  微软调查显示，75% 的商业专业人士使用 AI 工具（BYOAI），其中 90% 认为 AI 节省时间、提升创造力。
生成式 AI 解决方案的选择
创建 Generative AI 解决方案的三个选项：
1. 检索增强生成（RAG）
  - 解决 LLM 幻觉问题（如将“蓬松”误认为“飞盘”）
  - 通过外部知识库检索事实，提升准确性和可靠性
  - 成为生成 AI 的标准技术（引用 Oracle、微软、Nvidia、IBM、亚马逊、Intel 的观点）
2. 上下文窗口（Context Window）限制
  - GPT-3.5 Turbo（4K）、GPT-3.5 Turbo（16K）、GPT-4 Turbo（128K）
  - 限制输入输出文本总和，导致成本高昂（GPT-4 Turbo 每令牌成本 10 倍于 GPT-3.5 Turbo）
3. 克服上下文窗口限制的策略
  - 分块文档：将文档拆分处理，但可能丢失跨片段的上下文
  - 文档摘要：仅使用摘要进行操作，但会丢失部分信息
  - 两轮处理：先摘要再处理，适用于部分市场研究
  - NLP 消除无用文本：通过解析树识别“值得总结的句子”，平均减少 55% 文本，降低 95% API 成本
研究结论
- 生成式 AI 显著提升商业分析效率和质量
- RAG 成为生成 AI 的核心技术，但需解决上下文窗口限制
- NLP 方法（如消除无用文本）可有效降低成本并优化性能

使用 NLP 改进生成型 AI 提交时间:数据峰会 2024May 9, 2024 议程使用生成人工智能进行商业研究生成人工智能解决方案的选择虚构与检索增强生成语境窗口的重要性克服语境窗口限制的方法将自然语言处理应用于生成人工智能解决方案 SinglePoint 集成了与客户端相关的所有内容，无论其来源如何用于市场研究和竞争情报的生成 AI 是一种强大的新工具哈佛商学院的一项研究发现，758名波士顿咨询集团（BCG）咨询顾问参与的研究表明，生成式和对话式AI对商业战略工作产生了巨大影响。那些以前被认为高于平均水平的顾问的业绩提高了 17% 顾问分为使用 ChatGPT - 4 或不使用 ChatGPT - 4 的小组给定一系列业务战略研究任务来执行那些以前被认为低于平均水平的顾问将其绩效提高了 43 ％按数量和质量衡量的产出使用 Gen AI 的小组完成任务的速度提高了 40% ，质量提高了 25% 微软本周刚刚发布的对 30, 000 名 LinkedIn 会员的调查发现，员工在采用 AI 方面遥遥领先于雇主从婴儿潮一代(73 ％) 到 Z 世代(85 ％) 的所有世代都是 AI 的重度用户 75 ％的商业专业人士在工作中使用 AI 其中 78% (75 分中的 59 分带来自己的 AI点) 是工作工具 - 不愿意等待他们的公司提供它们用户表示，人工智能帮助他们节省时间(90%) ，专注于最重要的工作(85%) ，更有创造力(84%) ，更享受工作(83%) 创造了新的缩写词： “BYOAI ”带来自己的 AI 创建 Generative AI 解决方案的三个选项使用检索增强生成幻觉问题：大语言模型（LLMs）是概率性的文本预测器，在聊天应用中往往依赖于其训练数据。 LLM 训练数据：狗追逐(飞盘 [100] 汽车 [50] 猫 [10]) 用户输入：一只狗在追 Fluffy 用户提问：什么是 Fluffy ？ LLM 将问题表述为： • 什么单词最有可能完成“Dogs chase …”？• 查询其训练数据以找到最可能的答案• 这个单词是“Dogs chase frisbees”。生成 AI 答案：蓬松是飞盘避免幻觉从经审核的内容生成相关文档列表将文档文本与用户的问题一起发送到 LLM 的 API 提示模型仅从提交的内容使用 RAG 避免幻觉并确保准确性 • 什么词最有可能完成 “蓬松是一个... ”生成 AI 答案：蓬松是猫LLM 训练数据：狗追逐(飞盘 [100] 汽车 [50] 猫 [10])用户输入：一只狗在追 Fluffy用户提问：什么是 Fluffy ？搜索过程输入一组检索到的文档，这些文档具有单词 “蓬松 ” 在他们检索到的文档中有这样一句话： “蓬松，尽管是一只猫，喜欢追逐飞盘。 "生成 AI 将问题表述为：该过程提示 LLM 模型仅使用检索到的文档中的文本来回答问题检索增强生成正在成为事实上的标准检索增强生成是一种技术，可以在查询上提供比单独的大语言模型更准确的结果，因为RAG使用了大语言模型中已包含数据之外的知识。- Oracle 然而，在实际生产场景中使用[大规模语言模型（LLMs）]时，它们存在一些局限性，主要是因为它们只能回答与训练数据相关的提问。这意味着它们不知道发生在它们训练日期之后的事实，并且无法访问受防火墙保护的数据。检索增强生成（RAG）是一种模式，旨在通过向LLM提供与用户问题相关的最新数据来克服上述限制，这些信息是通过提示注入的。-微软检索增强生成（RAG）是一种通过从外部来源获取事实来提升生成AI模型的准确性和可靠性的技术。- Nvidia RAG 是一个基于外部知识库检索事实的 AI 框架，用于使大型语言模型（LLMs）基于最准确和最新的信息进行grounding - IBM 检索增强生成（RAG）是优化大型语言模型输出的过程，在生成响应之前，它会参考其训练数据来源之外的权威知识库。-亚马逊当前模型已在通过增强检索增强生成（RAG）前端来允许提取模型外部的信息，以解决依赖记忆信息模型的不足方面取得了显著进展。- Intel 商业问题大型语言模型 (LLM) 具有表示为令牌限制的上下文窗口 (一个令牌平均. 75 个单词) • GPT - 3.5 Turbo 去年夏天有一个 4K 上下文窗口 • GPT - 3.5 Turbo 今天有一个 16K 上下文窗口 • GPT - 4- Turbo 有一个 128K 上下文窗口上下文窗口约束输入和输出文本的总和多少就够了？多少上下文就足够了？适应上下文窗口的策略使用具有更大上下文窗口的LLMs分块文档，仅发送相关片段使用LLM总结文档，在摘要上进行操作为每份文档分别发送交易；进行两轮处理使用NLP消除无意义的文字使用更大的模型有一个经济问题 GPT - 3.5 Turbo 具有 16K 上下文窗口 •每 M 令牌 0.50 美元 GPT - 4 Turbo 具有 128K 上下文窗口 •每 M 令牌 10.00 美元使用更大的上下文窗口每个令牌的成本增加 20 倍将文件分块，对分块进行操作在古代(2023 年) ，当上下文大小为 4K 时，人们谈论得更多将每个文档分解成段落大小的块使用嵌入(矢量搜索的一种形式) 检索块发送最相关的块，并要求 Gen AI 响应但是将文档分割可能会导致准确性丧失，因为相关上下文可能分布在不同的片段中而无法被检索到。使用 LLM 汇总文档，仅在 RAG 解决方案中发送摘要会丢失很多没有进入摘要的信息当只有一小部分将被使用时，必须处理整个语料库新闻示例 • 语料库中有1500万篇新闻文章 • 而在任何给定年份，仅有一百万篇会在特定客户用户的搜索结果中出现 •为什么需要为总结全部1500万篇付费？第二遍提供总体总结用第二遍为每个文档发送单独的交易记录适用于许多内容类型不会最适合最具成本效率的模型，适用于部分二级市场研究和大部分一级市场研究。使用 NLP 消除无用的文本减少文档至其“值得总结的句子”。值得总结的句子是陈述性的，可以通过句子的解析树来确定。值得总结的句子表达一个有趣的想法。例如：IBM今天以300亿美元收购了Red Hat。不是值得总结的句子：IBM做了什么？请关注我们的社交媒体。本文件包含前瞻性声明……。[出版商名称]提供市场研究……。微软的新生产相似性。 SyntaxNet 和 Parsey 一起工作，产生可以解释的图解句子陈述性句子是思想和见解的单位。声明式句子有一个名词主语，一个词根中的动词谓语和一个直接宾语。我们可以使用解析的句子图来评估一个句子是否表达了一个相关的精巧的想法。在这种情况下，机器学习到该句子的主题是IBM（名词主语），并且IBM收购了RedHat（动词谓语）。北极光每天计算三百万个句子的解析树使用 NLP 专注于总结有价值的句子，平均可将文档文本减少 55 ％即使是商业组织中最大的文档也可以适应 16K 模型将 API 成本降低 95% 对于任何给定的模型，将生成式 AI 解决方案的 API 成本降低 55% 分开拍摄生成的 AI 改变了搜索范式，精灵不能放回瓶子里高回报将获得那些获得磁头开始生成式AI显著减少了完成任务的时间并提高了业务分析的工作质量。检索增强生成正在成为生成 AI 的事实上的标准上下文窗口对 RAG 解决方案的设计和操作施加了严重限制有许多策略可以克服这些限制，而将文档文本缩减为仅包含有意义句子的自然语言处理（NLP）方法往往非常有用。谢谢！ C. David Seuss 首席执行官北极光 David @northernlight. com 1 -617 - 515 - 5771 此演示文稿完全由人类撰写，GPT-3.5 Turbo 不对作者所犯的错误承担责任。

点击免费查看完整报告

使用 NLP 改进生成式 AI _ Seuss

你可能感兴趣

2024生成式AI使用趋势研究报告

公关传播人士使用生成式 AI 的完整指南

银行如何使用生成式 AI 来增强营销披露

2024澳门居民生成式AI使用状况专题报告

ChatGPT还需要跨越几道鸿沟-生成式AI工具使用调查及启示

2024生成式AI使用趋势研究报告：用户需求、场景创新与行业发展全景解读_AI_月狐数据

2023生成式AI认知及使用调研报告

生成式AI在新闻稿创作中的影响及2024年公关与传播专业人士如何使用新闻稿

开发者如何使用生成式AI创建新一代游戏

使用生成式AI生成假设市场数据场景