AI智能总结
测试 GENERATIVE AI :减轻风险并最大化机会 1部分理解此处的 GENERATIVE AI 生成 AI 的基础 一种基于用户请求生成内容的新型技术,被称为提示(Prompts)的生成式人工智能(Generative AI,简称Gen AI)应用能够通过合成、总结或生成内容来产生新的文本、图像、视频和音频。尽管用户与Gen AI的互动方式类似于使用搜索引擎,但两种技术生成响应的方式存在显著差异。 尽管搜索引擎以存储的方式检索信息,生成式AI(Gen AI)则分析大量的由人类生成的数据(训练数据),以学习如何以有价值的方式响应用户请求。这种分析是由一种大型语言模型(LLM)——一种类型的神经网络——来执行的。随着时间的推移,人类必须继续为LLM提供新的训练数据,以 Fine-Tune 模型并使它学到的信息保持最新。 生成型AI可以自动化并增强众多业务任务,从起草邮件、生成财务报告到创建营销内容和分析客户互动等不一而足——应用场景正在日益扩展。如今,该技术主要被用于提高生产效率和个性化用户体验。 流行的人工智能应用包括ChatGPT(OpenAI)、Gemini(Google)和Copilot(Microsoft)。尽管目前每款应用主要提供基于文本的输入,但语音交互正在逐渐增多。Midjourney、Stable Diffusion和DALL-E是图像生成类应用中的热门产品。 关键术语解释 大型语言模型 (LLM) AI基础模型,包括大型语言模型(LLMs)和扩散模型,驱动了绝大多数通用人工智能(GenAI)应用。这些创新代表了人类历史上的革命性发展,因为它们自动化了许多过去完全依赖人力的任务,如文本生成、总结和分析。正如工业革命自动化了劳动力一样,生成式人工智能革命正在自动化智能。实际上,未来几代人可能会将当前时代称为智能革命。 大型语言模型(LLMs)广泛应用于文本的解释、转换或生成。然而,它们也被用于需要图像、音频和内容生成的应用场景。此外,生成视觉和音频内容的AI模型通常会利用LLMs来解析用户输入请求,并且有时会被用来评估提示输入或输出以回应用户的问题。 它值得澄清的是,LLM 并不是一个应用程序,而是一种支持应用程序的技术。例如,ChatGPT 是由名为 GPT-4o 的模型驱动的应用程序。基于文本的生成式人工智能应用 Claude 则由 Haiku、Sonnet 和 Opus 等大语言模型支持。Meta AI(作为 Facebook、Instagram 和 WhatsApp 应用程序的一部分)则是基于 LLM Lama 3 构建的。 多模态 LLM 多模态是指能够处理用户提供的多种内容“模式”(如文本、图像、图表和视频)信息的LLMs,并且还可以生成这些模式的新内容。领先的多模态模型可以在单个提示中分析和生成各种内容模式。 创成式 AI 与传统 AI 有何不同 生成式AI常被与两种其他人工智能技术混淆:传统机器学习和自然语言处理。 »通常用于分析大量数据和机器学习 (ML) 识别模式、异常值或隐藏的洞察。虽然生成性AI也使用机器学习(ML),但它主要用于生成 或转换内容,而不是进行分析。与传统ML通常异步运行以进行数据分析不同,生成性AI通常作为运行时技术运作。 »最常用于语音助手和自然语言处理 (NLP) 聊天机器人(chatbots)用于解析人类语音或文本(例如,当用户口头向亚马逊Alexa等语音 助手提问时),然后将问题与预定义的回答匹配。虽然NLP能够处理无限的用户输入,但它只能提供预先确定的输出。这使得它在响应与信息相关的人类意图方面不如通用人工智能(Gen AI)灵活。 亚当·切伊(Adam Cheyer),苹果公司Siri技术的创造者,在播客中提到,基于自然语言处理(NLP)的解决方案如Siri被优化为“执行”助手,例如播放音乐或打开用户的日历。相比之下,许多生成式人工智能应用则是“知识型”助手。它们在基于信息查询和创意请求方面表现出色,但在持续执行流程化请求方面并不那么先进。 2SECTION标题在这里产生 AI 趋势 当前的几种趋势描述了 Gen AI 今天的采用及其走向。下面将对它们进行探讨。 三个用例是迄今为止最受欢迎的 为了理解通用人工智能(Gen AI),你需要考虑其在消费者和企业中的应用。消费者对将其用于娱乐目的以及日常任务辅助感兴趣,而企业则专注于利用它提升员工 productivity。所有其他应用场景在优先级上相去甚远。 文本驱动的输入和输出处于领先地位 尽管生成型AI能够生成不同类型的内容,从图像到视频和音频,目前最具价值的形式仍然是文本。历史上,以文本形式存在的非结构化数据对企业来说往往更是一种负担而非资产。企业要想创建、管理、使用和从中提取价值,唯一的方法就是分配人员对这些文本进行筛选,这耗费了大量时间和资源。因此,生成型AI对于产生大量文本或需要分析和转换大量文本的行业、公司部门和应用场景尤为宝贵。 内部解决方案很受欢迎 , 但外部解决方案最有价值 许多公司希望在其组织内部使用通用人工智能(Gen AI),例如借助基于通用人工智能的生产力工具来进行技术测试和学习,然后再将其引入面向客户的场景(这些场景可能涉及更高的风险)。然而,普遍认为面向外部的生成式AI解决方案将产生更大的影响。预计大多数从通用人工智能中获得的好处将来自于将其用于客户服务,这一直是企业的重要成本中心,并将其整合到核心产品中以增加客户价值。 建立一个新的产品 , 或只是一个功能 ? 我们都知道各行业公司都在竞相将其产品 offerings 整合进通用人工智能(Gen AI)。他们面临着两种选择:创建一个完全基于 Gen AI 的新产品,或者将 Gen AI 能力整合到现有产品中。ChatGPT、Gemini Advanced 和微软小 WHICH Copilot 是可以在这两种情况下使用的 Gen AI应用程序示例,因为它们可以服务于广泛的用户和企业群体。目前,大多数公司选择将 Gen AI整合到其现有的产品组合中,特别是在客户关系管理、人力资源知识库、客户服务热线中心以及销售和营销支持等领域。 窄域解决方案是未来 在ChatGPT推出后的几个月里,公司发布了一系列通用目的解决方案。微软Copilot、谷歌Bard(现更名为Gemini)、Anthropic的Claude、Inflection AI的Pi以及ChatGPT都是跨领域生成式人工智能应用,能够为大多数基于知识的问题提供有帮助的回答。然而,如今狭窄领域解决方案更为常见。Perplexity就是一个例子,它可能应用于通用任务,但其聚焦于搜索使用场景。专注于特定领域的应用很快将成为生成式人工智能增长最快的细分市场。 3GENERATIVE AI机会和风险 机会 Gen AI 有四个关键机会 : ( 今天提供) : 加速完成基于知识的1. 超自动化 高度技能的任务依赖于人类级别的常识或专业知识。这一技术已经广泛采用。研究、内容摘要 和内容生成是用户群体中常见的应用场景,企业则将其应用于客户支持、员工知识管理、市场营销内容以及报告撰写等领域。 ( 今天可用) : 简化创意作品的产生 , 使2. 超创建 更多迭代需在给定的时间周期内完成。尽管该技术已被广泛采用,仍处于初级阶段。企业在创意阶段偶尔使用生成式人工智能(Gen AI),而消费者则将其用于娱乐目的。 ( 未来承诺) : 生成 AI 创造小说的能力3. 超个性化 大规模的内容意味着个性化的体验和大规模定制将变得更加可行。目前这还并未得到实质性应 用,并且在未来几年内可能难以发展成熟。尽管它有可能成为一个重要趋势,但当前在技术、计算能力、组织结构、法律以及应用层面仍存在诸多障碍,无法广泛部署。 ( 未来承诺) : 过去二十年的技术时代已经4. 方便 characterized by ever-increasing便利性,如同日益加快的通信和连接速度。生成式AI提供的 是一种充满希望但更为静默的机会。即使便利性不是用户采用生成式AI的主要动力,但它将是大多数人持续使用它的主要原因。 风险 生成性人工智能也引入了新型风险。这些风险可分为四类:不准确性、偏差、安全性和安全性。探讨这些风险是如何被引入生成性人工智能系统的。 生成型AI有时会产生不准确的响应,因为这是一种概率性技术。在过去,像搜索引擎这样的技术几乎完全从数据库或经过策划和批准的内容系统中抽取响应。而生成型AI基于现有数据生成响应,但每次生成的响应都是新颖的。这使得生成型AI比如搜索引擎这样的技术更具灵活性,但也可能引入不准确性、偏见、安全或安全风险等问题。 用于训练Gen AI系统的数据质量是另一个风险因素。所有AI模型都受到用于训练它们的数据的影响,这意味着训练数据中包含的不准确、偏见或不安全的信息可能会出现在用户响应中。可以采用诸如检索增强生成(RAG)等技术来减轻这一影响,或者限制响应仅从批准的数据来源获取信息。 新的访问点(即,应用表面积)和生成式AI解决方案的设计使其成为有益助手,引入了另一项风险因素,通常表现为安全问题或引发AI安全问题。恶意行为者将利用提示注入技术来攻击生成式AI系统的访问点。这可能使他们能够窃取专有或敏感信息,或者修改模型的操作方式。此外,有意设计生成式AI助手成为有益的助手,可能会使其更容易受到攻击,因为它们往往会默认尝试满足请求。 Gen AI 风险及成因 由 Gen AI + 训练数据的概率性质引起的 由 Gen AI 的概率性质引起的 由 Gen AI + 训练数据的概率性质引起的 41有效的遗传 AI 测试的方法 将人类洞察力融入AI解决方案的测试是确保其可靠性和伦理完整性的关键,并使其适合实际应用。解决方案开发人员已经了解到,随着AI技术日益复杂,仅仅依赖自动化测试是不够的。循环包含人类的方法,尤其是通过红队演练,在这一背景下扮演着至关重要的角色。结合使用自动化和人工测试的混合方法使产品团队能够预见潜在故障、理解多样化的用户视角并调整AI行为以符合人类价值观和期望。 那么 , 人类反馈和对抗性测试如何影响生成 AI 系统的开发和部署 ? 循环中的人类 人类反馈必须在整个AI模型开发生命周期中集成。人类参与对于收集初始训练数据、在模型训练阶段提供细微的反馈以及评估模型行为至关重要。 这种人机循环的方法有助于开发人员改进AI响应,以更好地满足人类期望并解决复杂的伦理问题。例如,在发布应用之前与真实客户互动可以揭示独特的见解,这些在孤立的开发阶段可能不明显。这种主动参与确保了AI输出在实际应用中既实用又有益。 红队 红队技术,原本用于网络安全领域,现在被应用于AI测试以识别可能被恶意利用的漏洞。该方法有助于揭示一系列与输出相关的问题,如不准确性、不安全内容或幻觉——这些问题往往是自动化测试无法检测到的。通过系统性的对抗性方法,人类测试员可以挑战AI模型,试图发现潜在的问题。利用这些信息,开发者可以增强模型以抵御潜在的失败点。 红色团队的多样性 多样化视角在红队演练中至关重要,因为它们有助于确保人工智能系统能够应对广泛的场景和用户交互。通过邀请来自不同背景的测试人员,公司可以更好地理解不同用户群体可能如何感知和与AI互动。通常在自动化测试中被忽略的多样化视角可以减少与AI安全和伦理相关的问题,同时也能增强AI应用的整体稳健性,在其向公众发布之前提高其可靠性。 红队领域专长 incorporating 专家在特定领域或行业深厚知识的专业人士对于红队在人工智能中的应用至关重要,这确保了响应不仅准确而且在上下文中也是合适的。这些专家会评估AI输出在法律、医学或技术等领域内的准确性和相关性。例如,法律专家需要测试用于生成或审查法律文件中文字的AI系统,以确保输出符合现行法律法规和实践。 Red Teaming 的用户体验 红队活动中的用户体验方面关注的