您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[亚马逊云科技]:亚马逊云科技:LLMOps 驱动生成式 AI 应用的运营化 - 发现报告

亚马逊云科技:LLMOps 驱动生成式 AI 应用的运营化

AI智能总结
查看更多
亚马逊云科技:LLMOps 驱动生成式 AI 应用的运营化

目录 亚马逊云科技:LLMOps驱动生成式AI应用的运营化.............................................3京东电商搜索:大模型生成式检索优化实践..................................................................22京东健康基于大模型的生成式推荐在电商标品推荐的应用.......................................44喜马拉雅基于大模型ChatBl实践探索...........................................................................60ChatBI:基于文心一言的生成式数据分析技术探索....................................................70面向生成式AI的向量数据库:架构,性能与未来趋势...........................................84有数ChatBI:大模型驱动下的数据分析技术探索和实践......................................103火山引擎基于大模型ChatBI的演进与实践...............................................................129 亚马逊云科技:LLMOps驱动生成式AI应用的运营化 导读:生成式AI的应用与大模型的开发是一个复杂的过程,涉及从模型选择、微调到部署和监控的全生命周期管理。通过精细化的角色划分,提供者负责构建基础大模型,调优者进行行业定制化优化,消费者则在此基础上应用模型解决实际问题。技术上,检索增强生成(RAG)和高效微调(如PEFT)等方法有助于提升模型的准确性和适应性。亚马逊云科技的生成式AI服务通过简化的API接口,支持用户快速调用和定制大模型,提供持续优化和监控功能,确保模型在实际应用中的稳定性和效果。整个流程需要严格的评估、反馈和优化,才能推动生成式AI在各行业中的有效落地和持续改进。 本次分享的主要内容包括: 1.生成式AI用例2.MLOps与LLMOps3.构建核心用例4.调优之旅 分享嘉宾|王宇博亚马逊云科技开发者关系负责人,首席布道师编辑整理|陈思永内容校对|李瑶出品社区|DataFun 01 生成式AI用例 生成式AI能够不断向前推进,是因为其可以获得实际的落地应用。让我们从一个简单的例子开始探讨生成式AI的应用。 1.生成式AI用例:电子邮件摘要生成器 在工作中,我们会收到大量的电子邮件,尤其是涉及长时间跨度的原始邮件及回复,我们希望能够从中快速获取关键信息,以便于进一步判断和采取行动,这时电子邮件摘要生成器就可以发挥作用。通过大模型技术,可以快速生成邮件摘要,帮助用户有效获取信息。同时,针对邮件中的技术细节和最佳实践等信息,可以快速提取相关文档,以利于优化后续工作。除此以外,很多在线应用都增添了类似功能,例如商品评论摘要等等,都是利用大模型自动提炼出关键信息。 2.从小处着手,从大处着想 从上面的例子来看生成式AI如何落地。 核心诉求:用户希望通过大模型快速获得电子邮件的摘要,这需要将大模型应用于信息提炼。 扩张思考:摘要生成后,用户可能需要查阅相关文档、产品能力介绍、服务说明等,这需要更复杂的关联功能来实现。 未来规划:随着技术的进步,期望大模型能帮助用户解决更多的领域细节问题。 02 将大模型应用到实际生产实践中并非一蹴而就,需要经过复杂的技术实现,包括数据处理、模型评估、模型调优等一系列步骤。 模型的适应性与可扩展性:大模型的一个主要挑战是其适应性和可扩展性。随着企业和项目的需求变化,如何让大模型在不同的场景中都能高效工作,是一个技术难题。例如,一个专为电子邮件摘要设计的大模型,如何在客户服务、技术支持或市场营销等多领域中都能产生有用的信息?这需要模型具有较高的泛化能力,能够根据实际场景灵活调整。 成本问题:大模型的训练和部署通常需要庞大的计算资源,这使得它们在生产环境中的运维成本非常高。为了应对这一挑战,云计算和分布式技术的结合显得尤为重要,尤其是采用云端结合的架构来优化成本和计算资源的利用。 隐私保护与数据安全:大模型在处理大量敏感数据时,如何确保用户隐私和数据安全是一个亟待解决的问题。尤其是在处理电子邮件或企业内部通讯时,数据泄露或模型训练过程中不当的数据使用可能带来巨大的风险。对此,需要加强数据加密、合规审查、去标识化等技术措施。 MLOps(MachineLearningOperations)指的是高效的机器学习生产落地实践方案,是使机器学习运营化的能力。FMOps(FoundationModelOperations)和LLMOps(LargeLanguageModelOperations)则是针对大模型的生产落地实践方案。 无论是MLOps还是FMOps或LLMOps,其核心都是人、技术和流程。人是其中最为重要的一环,包括开发者、工程师、用户等不同角色。技术则是一直以来备受关注的方面,包括模型的选择、性能、准确率、成本等等。最后是流程化,包括流水线的构建,涉及持续集成和交付工具(CICD)等技术。 相比于传统的MLOps,LLMOps需要考虑更多因素,主要仍是集中在人、技术和流程三大方面。 人:按人群画像,分为模型提供者、模型微调者和消费者。 型号选择:包括专有模型还是开源模型的选择,模型大小,并综合考虑性能、准确率、成本,以及许可证。 版本控制的构件:包括提示、LLM版本、LLM超参数,以及数据集。 编排:将LLM连接到外部存储器、代理、数据库。 调整模型:包括提示工程、RAG、微调。 评估模型:包括多任务、场景,以及各项指标。 部署模型:需要考虑单租户或多租户形式,以及成本、延迟、量化和数据隐私等多个方面。 长期监控性能:大模型可能出现偏见或幻觉问题,需要依据人类反馈长期监控。 针对不同类型的用户群体,需要构建不同的LLMOps。从用户的维度来看,三大类人群:提供者、调优者和消费者,涉及不同的技术能力。 提供者:提供者负责从头开始构建大模型。这包括数据处理以及模型的训练、调优、部署和推理等工作。提供者在技术上需要具备端到端的大模型构建能力,并能够针对不同的业务需求设计或选择合适的模型。 调优者:调优者通常是基于提供者提供的基础大模型进行微调,以满足特定领域和应用场景的需求。他们将调整后的模型作为服务(ModelasaService)提供给消费者。调优者需要具备扎实的机器学习技能,尤其是在模型部署、推理、调参方面,同时需要有一定的行业知识,如教育、医疗、金融等,才能更好地进行领域定制化调优。 消费者:消费者是最终使用大模型的用户,通常集中在应用开发领域。消费者不一定需要具备深入的机器学习知识,但需要具备对业务领域的深刻理解。通过提示工程,他们能帮助模型更好地适应实际应用场景。消费者在实际应用中是大模型的最终使用者,他们的需求和反馈对于大模型的优化至关重要。 提供者端更加关注MLOps,而消费者端则更多关注于AppDev/DevOps。通过对三类人群的需求理解,可以设计出更加适应不同用户的模型架构和应用流程。 03 构建核心用例 选择合适的应用场景是大模型成功落地的关键。关于用例构建,亚马逊云科技有一套成熟的方法论。 首先是理解应用场景,然后选择合适的大模型,收集测试数据,接着是提示词工程,最终部署。部署后还需要持续地监控,收集反馈数据,不断优化和迭代。 选择应用场景的过程中需要考虑关键性、规模、任务类型、语音和ROI等一些重要问题。以邮件摘要的场景为例,这一需求是非常重要的,但并不是必不可少的。规模方面,邮件的目标受众是公司内员工,可能有几十万人,而面向终端用户的应用规模会更大。另外,要深入分析业务流程,挖掘业务价值。 在应用场景明确后,下一步是选择合适的基础模型(FM)并进行调优。选择基础模型的过程包括三个关键步骤:第一步,了解顶级专有和开源大模型的功能;第二步,评估并选定前三名FM;第三步,根据优先事项选定最佳的FM。 在选择FM之前,首先要了解客户现有技能。接着,要了解市场上主流的大模型,包括专有或开源FM,如Anthropic的Claude系列、亚马逊的Nova系列,Meta的Llama和国内的众多大模型等。每种模型都有其优势与局限,选择时需根据业务需求来进行比较。需要综合考虑模型速度、参数、质量,是否可微调等各方面因素。 根据业务需求,建立一系列快速入围的模型清单,并通过简单的测试进行初步筛选。对入围模型进行实际案例测试,比如在BI能力的场景下,测试模型能否准 确生成财务文件摘要等任务。根据测试结果和模型的表现,选择最合适的模型。此时可以考虑的因素包括:模型的精度、响应速度、扩展性以及对特定任务的适应能力。 模型评估体系类似于二叉树的结构,包含各种指标,以衡量候选模型是否能够满足需求。 上图中展示了一个模型评估的示例。 实例测试:例如,针对特定问题(如当前英国首相的名字),用不同的模型 生成答案,并根据实际准确度、时效性等标准进行评分。 评分与反馈:通过定量的评分和定性的反馈来评估模型,结果可形成一个基于实际应用的“评分表”,帮助开发者决定最终选择的模型。 基于初步筛选出的候选大模型,进一步根据优先级选择出最佳大模型。考虑因素包括速度、精度和成本三个维度。实际应用中,有时为了节省成本,可能会选择稍微牺牲精度的模型,而在某些高精度要求的场景中,速度和成本可能会被放到次要位置。因此三者需综合考虑,根据业务需求进行权衡。 在生成式AI的应用开发过程中,开发者、提示词工程师和测试者的工作包括大模型的选择、提示词工程、测试、连锁提示等,还要考虑输入输出的过滤与护栏,对外需要考虑评级机制。 前端DevOps和应用开发者,需要在外部应用对大模型进行调用,并进行输入输出的评级和反馈。前端通过WebUI与最终用户进行交互。 检索增强生成技术(Retrieval-AugmentedGeneration,简称RAG)是近年来生成式AI应用中的重要发展方向,旨在通过结合外部数据源(如知识库、数据库、文档存储等)提升大模型的生成效果。 RAG的工作原理:RAG结合了生成模型和检索模型,首先通过检索机制从大量的数据源中获取与任务相关的信息,然后利用这些信息作为上下文输入到生成模型中,生成更加准确且有用的结果。这种方法有效弥补了大模型在缺乏外部知识支持时的局限性,尤其在处理动态数据或时效性要求较高的任务时表现尤为突出。 提升生成准确性:通过集成检索功能,RAG能够在生成过程中引入更多的背 景知识,提高生成内容的准确性和相关性。例如,在自动化客服系统中,RAG可以实时检索最新的产品文档和用户反馈,以生成更加符合用户需求的答案。 支持多领域知识:RAG不仅能够增强生成模型的知识广度,还能更好地支持特定行业的需求。 在生成式AI的应用过程中,消费者通常会经历几个关键步骤: 评估和选择模型:由于大模型通常是“黑盒”的,选择合适的模型至关重要。评估时需考虑多个因素,包括模型的准确性、处理速度、资源消耗等。同时,需要通过调整输入的上下文信息,使得模型能够生成符合预期的结果。 人机交互与反馈优化:生成AI的成功应用不仅依赖于初始的模型能力,还需要通过不断的用户反馈来优化生成结果。用户的互动行为(如对生成内容的评分或评论)能够为模型提供改进的方向,从而不断提升系统的响应能力。 个性化微调:微调是优化生成AI模型的一种常见方法,尤其是在面向特定行业或领域的应用时。例如,通过上传行业数据、用户历史记录等进行微调,模型可以生成更加个性化和定制化的内容,满足特定用户的需求。 亚马逊云科技推出的AmazonBedro