AI智能总结
让Infra高效运转 演讲者:王彬腾讯云AI行业高级架构师 推理场景的挑战技术方案案例实践010203 推理场景的挑战 AIGC应用的PMF 生成式内容管理 《生成式人工智能服务管理暂行办法》等合规要求出台,AIGC行业需要落实三类合规要求,分别是数据、内容和算法。 模型的选择 开源LLAMA3对自研模型、SFT模型的冲击,导致是否要在应用中替换模型引擎,模型的一致性如何保障。DiT模型Open-Sora和SDUnet优化,到了重新选择技术栈路线的时刻。 在数据合规方面 在AIGC特定的大模型下提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。 在内容合规方面 越来越重的工程化投入负担 提供者应当依法依规对生成的图片、视频等内容进行标识,履行信息内容管理主体责任,加强本平台网络信息内容生态治理。 围绕生图、LLM、图像理解、视频生成、音频生成,对工程化能力要求越来越高,对AIGC应用迭代、创新负担不断加大。 在算法合规方面 算力供给算法推荐服务提供者必须落实算法备案要求、算法评估要求、算法相对透明要求、用户权益建立健全机制等要求。 Infra降本提效 计算和显存效率 数据访问 随着MoE模型和LongContext的提升,推理所需性能和延迟要求会增高,为满足业务性能要求,更高计算效率和更高显存效率,是急需解决的问题。 数据时效性性差 大模型训练数据都截止到过去的某一个时间点。在一些例如金融的财报,股价,生活中的天气,体育赛事,经济数据等场景缺乏时效性。 业务落地受限 目前大模型的服务成本太高,只能用于高价值用户场景。计算和存储利用率的提升,可能让单位成本迅速降低,从而快速拓展场景到娱乐,内容,多种用户界面。 多模态内容理解问题 对于图像、音频等内容理解、比对、转译等场景,缺乏有效的工程化手段,导致缺乏理解。 AIGC应用重要的工程化过程 推理加速提升效率 3.SD场景算子优化 1.显存优化 2.计算优化 围绕AIGC音视图文的内容审核+价值观判断 •便捷的接入:提供一体化的存储内容安全方案,增量数据一键开启审核,极低的开发成本 •精准的模型:针对AIGC场景审核策略的专项调优和底层模型的定制开发 •更高的性能:根据存储数据智能地调度处理集群,近存储侧的处理能力提供更优的数据传输时延和更低的成本 向量库,AIGC应用不可或缺的“外挂硬盘” 业务挑战 •缺少上下文扩展能力:开源模型受限于其训练方式,缺乏良好的长文本扩展性 •企业私有数据无法公开:目前大模型均为预训练模型,仅能学习公开数据,无法学习企业私有数据 解决方案: 更大的推理数据扩展 •通过腾讯云向量数据库为大模型提供外部知识库,提高大模型回答的准确性,单索引行数可达10亿行 数据分区管理 •多租户场景下自定义数据分区策略,提升数据索引效率,免去分库分表复杂性 端到端AI套件满足RAG应用所需 •包括“文档预处理”、“embedding模型”、“向量检索算法”等多重套件功能组合,提供端到端方案 AIGC数据在异构存储之间流转提效 •方便数据接入:开源数据集/第三方数据集,非常方便从COS统一接入;•方便数据流动:数据统一存储在COS,对接多个处理环节中,数据自由流动,无需数据迁移;•高数据处理性能:数据通过GooseFS缓存加速后,大幅度提升数据处理和训练性能,最高100GB/s吞吐;•降低业务成本:COS提供低成本海量存储,同时通过CFSTrubo冷热数据分层能力,提升训练效率,降低业务成本; 搜索增强,补齐实时性内容、图片内容检索 业务挑战:模型应用的推理阶段,LLM内的先验知识无法涵盖实时场景,如新闻热点、天气、股票等信息。 解决方案 1.LLM推理阶段数据增强 在推理应用过程中,将搜索引擎集成于LLM判断逻辑中,将输入的token拆解后送入搜索引擎查询,帮助LLM大模型补齐实时信息、降低幻觉。 2.多模态图搜数据增强 在多模态场景场景中,当用户上传图片需要基于内容的搜索匹配时,可以采用图搜接口,用于图像内容的搜索增强。 3.常用信息的内容缓存 缓存高频调用搜索引擎的内容,并将搜索返回的JSON内容存放于向量数据库,降低调用过程的延迟。 业务混布,进一步提升利用率 GPU推理业务混布 GPU & CPU业务混布 -隔离&抢占:“如意RUE”内核实现了动态的资源调度和抢占。-无门槛:业务零改造接入,快速提升资源使用率,降低客户成本-弹性调度:实时监控为离线业务提供弹性资源调度能力 -高优任务,保证负载均衡,低优任务,保证资源利用率-支持在线100%抢占-GPU利用率的极致提高 企业组织上,围绕AIGC应用的改变 人才(算法/工程/产品)是竞争力、GPU使用效率是底线 产品PMF导向,直接用云搭MVP 利用云厂商现成的产品力,快速搭建MVP,快速试错。例如:伴聊场景中的RTC外呼、IM、历史对话记忆 云、产品、算法、工程的协同 云厂商+算法+工程+产品,四方互相协调。例如:卡便宜显存有瓶颈时,工程团队能否实现量化,产品侧能否接受部分效果有损 围绕GPU的业务运转模式 例如:AIGC业务元数据的管理 •GPU的价格(包月、按量)、规模、地域•不同类型GPU:单位价格下性能、单位性能下价格•业务可接受的性能、单价 某LLM客户,采用TACO-LLM推理加速方案 总吞吐,TACO-LLM比vLLM高42.8%,比TGI高35.2% 测试模型:业务生文bt模型|GPU:XXXX 测试模型:业务生文cy模型|GPU:XXX 测试条件:从并发batch=2/5/10,运行业务1800s,对比可处理的请求数 测试条件:从并发batch=2/5/10,运行业务1800s,对比可处理的请求数 测试结果 测试结果 •TACO-LLM在2并发时处理请求数达到原方案的1.9倍;•在5/10并发时,原方案OOM,TACO-LLM可运行,极大提高业务吞吐。 •TACO-LLM在2并发时处理请求数达到原方案的1.5倍;•在5/10并发时,原方案OOM,TACO-LLM可运行,极大提高业务吞吐。 某AIGC客户 某AIGC客户案例分享 业务挑战 企业概览 •XX科技,是一家AI人工智能生成平台,旗下有Vega AI绘画生成产品,为用户提供AI智能生成业务。通过AI智能结合用户输入字段进行智能图片生成,提升创作者工作效率。•Vega AI绘画使用自研扩散模型构建文生图、图生图推理平台,基于中英文描述或上传自定义图片,利用AI模型为用户生产多风格、多画质的图片。 •公司处于热点风口,被攻击和盗刷等安全风险较高。为保障平台正常运营,需要加强用户上传图片和AI生成图片的合规审核,并且具有防攻击防盗刷等业务安全能力。•模型微调对算力和存储要求高,同时需要控制成本。•AI推理生成图片或视频需要高性价比的GPU算力及推理加速能力支持每天百万图片生成业务。 DDOS高防包、WAF、验证码服务保证企业网站安全 针对安全需求,腾讯云解决方案有效解决了网站被攻击停服,网站漏洞注入,网站恶意注册等挑战。 数据万象CI大幅降低中间传输成本 针对图片审核需求,在最接近COS数据源的地方完成审核,降低了中间传输成本,并为业务提供每天百万级图片审核服务,审核的准确率>95%。 高性价比的GPU 高性价比的GPU、CFS Turbo高性能存储以及GooseFS加速能力,高效稳定支撑百万级模型参数微调,解决崩脸崩手问题。高性价比GPU降低40%算力成本,推理加速提高30%效率 THANKS 谢 谢 观 看