大模型时代软件供应链的效率与安全管理实践 李威JFrog 1.MLOps中软件供应链的管理痛点2.MLOps中软件供应链的引入与管理最佳实践3.大模型版本管理与治理最佳实践4.大模型安全风险治理5.未来展望 目 录 CONTENTS PART 01 软件供应链管理痛点 AI的风险 ●幻觉●偏见●恶意软件●数据投毒●版权●恶意网址 ●越狱●间接提示注入●恶意指令●私人信息●伪造来源 数据科学家成为攻击目标 JFrog安全研究团队开发了扫描环境,每天多次严格检查上传到Huggingface的每个新模型 AI/ML 与传统软件研发的异同 如今 AI/ML 模型版本管理的问题 •使用 S3 存储桶这会让数据科学家自行命名每个上传,这通常会导致命名不一致、File_Name_Final_Final_Final 难题,甚至丢失文件。重复存储,占用大量空间 •使用 Git 数据科学家和工程师只需在 Main 分支上堆叠 Commit, 利益相关者可以看到以前的提交,但没有简单的方法可以知道他们每次提交会得到什么,因为名称只是一组随机字符。 “基于 FTP/SVN 的手工作坊又回来了” PART 02 软件供应链的引入与管理最佳实践 Model is a Package! Model是基于算法训练数据生成的二进制文件,用于根据新数据进行推理。 AI软件供应链的单一可信源 JFROG 模型管理 lHugging Face 代理/缓存lHugging Face 本地模型存储lModels 和 Datasetsl开源协议扫描l恶意模型扫描l标准化 MLOpsl单一可信源 PART 03 大模型版本管理与治理最佳实践 AI/ML 模型版本管理 1.更好的存储和性能,替换 FTP/S32.模型管理版本化3.元数据可视化4.存储空间可清理5.易于分享模型6.晋级模型,而无额外存储成本7.同步模型到生产环境,而无额外网络成本8.模型安全扫描 软件供应链可信管理:元数据 •用于记录软件生命周期信息,解决制品黑盒问题•打破部门墙,在上下游传递制品信息•支持元数据正向、反向查询•可作用于制品筛选、制品清理、制品按需分发等 交付物 依赖包 •代码分支、tag•需求/task信息•开发团队/人员信息•构建流水线信息•代码扫描结果•测试结果•供应链扫描结果•第三方安全、合规检测信息•文档信息•审批记录•发布信息•归档信息 •准入申请、审批信息•生命周期信息 AI Model •Model原始信息•训练数据集信息 嵌⼊式软件包 匹配设备型号目标客户信息分发同步信息 与MLFlow 集成 删除实验后,一旦 MLflow 的垃圾收集器运行,它也会默认从其相应的 JFrog Artifactory 存储库中删除。也可以配置永久保留。此功能可有效管理您的存储资源。 JFrog AISecOps 与Qwak集成 JFrog与Qwak集成的完整AISecOps解决方案,可实现团队之间的无缝交叉协作。 1.将所有模型、制品集中在唯一可信源中2.减少外部服务中断或消除公共存储库中模型或包版本的潜在风险3.管理和限制对外部私有或公共存储库的访问,确保用户只能使用经过批准的源4.为利益相关者提供有关公司内部使用的内容的全面透明度 并发下载可打满 80-100% 带宽 多研发中心Model管理 PART 04 大模型安全风险治理 Model也有安全风险? 攻击者正在针对公共机器学习库进行攻击,以渗透到组织内部。 JFrog对Models风险的调研 480k+公共机器学习库中扫描包的数量 60+models 有恶意攻击行为 10+models中包含与操作系统无关的反向Shell恶意软件! JFrog 对机器学习库进行安全监控 PyTorch 模型的流行率最高,紧随其后的是Tensorflow Keras 模型。 需要强调的是,当我们提到“恶意模型”时,我们特指那些包含真实、有害有效负载的模型。 PyTorch 模型(大幅)和 Tensorflow Keras 模型(H5 或 SavedModel 格式)构成执行恶意代码的最高潜在风险,因为它们是流行的模型类型,具有已发布的已知代码执行技术。 恶意模型 l在蜜罐中运行模型l发现多个外部的IP连接l目前还没有看到攻击者发送哪些指令l预测是一个长期的钓鱼项目 加载 ML 模型如何导致代码执行? 某些模型使用“pickle”格式,这是序列化 Python 对象的常见格式。但是,pickle 文件还可以包含加载文件时执行的任意代码。 虽然这个问题被Huggingface发现,并开发了一种用于安全存储模型数据的新格式,称为 safetensors,但并没有对pickle类型采取禁止策略 Model可以安全使用么? AI供应链防火墙 阻断恶意Model ●全面的二进制扫描,检测嵌入的恶意代码●对被阻止的模型进行全面审计●左移策略-有问题的Model绝不会进入内部库 JFrog对Model及其他软件供应链进行安全监控 JFrog 能帮开发者节省多少时间? JFrog | Qwak 一体化ML管理平台 Build, Train, Secure, Serve, and Monitor ML Models and GenAI in a Unified Experience 软件供应链单一可信源 •软件供应链仓库 •操作系统软件供应链(yum、apt)•开发语言依赖组件供应链(开发语言私服)•容器供应链(镜像及helm chart)•AI供应链(Model、pypi、conda、Docker)•传统制品(tar、zip) •企业单一可信制品库是软件供应链仓库,也是企业软件资产仓库。 •没有统一管理,就无法治理。•低维护成本、高可用、高性能的仓库 JFrog | GitHub 深度集成,以AI驱动安全开发 JFrog MLSecOps 解决方案 THANKS 谢谢观看 JFrog 官方网站:www.jfrogchina.comJFrog 咨询热线:010 - 82023518