行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

李威-大模型时代软件供应链的效率与安全管理实践-

信息技术 2024-11-17 2024AI研发数字峰会AiDD北京站王泰华

大模型时代软件供应链的效率与安全管理实践

软件供应链管理痛点

AI的风险包括幻觉、偏见、恶意软件、数据投毒、版权、恶意网址、越狱、间接提示注入、恶意指令、私人信息、伪造来源等。数据科学家成为攻击目标，例如JFrog安全研究团队发现每天多次扫描上传到Huggingface的新模型存在恶意行为。

AI/ML与传统软件研发的异同在于，AI/ML模型开发涉及数据科学家、研究工程师、开发人员、DevOps工程师和运维工程师等多个角色，而传统软件研发涉及软件工程师、DevOps工程师和运维工程师。目前AI/ML模型版本管理存在问题，如使用S3存储桶导致命名不一致、文件丢失、重复存储；使用Git导致版本管理混乱。

软件供应链的引入与管理最佳实践

模型被视为基于算法和训练数据生成的二进制文件，用于推理。AI软件供应链应使用单一可信源进行管理，例如Artifactory用于缓存和管理PyPI、Pytorch的包，Docker或OCI用于管理ML运行环境，Helm Charts用于管理ML模型和其他制品。

JFrog模型管理包括Hugging Face代理/缓存、本地模型存储、模型和数据集管理、开源协议扫描、恶意模型扫描、标准化MLOps和单一可信源。

大模型版本管理与治理最佳实践

AI/ML模型版本管理应实现更好的存储和性能（替换FTP/S3）、模型管理版本化、元数据可视化、存储空间可清理、易于分享模型、晋级模型而无额外存储成本、同步模型到生产环境而无额外网络成本、模型安全扫描。

软件供应链可信管理通过元数据记录软件生命周期信息，解决制品黑盒问题，打破部门墙，支持元数据正向、反向查询，并作用于制品筛选、制品清理、制品按需分发等。依赖包交付物包括代码分支、tag、需求/task信息、开发团队/人员信息、构建流水线信息、代码扫描结果、测试结果、供应链扫描结果、第三方安全、合规检测信息、文档信息、审批记录、发布信息、归档信息、准入申请、审批信息、生命周期信息。

与MLFlow集成可删除实验后从JFrog Artifactory存储库中删除模型，有效管理存储资源。JFrog AISecOps与Qwak集成可实现团队间无缝协作，将所有模型、制品集中在唯一可信源中，减少外部服务中断风险，管理和限制对外部存储库的访问，提供内容透明度。并发下载可打满80-100%带宽。多研发中心模型管理通过多地镜像联邦仓库实现模型就近下载、异地多活、计算卡在云上、海外计算。

大模型安全风险治理

模型也存在安全风险，攻击者针对公共机器学习库进行攻击以渗透组织内部。JFrog对Models风险的调研显示，480k+公共机器学习库中60+models有恶意攻击行为，10+models中包含与操作系统无关的反向Shell恶意软件。PyTorch模型和TensorflowKeras模型构成执行恶意代码的最高潜在风险。

恶意模型通过蜜罐运行模型发现多个外部IP连接，但尚未发现攻击者发送哪些指令。加载ML模型可能导致代码执行，某些模型使用“pickle”格式包含加载文件时执行的任意代码。

模型安全使用需考虑漏洞、恶意攻击、开源许可和维护信息。JFrog Curation & Artifactory可实现隔离仓库阻断高危漏洞开源组件，内网JFrog仓库连接到隔离区进行持续漏洞扫描和监管。AI供应链防火墙通过全面的二进制扫描检测嵌入的恶意代码，对被阻止的模型进行全面审计，实施左移策略防止问题模型进入内部库。

JFrog对Model及其他软件供应链进行安全监控，包括SCA漏洞扫描及开源协议扫描、提供漏洞修复建议及调研、跨技术栈影响性分析能力、与仓库集成提供单一可信源、集成全球最完整的商业漏洞数据库VulnDB、提供全生命周期扫描能力、扫描看板、扫描报告、SBOM报告、IDE、代码库、构建工具插件、基于风险及合规信息阻断包下载。

JFrog能帮助开发者节省每年用于修复错误的软件包的总小时数，研发人数为2850人。

未来展望

JFrog| Qwak一体化ML管理平台提供Build, Train, Secure, Serve, and Monitor ML Models and GenAI的统一体验。软件供应链单一可信源通过软件供应链仓库实现，包括操作系统软件供应链、开发语言依赖组件供应链、容器供应链、AI供应链、传统制品等。企业单一可信制品库是软件供应链仓库和企业软件资产仓库，具有低维护成本、高可用、高性能。

JFrog | GitHub深度集成以AI驱动安全开发，包括Curation、IDE Extensions、Issues、Source Control、Artifactory、Binary Management、Binary Security、Actions + Distribution、Code Spaces、Code Security、Actions、Catalog、Copilot、AKS + Runtime Security、Azure Serverless、Admission Control、Continuous Scanning Container Analysis、API。

JFrog MLSecOps解决方案包括Model/LLM Training & Fine Tuning。

大模型时代软件供应链的效率与安全管理实践李威JFrog 1.MLOps中软件供应链的管理痛点2.MLOps中软件供应链的引入与管理最佳实践3.大模型版本管理与治理最佳实践4.大模型安全风险治理5.未来展望目录 CONTENTS PART 01 软件供应链管理痛点 AI的风险 ●幻觉●偏见●恶意软件●数据投毒●版权●恶意网址 ●越狱●间接提示注入●恶意指令●私人信息●伪造来源数据科学家成为攻击目标 JFrog安全研究团队开发了扫描环境，每天多次严格检查上传到Huggingface的每个新模型 AI/ML 与传统软件研发的异同如今 AI/ML 模型版本管理的问题 •使用 S3 存储桶这会让数据科学家自行命名每个上传，这通常会导致命名不一致、File_Name_Final_Final_Final 难题，甚至丢失文件。重复存储，占用大量空间 •使用 Git 数据科学家和工程师只需在 Main 分支上堆叠 Commit，利益相关者可以看到以前的提交，但没有简单的方法可以知道他们每次提交会得到什么，因为名称只是一组随机字符。 “基于 FTP/SVN 的手工作坊又回来了” PART 02 软件供应链的引入与管理最佳实践 Model is a Package！ Model是基于算法训练数据生成的二进制文件，用于根据新数据进行推理。 AI软件供应链的单一可信源 JFROG 模型管理 lHugging Face 代理/缓存lHugging Face 本地模型存储lModels 和 Datasetsl开源协议扫描l恶意模型扫描l标准化 MLOpsl单一可信源 PART 03 大模型版本管理与治理最佳实践 AI/ML 模型版本管理 1.更好的存储和性能，替换 FTP/S32.模型管理版本化3.元数据可视化4.存储空间可清理5.易于分享模型6.晋级模型，而无额外存储成本7.同步模型到生产环境，而无额外网络成本8.模型安全扫描软件供应链可信管理：元数据 •用于记录软件生命周期信息，解决制品黑盒问题•打破部门墙，在上下游传递制品信息•支持元数据正向、反向查询•可作用于制品筛选、制品清理、制品按需分发等交付物依赖包 •代码分支、tag•需求/task信息•开发团队/人员信息•构建流水线信息•代码扫描结果•测试结果•供应链扫描结果•第三方安全、合规检测信息•文档信息•审批记录•发布信息•归档信息 •准入申请、审批信息•生命周期信息 AI Model •Model原始信息•训练数据集信息嵌⼊式软件包匹配设备型号目标客户信息分发同步信息与MLFlow 集成删除实验后，一旦 MLflow 的垃圾收集器运行，它也会默认从其相应的 JFrog Artifactory 存储库中删除。也可以配置永久保留。此功能可有效管理您的存储资源。 JFrog AISecOps 与Qwak集成 JFrog与Qwak集成的完整AISecOps解决方案，可实现团队之间的无缝交叉协作。 1.将所有模型、制品集中在唯一可信源中2.减少外部服务中断或消除公共存储库中模型或包版本的潜在风险3.管理和限制对外部私有或公共存储库的访问，确保用户只能使用经过批准的源4.为利益相关者提供有关公司内部使用的内容的全面透明度并发下载可打满 80-100% 带宽多研发中心Model管理 PART 04 大模型安全风险治理 Model也有安全风险？攻击者正在针对公共机器学习库进行攻击，以渗透到组织内部。 JFrog对Models风险的调研 480k+公共机器学习库中扫描包的数量 60+models 有恶意攻击行为 10+models中包含与操作系统无关的反向Shell恶意软件！ JFrog 对机器学习库进行安全监控 PyTorch 模型的流行率最高，紧随其后的是Tensorflow Keras 模型。需要强调的是，当我们提到“恶意模型”时，我们特指那些包含真实、有害有效负载的模型。 PyTorch 模型（大幅）和 Tensorflow Keras 模型（H5 或 SavedModel 格式）构成执行恶意代码的最高潜在风险，因为它们是流行的模型类型，具有已发布的已知代码执行技术。恶意模型 l在蜜罐中运行模型l发现多个外部的IP连接l目前还没有看到攻击者发送哪些指令l预测是一个长期的钓鱼项目加载 ML 模型如何导致代码执行？某些模型使用“pickle”格式，这是序列化 Python 对象的常见格式。但是，pickle 文件还可以包含加载文件时执行的任意代码。虽然这个问题被Huggingface发现，并开发了一种用于安全存储模型数据的新格式，称为 safetensors，但并没有对pickle类型采取禁止策略 Model可以安全使用么？ AI供应链防火墙阻断恶意Model ●全面的二进制扫描，检测嵌入的恶意代码●对被阻止的模型进行全面审计●左移策略-有问题的Model绝不会进入内部库 JFrog对Model及其他软件供应链进行安全监控 JFrog 能帮开发者节省多少时间？ JFrog | Qwak 一体化ML管理平台 Build, Train, Secure, Serve, and Monitor ML Models and GenAI in a Unified Experience 软件供应链单一可信源 •软件供应链仓库 •操作系统软件供应链（yum、apt）•开发语言依赖组件供应链（开发语言私服）•容器供应链（镜像及helm chart）•AI供应链（Model、pypi、conda、Docker）•传统制品（tar、zip） •企业单一可信制品库是软件供应链仓库，也是企业软件资产仓库。 •没有统一管理，就无法治理。•低维护成本、高可用、高性能的仓库 JFrog | GitHub 深度集成，以AI驱动安全开发 JFrog MLSecOps 解决方案 THANKS 谢谢观看 JFrog 官方网站：www.jfrogchina.comJFrog 咨询热线：010 - 82023518

点击免费查看完整报告

李威-大模型时代软件供应链的效率与安全管理实践-

大模型时代软件供应链的效率与安全管理实践

软件供应链管理痛点

软件供应链的引入与管理最佳实践

大模型版本管理与治理最佳实践

大模型安全风险治理

未来展望

你可能感兴趣

高效与安全并重：AI软件供应链管理策略与最佳实践

基于 RAG 提升大模型安全运营效率实践

2025年中国银行大模型部署实践：DeepSeek如何优化银行业的算力资源与运营效率

Jfrog-李威-软件供应链战事

软件供应链安全之开发者最佳实践指南

软件供应链安全之开发者最佳实践指南

陈曙光-中国联通软件供应链安全测试实践

魏辰-网商软件供应链安全治理实践

软件供应链安全实践

软件供应链安全治理实践指南白皮书