您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [北京青云智算科技有限公司]:青云AI算力产品与服务手册 - 发现报告

青云AI算力产品与服务手册

报告封面

青云算力产品与服务手册AI 目录contents. 01. 06. 通用与行业解决方案25 概述01 关于青云算力中心面临新挑战人工智能计算全流程产品概述02030406 通用解决方案26行业解决方案33 07. 02. 青云 AI 智算平台07 案例实践40 产品介绍产品特性0809 国家济南超算中心青海昆仑智能算力中心某大型国企中国农业银行广发证券广西北部湾银行某头部大模型厂商某大模型科技公司清华电子院某自动驾驶厂商41424343434446474850某地方三甲医院某城市商业银行某具身机器人公司某公共交通运营单位46474850 03. 青云 AI 算力云服务15 产品介绍产品资源功能特性161617 04. 青云 AI 智算一体机19 产品介绍产品特性标准硬件规格202021 05. AI 合作伙伴22 AI 技术合作伙伴23构建优秀的 AI 解决方案23AI 解决方案关键环节24 概述0102 关于青云 北京青云智算科技有限公司(简称“青云智算”)是北京青云科技集团股份有限公司(简称:青云科技,股票代码:688316)的控股子公 司 。顺应算力基建 、人工智能等市场趋势 , 结 合 青 云 公 有 云 十 余 年 的 技 术 积 累 和 运 营 经 验 , 青 云 智 算 打 造 自 主 可控、 全栈能力、 高效可靠、 生态开放的智算平台、算力云服务和智算一体机,联合生态伙伴和渠道伙伴, 服务于企业的数智化创新。 青云科技是一家技术领先的企业级云服务商与数字化 方案 提 供 商。 自 2012 年创立以来, 坚持 核 心代码自研, 以顶尖的技术实力见长, 构建起端到端的数字化解决方案, 并于 2021 年 3 月登陆上交所科创板,被称为“混合云第一股”。 企业数字化专家 数字中国创新者与建设者 依托顶尖的自研实力、全栈产品架构、场景化方案能力,打造了从小规模业务验证到大规模业务部署的完整国产化上云路径,以中国科技服务数字中国。 专注企业级市场,拥有十余年 服务经验,经过长期实践验证,帮助百行千业重构 架构, 加速数字化转型, 驱动业务创新。 云原生核心服务商与技术引领者 AI 算力先行者与领导者 通过智算平台与算力云服务,为算力中心建设者与运营者提供算力调度与管理能力,为企业提供从算力到应用的产品与服务, 让真正能释放出价值。 提供覆盖多集群管理、、可观测性、微服务等场景的完整云原生产品和方案,开箱即用、灵活定制,陪伴企业走好云原生的每一步。 累计建设算力规模10000P+企业用户18000+单个智算中心建设规模3000P+合作伙伴3500+ 算力中心面临新挑战 人工智能行业迎来质变式发展, 以、 预训练模型、 多模态技术、 生成算法为代表的算法模型发展迅猛, 实现从计算智能、 感知智能再到认知智能的进阶, 生成式为人类社会打开了认知智能的大门 。 通过单个大规模数据的学习训练,令具备了多个不同领域的知识,人工智能已经能完成真实场景的任务。 随着越来越多的企业加速从数字化向人工智能化迈进,实现业务自动化智能化,对算力的需求在不断扩大,基础设施的投入也在迅速增长。 这些都代表了不可阻挡的发展趋势。 人工智能的发展以及大模型生产工具的出现,无疑将引领人类进入一个全新的时代。 在过去, 算力主要服务于互联网和企业数字化, 以为中心,其核心追求是稳定性。 然而, 在和大模型的时代, 未来年的算力需求、 业务应用及其底层架构将迎来巨大变革。 新的业务形态将以人工智能服务为主导, 以模型算法开发、 微调、 部署推理的算力服务为核心,其特点是快速构建、 即时启动。 未来的算力需求将不再仅限于支持传统应用和云原生应用, 更将迎来快速增长的应用。 在这个全新的时代, 我们需要更加快速、高效、 多元的算力支持, 以满足市场的不断变化、 技术的快速发展, 以及适应多样的业务场景。 然而,算力中心的建设与应用并非一帆风顺,仍面临着许多挑战。 大量异构算力资源、 复杂的高速网络调度以及海量数据管理,将比传统计算业务更加复杂,任务出错高,往往需要全栈工程师来进行配置和支持,交付周期长、 风险大、 成本高。 资源管理复杂 行业场景迭代快、 产品组合多, 新兴的分析场景支持困难, 所以需要把模型、 数据集和算力调度快速结合,而这些将要求算力中心有更高的起步门槛。 快速形成应用场景 的蓬勃发展带来了大量的新兴技术公司, 在各个领域都有创新技术, 打包组合形成整体解决方案,将有助于客户快速提升业务能力。 生态整合交付复杂 算力投资巨大, 客户的服务访问场景多样化, 传统的模式往往计费形式固化不灵活、用户沟通时间长,导致客户无法快速获取计算和评估成本,造成用户流失的可能,而算力中心也因此无法有效变现。 运营专业复杂 人工智能计算全流程 人工智能涉及多个知识领域, 如机器学习、 认知科学、 计算科学等。 人工智能计算过程涉及多个步骤, 从数据收集到模型训练再到最终的应用, 每个流程都具有自己的计算特点。 数据存储 需要从各种数据源(如数据库、 文件、等) 收集大量的结构化和非结构化数据。 可以包括文本、 图像、 声音等各种类型。 数据处理 收集到的数据需要进行处理和标注,以便用于后续的模型训练。数据处理包括数据清洗、 数据转换、 特征提取等步骤。 数据标注是为了提供给模型训练使用的已标记的训练数据, 以便模型能够学习如何从输入数据中提取模式。 模型开发 在数据处理和标注完成后, 需要进行模型设计和开发。 这包括选择合适的模型、 算法和框架, 以及不断调整算法参数。 模型训练 使用已标记的数据集开始模型训练。 在这一步骤中, 根据训练数据集和测试数据集的分配, 训练任务会根据算法、 源代码、训练框架提取特征, 形成结果模型, 再经过几次相关参数的微调, 直至初步模型结果满意。 模型效果评估 训练完成后, 需要进行效果评估, 以确定其是否满足要求。评估可以通过各种指标(如准确率、 召回率等)来衡量模型的性能。 模型部署和应用 模型满足要求后, 就可将其部署到实际环境中。部署过程包括将模型嵌入应用程序中、 创建以供其他系统调用等步骤。 - 覆盖计算业务流程 - 在整个计算流程中, 可能需要使用不同规格的计算设备来服务不同的计算流程。 模型设计环节 需要开发机来进行算法开发和调整 参 数,对 机 器 的 要 求 低,使 用或者单卡可满足需求。 不同的模型差距巨大,有的需要千卡规模的并行计算,也有的需要单卡或8 卡的微调训练业务,系统能够根据用户诉求分发和调整调度策略。 计算特征是要根据推理服务的调 用 量 进 行 负 载 均 衡 、自 动 扩容以保证推理服务的稳定可靠运行。 在青云科技的助力下, 工程师和运维人员可以从算法开发到模型处理, 一站式完成科研工作, 提升工作效率, 迅速实现科研成果。 01 02 03 提供全方位的技术支持,包括计算、高速存储、数据集存储、高速网络以及全领域计算业务。 借助青云的专业技术团队,客户可以持续在人工智能领域进行创新,轻松开发业务模型。 青云与行业生态伙伴携手共建青云生态体系,为客户提供强大的解决方案支持, 在道路上更进一步。 产品概述 青云立足深耕云计算及云原生十余年的技术积累与运营经验,以经过实践检验的青云智算平台打造智算中心的建设与运营新模式, 满足大模型设计、 训练、 部署与推理的算力需求, 实现多元算力统一调度、 云边算力协同、 多类型业务应用兼顾、 高效运维与运营, 以青云算力云服务为企业与开发者提供从算力到应用的完整服务, 以开箱即用的青云智算一体机, 为企业快速搭建就绪的基础设施。 AI 智算一体机 AI 算力云 完备的云上基础资源与应用支持,用户即来即用,释放强大算力。 开箱即用,就绪的企业级算力基础设施。 软硬一体常用模型集成一键 AI 开发简单管理配置 专业的服务 提供智能、高效、专业的计算产品与解决方案 01 专业技术支持团队 全流程建设服务 青云 AI智算平台1001 产品介绍 青云智算平台致力于打造算力中心建设运营的新模式, 具备八大优势:自主创新、 功能完善、 智能运维、 成熟运营、 开源开放、 安全合规、 中立可靠、 灵活部署。 平台能轻松驾驭千卡/万卡级别的资源管理能力, 优化算力调度策略实现更短调度链路, 资源即来即用, 轻松应对大规模并行训练场景。 用户可实现像管理本地资源一样管理基础设施, 覆盖从模型设计、 模型训练、 模型部署、 模型推理的全链条计算全流程,采用“云原生架构 +AI 业务支持+租户隔离”模式,提升部署、资源获取和运营效率。 多元算力统一调度 对多元算力进行统一调度管理,算力池化和切分,包括多样显卡、 高速计算网路以及、本地与并行文件存储支持, 实现算力资源按应用、 按需求随时匹配, 自动切换。 智能算力调度管理 具备分布式调度与管理能力, 划分不同资源组, 自动分配和管理算力资源, 与调度系统结合, 能大幅缩短任务执行时间,让客户专注于应用开发和业务创新。 国产芯片异构支持 统一管理多种异构服务器、 存储、 安全等设备, 提供多厂商的统一管理分发, 为上层不同的应用提供蓬勃算力。 智简运维 精细运营 通过统一运营和运维管理平台, 规范化、 可视化高效运维资源, 帮助管理员实现精细化资源分配, 实现多种计算场景服务的标准化运营。 结合多维资源监控, 提高算力利用效率。 智能生态支撑应用 提 供 开 放 的 应 用 框 架 和 模 型 服 务 , 提 供 丰 富 的 计 算 环 境 , 集 成 行 业 内 多 家 厂 商 生 态 应 用 , 打 造 丰 富 的应用服务, 助力用户实现全场景业务落地。 产品特性 异构算力调度与管理 统一集群管理 异构算力的统一集群管理, 用户可轻松查看集群内 、 、 、、内存等多种资源的实时使用效率。 通过直观的界面, 用户能够全面了解集群的负载状态, 为资源优化提供数据支持。 基于集群的实时负载情况, 用户可灵活进行节点添加、 删除及队列调配等管理操作, 确保资源的高效利用与动态平衡。 万卡分布式调度 内置强大的分布式调度引擎,支持千卡万卡级别的算力资源调度与管理。 通过优先级调度、预留机制、暂停/恢复功能、公平共享策略, 以及抢占式调 度等多种 调 度 模 式, 满 足不同应 用场 景下的 复杂 需求 。 个 性化安置组 策略能 够自动分配 和管理算力资源, 确 保任 务以 最 短时间完成, 显著提 升计算效率 。 资源按需匹配与自动管理 自动根据任务需求匹配算力资源, 实现资源的即需即用与快速周转。 支持个性化安置组策略, 自动分配和管理资源, 大幅缩短任务执行时间。 同时, 任务执行完毕后自动释放资源, 确保资源持续可用。 任务提交与镜像加速 用户端提供便捷的可视化界面, 支持一键提交分布式任务, 并内置常用计算框架如†‡、等。 针对超大镜像分发问题, 提供镜像加速功能, 优化传输协议与缓存策略, 显著降低分发时间, 提升整体计算效率。 算力切分与算力池化 算力切分:细粒度与高效隔离 基于容器技术, 结合驱动层级的拦截技术,实现了多品牌单卡的灵活分配与显存切分。 用户可 以根据 实际需 求, 自定义计算规格与切分规格(均支持后台添加), 轻松实现共享算力与显存切片管理。 算力池化:公共与专属算力池 支持用户轻松组建公共算力池或专